今月、プログラミングの勉強会の主催が 2 回ほどあります。そのうちのひとつがパフォーマンス チューニングの実践で、今日一日かけて資料を作成しました。
探索アルゴリズムと CPU キャッシュをネタにビギナー向けのお題を作ったのですが、問題は後者。Haswell が相手だとメモリ アクセスで CPU キャッシュを外すのが難しいですね。なんだか何をやってもそれなりに高速に動作してしまう印象。一応、チューニング前後で 20% 程度の速度差が出ているのでヨシとします。
対象は組込プログラマなので、まぁ L1 しかない環境にスケールさせて話をまとめましょうかね。