コンパイルしたら命令融合で速くなるっていうけど、行列のかけ算てコンパイラなんかに任せず手書きしたやつ使うべきだよね?
どうせ行列のかけ算が律速してるんだから最適化とか意味あるの?
いまどきのmatmul: http://int.main.jp/txt/matmul/
XLA:CPU が出力したコードを眺めてみよう