やるだけ
GCC は SIMD 命令を吐けない
spu-gcc は vector 型や asm と対応した組み込み関数を持っている
    y2_v =                                                              \
        spu_xor(spu_rlmask(y_v, rshift_one),                            \
                spu_shuffle(*(vector unsigned int*)&mtp[O],             \
                            *(vector unsigned int*)&mtp[O+4],           \
                            shift_pattern));                            \
なぜか 4 倍以上になる