v2

v2 で増えた工夫の面白いと思ったとこ

普通の positional embedding は遅いだけでいらなかった。常に同じ数の context が入ってきてる状態なので
エンコード/デコードの最中に、たまに既に回したとこをトレーニングしなおすので、 1 epoch 以上学習してる感じになった。 LSTM より Transformer の方が収束が遅かったぽい
retraining の時だけ dropout を入れた