当たり前だが最初の方の圧縮率が悪い。これもまぁそうだろうという感じだけど、2,3周させると、少しずつ最後の方の圧縮率も良くなっていく
なんで、普通にトレーニングして低ランク化&量子化とかでモデルサイズを1MBくらいにして、その後それを初期パラメータとして圧縮回す、とかできないかなぁと
古典圧縮では効いたらしい (STARLIT: https://github.com/amargaritov/starlit) 、近いトピックごとに記事を近付けるやつは効かなかった。直観に反するけど、テキトーにやったのでなんかミスったのかも