Language Modeling Is Compression

テキスト圧縮コンテストの Hutter prize をやってる人とか、今 DeepMind なんだなと

これでも当たり前のように NNCP が引用されていて、すごいなと……

こっちは Foundation model 使って圧縮するとすごく縮む、ただパラメータをカウントするルールだと LLM はキツい、というような話

それはまぁそうだろうと思うのだけど、生の画像や音声を適当に切り抜いてバイト列にしただけのものでも png/flac を越える圧縮率になる、てのが全く理解できない。いくらなんでも、なんでそんなことが起きるの……？

enwik9 (1GB) が 70G param のモデルだと 83MB まで縮むらしい。 NNCP は 106MB なのでのびしろがありそう

たしかシャノンによると人間は英語1文字1bitくらいという話だったと思っていて、enwikが定型 XML とかを2-3割だか含むことを考えるとまだ足りてなさそう