古典的な圧縮では、 F(X,W) の W は普通小さい、と思う。画像なら、近隣のピクセル3つとかせいぜい9つくらいが X で W は (N,1) 行列みたいな。ただ W をコンテキストに応じて選ぶ、はず
例: https://flif.info/slides/FLIF_ICIP16/assets/player/KeynoteDHTMLPlayer.html#25
W が小さいなら W を保存しない理由がないので、 offline になる
W が大きい場合、 W を保存しない online が有効になりうる。欠点は、対象の分布について、学習開始時は何も知らないので、大きなデータでないとまるで圧縮できないこと