ToDo:
https://github.com/shinh/test/blob/master/test_kron.py
たぶんこれであってると思うんだけど、そんなに自信はない。つーか行列の中の行列に ^T とかついてるとマジで目が泳ぐ以外の気持ちがないので、数式なんていう厳密な意味論が定義されてないわけわからんものを使うのをやめて、操作的意味論が定義されてる numpy 関数として書いてほしい……
んーで、 pretrain をそのまま使う感じだと、素直な factorize の方がいい感じじゃない?という感触を得ているのだけど、 kronecker 積にするメリットてなんなんだ?
https://arxiv.org/abs/2109.06243
をちゃんと読むかというと、たぶん読まないんだけど……
Gemm(x, w1 @ w2)
と
Gemm(x, kron(w1, w2))
のどっちが嬉しいですかって話で、 fine tune したら後者が勝つってのはよくわからない。 kronecker 分解は僕の理解が正しければ
Gemm(x, kron(w1(0), w2(0)) + kron(w1(1), w2(1)) + ...)
みたいな感じで svd どこまで使うかというのが選べるとは思うけど、 usv の s がデカいので、まぁ追加学習なしでたいした効果ないのはそんな気がする
(00:49)
前 | 2023年 11月 |
次 | ||||
日 | 月 | 火 | 水 | 木 | 金 | 土 |
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 |
全てリンクフリーです。 コード片は自由に使用していただいて構いません。 その他のものはGPL扱いであればあらゆる使用に関して文句は言いません。 なにかあれば下記メールアドレスへ。