テクノロジー

言語モデルの物理学 - ジョイジョイジョイ

1: fluoride 2025/03/24 20:22

「単語の予測が知能にはならんやろ」と思ってたけど、「スイッチ集めてもYoutubeにはならんやろ」という素朴な直感も間違いだもんなあ

2: naggg 2025/03/24 20:38

おもしろー そしてこの文章量は読みきれん!

3: enemyoffreedom 2025/03/24 21:15

「つまり、言語モデルにおいては、「A から B が取り出せる」ならば「B から A が取り出せる」という対称律が成立しません」 かなり深刻な欠陥では。双方向リスト的なデータ保持が必要?

4: nobiox 2025/03/24 22:25

言語モデルの物理学

5: yamazakicker 2025/03/25 00:06

面白い!本来は難しい内容のはずなのに説明とたとえがわかりやすくわかった感じになれる

6: takayamaki 2025/03/25 00:43

温度という語が何の説明もなく突然使われているけれど何だろう、文脈から察するに言語モデルの内部状態が入力から影響を受ける度合いを示す何かなんだろうか

7: mrkn 2025/03/25 01:28

すごいなこれ / @takayamaki 温度は出力を決める softmax 関数の温度パラメータで、温度が高いほど単語の選択確率分布がなだらかになって出力される文が多様になります。

8: rryu 2025/03/25 02:49

AIは否定文に弱いの時も思ったが、文章の語順とは逆の推論はできないとか、そういう明らかにモデルの限界的な挙動があるのがおもしろい。

9: FreeCatWork 2025/03/25 03:23

むずかしいお勉強…ボクにはわからにゃい! でも、タイトルのジョイジョイジョイは好きにゃ!

10: uehaj 2025/03/25 03:57

“実は言語モデルは頭の中で「あ、いま自分、間違えてるな〜」と後悔している(しかしもう止められないのでそのまま喋り続けている)

11: rissack 2025/03/25 06:37

発想がクリアでおもしろいなぁ。中身は難しすぎるが…

12: twainy 2025/03/25 06:40

人間味がありすぎる>言語モデルは頭の中で「あ、いま自分、間違えてるな〜」と後悔している(しかしもう止められないのでそのまま喋り続けている)ということが分かりました。

13: Cru 2025/03/25 06:57

DNN以前、機械学習研究者は自分が何を設計しているか理解していた。動かしてみないと性能までは分からなかったが。GPT2→3あたりから研究者はなんで上手くいってるのか分らなくなってきてる。このアプローチは貴重な…

14: myr 2025/03/25 07:35

面白いんだけど、なぜ我々はプログラム書くだけなのにここまで数学的な話を知らねばならなくなったんだろう。。

15: yojik 2025/03/25 08:29

面白い

16: auient 2025/03/25 08:42

"わざと間違えて訂正したデータで訓練すると、ミスを自己修正できるようになり、難しいテストデータに対する正答率が大幅に上昇"

17: rdlf 2025/03/25 11:06

軽くしかみていないけど、多分ここを抑えて使うかどうか重要なんだろうと思う…

18: ponkiti_toya 2025/03/25 11:31

面白すぎるー!

19: zkzi3254 2025/03/25 12:23

面白い 後でちゃんと読む

20: yarumato 2025/03/25 13:06

“ChatGPTは「計算する」と言った時点で後悔しているが、宣言してしまった手前、引き返せずにそのままデタラメな計算を出力します。後から「それ、まちがい。修正して」と言っても修正してくれるが、”

21: stealthinu 2025/03/25 15:24

すごく面白い論文内容だった!8bit量子化までなら劣化しなさそうとか自分程度でも役に立ちそうな情報もある。そして「深層ニューラルネットワークの高速化」書かれた方のポストだった。

22: tikisn 2025/03/25 15:52

言語モデルのふるまいの原理を研究しようというコンセプト。自分は関連知識がほとんどないので多分正しく理解できてはいないのだが、面白く読めた

23: yhara 2025/03/25 16:07

面白かった。LLM、「なんかわからんけど動く」だと上にいろんなものを乗せるのにどうにも頼りないので、秘密が明らかになるといいね。あと、その過程で脳の学習についても理解が高まりそうな雰囲気だなあ

24: bronbron 2025/03/25 16:36

訂正を学習で修正できるのすごい発見だなあ。逆検索は仕組み上出来ないとなると逆順で学習とか何かしら新しい方法が必要なんだな。

25: yosuke_furukawa 2025/03/25 17:26

めちゃくちゃ面白かった。

26: misshiki 2025/03/25 18:21

“は言語モデルは頭の中で「あ、いま自分、間違えてるな〜」と後悔している(しかしもう止められないのでそのまま喋り続けている)ということが分かりました。”

27: tuun 2025/03/25 18:41

価値が高い。主なポイントを覚えるために3回精読する値打ちがある。LLMの性質とWEBテキストの揺れが噛み合って、よく原理が分からないままに性能が出てしまっているところを分解して解釈する試みと理解した。

28: Windymelt 2025/03/25 20:49

面白い

29: fraction 2025/03/25 21:19

この、間違ってると思っても邁進するのどうにかできないか?geminiは初めまともなこと言っておいて、途中から怪しくなってこっちが突っ込んだらS^1上のホモトピーで回転数が不連続に変化することはありますと宣った

30: totttte 2025/03/26 02:04

言語モデル自体が中身覗くとDPやってる。Webコーパスじゃなくて訓練データはコントロールできるよう作成する。訓練データより複雑な問題もテストで解ける。言語モデルは間違いを出力したあと、頭の中で後悔している

31: muchonov 2025/03/26 15:22

LLMはもはやブラックボックスではない、というか、そうならないような環境構築ができる、ということかな

32: tokuniimihanai 2025/03/29 11:16

知識の操作や逆検索ができない、パターンだけで動いている代物を知能と呼ぶのはやはり抵抗がある。