「単語の予測が知能にはならんやろ」と思ってたけど、「スイッチ集めてもYoutubeにはならんやろ」という素朴な直感も間違いだもんなあ
おもしろー そしてこの文章量は読みきれん!
「つまり、言語モデルにおいては、「A から B が取り出せる」ならば「B から A が取り出せる」という対称律が成立しません」 かなり深刻な欠陥では。双方向リスト的なデータ保持が必要?
言語モデルの物理学
面白い!本来は難しい内容のはずなのに説明とたとえがわかりやすくわかった感じになれる
温度という語が何の説明もなく突然使われているけれど何だろう、文脈から察するに言語モデルの内部状態が入力から影響を受ける度合いを示す何かなんだろうか
すごいなこれ / @takayamaki 温度は出力を決める softmax 関数の温度パラメータで、温度が高いほど単語の選択確率分布がなだらかになって出力される文が多様になります。
AIは否定文に弱いの時も思ったが、文章の語順とは逆の推論はできないとか、そういう明らかにモデルの限界的な挙動があるのがおもしろい。
むずかしいお勉強…ボクにはわからにゃい! でも、タイトルのジョイジョイジョイは好きにゃ!
“実は言語モデルは頭の中で「あ、いま自分、間違えてるな〜」と後悔している(しかしもう止められないのでそのまま喋り続けている)
発想がクリアでおもしろいなぁ。中身は難しすぎるが…
人間味がありすぎる>言語モデルは頭の中で「あ、いま自分、間違えてるな〜」と後悔している(しかしもう止められないのでそのまま喋り続けている)ということが分かりました。
DNN以前、機械学習研究者は自分が何を設計しているか理解していた。動かしてみないと性能までは分からなかったが。GPT2→3あたりから研究者はなんで上手くいってるのか分らなくなってきてる。このアプローチは貴重な…
面白いんだけど、なぜ我々はプログラム書くだけなのにここまで数学的な話を知らねばならなくなったんだろう。。
面白い
"わざと間違えて訂正したデータで訓練すると、ミスを自己修正できるようになり、難しいテストデータに対する正答率が大幅に上昇"
軽くしかみていないけど、多分ここを抑えて使うかどうか重要なんだろうと思う…
面白すぎるー!
面白い 後でちゃんと読む
“ChatGPTは「計算する」と言った時点で後悔しているが、宣言してしまった手前、引き返せずにそのままデタラメな計算を出力します。後から「それ、まちがい。修正して」と言っても修正してくれるが、”
すごく面白い論文内容だった!8bit量子化までなら劣化しなさそうとか自分程度でも役に立ちそうな情報もある。そして「深層ニューラルネットワークの高速化」書かれた方のポストだった。
言語モデルのふるまいの原理を研究しようというコンセプト。自分は関連知識がほとんどないので多分正しく理解できてはいないのだが、面白く読めた
面白かった。LLM、「なんかわからんけど動く」だと上にいろんなものを乗せるのにどうにも頼りないので、秘密が明らかになるといいね。あと、その過程で脳の学習についても理解が高まりそうな雰囲気だなあ
訂正を学習で修正できるのすごい発見だなあ。逆検索は仕組み上出来ないとなると逆順で学習とか何かしら新しい方法が必要なんだな。
めちゃくちゃ面白かった。
“は言語モデルは頭の中で「あ、いま自分、間違えてるな〜」と後悔している(しかしもう止められないのでそのまま喋り続けている)ということが分かりました。”
価値が高い。主なポイントを覚えるために3回精読する値打ちがある。LLMの性質とWEBテキストの揺れが噛み合って、よく原理が分からないままに性能が出てしまっているところを分解して解釈する試みと理解した。
この、間違ってると思っても邁進するのどうにかできないか?geminiは初めまともなこと言っておいて、途中から怪しくなってこっちが突っ込んだらS^1上のホモトピーで回転数が不連続に変化することはありますと宣った
言語モデル自体が中身覗くとDPやってる。Webコーパスじゃなくて訓練データはコントロールできるよう作成する。訓練データより複雑な問題もテストで解ける。言語モデルは間違いを出力したあと、頭の中で後悔している
LLMはもはやブラックボックスではない、というか、そうならないような環境構築ができる、ということかな
知識の操作や逆検索ができない、パターンだけで動いている代物を知能と呼ぶのはやはり抵抗がある。
言語モデルの物理学 - ジョイジョイジョイ
「単語の予測が知能にはならんやろ」と思ってたけど、「スイッチ集めてもYoutubeにはならんやろ」という素朴な直感も間違いだもんなあ
おもしろー そしてこの文章量は読みきれん!
「つまり、言語モデルにおいては、「A から B が取り出せる」ならば「B から A が取り出せる」という対称律が成立しません」 かなり深刻な欠陥では。双方向リスト的なデータ保持が必要?
言語モデルの物理学
面白い!本来は難しい内容のはずなのに説明とたとえがわかりやすくわかった感じになれる
温度という語が何の説明もなく突然使われているけれど何だろう、文脈から察するに言語モデルの内部状態が入力から影響を受ける度合いを示す何かなんだろうか
すごいなこれ / @takayamaki 温度は出力を決める softmax 関数の温度パラメータで、温度が高いほど単語の選択確率分布がなだらかになって出力される文が多様になります。
AIは否定文に弱いの時も思ったが、文章の語順とは逆の推論はできないとか、そういう明らかにモデルの限界的な挙動があるのがおもしろい。
むずかしいお勉強…ボクにはわからにゃい! でも、タイトルのジョイジョイジョイは好きにゃ!
“実は言語モデルは頭の中で「あ、いま自分、間違えてるな〜」と後悔している(しかしもう止められないのでそのまま喋り続けている)
発想がクリアでおもしろいなぁ。中身は難しすぎるが…
人間味がありすぎる>言語モデルは頭の中で「あ、いま自分、間違えてるな〜」と後悔している(しかしもう止められないのでそのまま喋り続けている)ということが分かりました。
DNN以前、機械学習研究者は自分が何を設計しているか理解していた。動かしてみないと性能までは分からなかったが。GPT2→3あたりから研究者はなんで上手くいってるのか分らなくなってきてる。このアプローチは貴重な…
面白いんだけど、なぜ我々はプログラム書くだけなのにここまで数学的な話を知らねばならなくなったんだろう。。
面白い
"わざと間違えて訂正したデータで訓練すると、ミスを自己修正できるようになり、難しいテストデータに対する正答率が大幅に上昇"
軽くしかみていないけど、多分ここを抑えて使うかどうか重要なんだろうと思う…
面白すぎるー!
面白い 後でちゃんと読む
“ChatGPTは「計算する」と言った時点で後悔しているが、宣言してしまった手前、引き返せずにそのままデタラメな計算を出力します。後から「それ、まちがい。修正して」と言っても修正してくれるが、”
すごく面白い論文内容だった!8bit量子化までなら劣化しなさそうとか自分程度でも役に立ちそうな情報もある。そして「深層ニューラルネットワークの高速化」書かれた方のポストだった。
言語モデルのふるまいの原理を研究しようというコンセプト。自分は関連知識がほとんどないので多分正しく理解できてはいないのだが、面白く読めた
面白かった。LLM、「なんかわからんけど動く」だと上にいろんなものを乗せるのにどうにも頼りないので、秘密が明らかになるといいね。あと、その過程で脳の学習についても理解が高まりそうな雰囲気だなあ
訂正を学習で修正できるのすごい発見だなあ。逆検索は仕組み上出来ないとなると逆順で学習とか何かしら新しい方法が必要なんだな。
めちゃくちゃ面白かった。
“は言語モデルは頭の中で「あ、いま自分、間違えてるな〜」と後悔している(しかしもう止められないのでそのまま喋り続けている)ということが分かりました。”
価値が高い。主なポイントを覚えるために3回精読する値打ちがある。LLMの性質とWEBテキストの揺れが噛み合って、よく原理が分からないままに性能が出てしまっているところを分解して解釈する試みと理解した。
面白い
この、間違ってると思っても邁進するのどうにかできないか?geminiは初めまともなこと言っておいて、途中から怪しくなってこっちが突っ込んだらS^1上のホモトピーで回転数が不連続に変化することはありますと宣った
言語モデル自体が中身覗くとDPやってる。Webコーパスじゃなくて訓練データはコントロールできるよう作成する。訓練データより複雑な問題もテストで解ける。言語モデルは間違いを出力したあと、頭の中で後悔している
LLMはもはやブラックボックスではない、というか、そうならないような環境構築ができる、ということかな
知識の操作や逆検索ができない、パターンだけで動いている代物を知能と呼ぶのはやはり抵抗がある。