はてなまとめ - GPT-4oとGemini-2.0の画像生成能力はいかにして作られているのか

1: kazuph1986 2025/03/27 12:17

はぁー、今一番読みたい記事だった。

2: eroyama 2025/03/27 12:29

詳しそう

3: mobius118_7 2025/03/27 12:46

“私は職を失ってしまうかもしれませんが、相変わらず面白い領域です。”

4: webnoshiori 2025/03/27 13:07

こうするともっと良くなるんじゃないか、という人間の探究心と英知恐ろしいな。

5: u2mhS6tETD 2025/03/27 13:12

AI画像生成分野は技術更新が早く追うのが大変でビックテックが大量のデータと計算資源を投入してぶち壊してくる割には、需要は極めて少ないので、私は仕事を変えるほど全投入できなかった。ちゃんと追ってるの偉い

6: yarumato 2025/03/27 13:37

“これまでの画像生成AI（Stable Diffusion、Flux.1、DALL-E 3）は拡散モデル設計を基盤。それとは全く異なる、自己回帰モデルを画像生成に応用すると、言語モデルの膨大な知見を画像生成にも流用できる。Any-to-Anyモデル”

7: sato0427 2025/03/27 14:20

たこ焼きの作り方でベンチマークしてる人面白すぎるwww進化がわかりやすいので良い手だなこれ

8: otihateten3510 2025/03/27 15:07

たこ焼きの作り方って確かに難易度高いよね、画像的にね

9: otoan52 2025/03/27 15:12

画像のトークンとか、bug of keypoints時代からみると隔世の感があるよなぁ。あれがそれなりに動いてた理由ももう説明できるんだろうな。

10: diabah_blue 2025/03/27 15:20

最後の一文がすごい。

11: peketamin 2025/03/27 15:22

理想的な粒度でまとめてくださって感謝！(ただ、なるほどわからん状態ではあるが)

12: toaruR 2025/03/27 16:12

凄さがむっちゃ伝わってくる(*´д｀*)

13: misshiki 2025/03/27 16:24

“GPT-4oとGemini-2.0のAny-to-Anyモデルの裏にある技術的な背景を、分かる範囲で解説”

14: kei_1010 2025/03/27 19:09

そのうち推論にも画像や図を生成して、それを参考にまた推論を進める、みたいな事が出来てきたら思考能力も上がりそう。

15: napsucks 2025/03/27 20:08

ムーアの法則が明らかに失速してきたこのタイミングでようやく人類はAIを実現しシンギュラリティに手が届きそうになっている。ほんとここ数年は奇跡のタイミングだったんだなと思う。性能が1/10だったら無理だった。

16: ame774 2025/03/27 22:18

“GPT-4oとGemini-2.0”

17: collectedseptember 2025/03/28 07:52

単語と絵の対応を学習する際の手順がdifusion系とは全く違うっぽい

18: KoshianX 2025/03/28 12:30

へええ、いまの画像生成AIは拡散モデルじゃなくて自己回帰モデルってやつなのか。規模が効くということなら画像生成AIのモデルもクソデカ VRAM 使うようになっていくのかな……

19: hide_nico 2025/03/28 14:37

“テキスト、画像、音声など異なる種類のデータを全て離散トークンとして統一的に表現することで、多様なモダリティを入力として受け取り、同時に様々な形式で出力できる「Any-to-Any」モデルという概念”

20: stealthinu 2025/03/28 20:35

マルチモーダル手法この２年で一気に伸びたんだな。すごい参考になった。あと『私は職を失ってしまうかもしれませんが相変わらず面白い領域です』もこの領域追ってる人こそ強く感じてるよね。