はぁー、今一番読みたい記事だった。
詳しそう
“私は職を失ってしまうかもしれませんが、相変わらず面白い領域です。”
こうするともっと良くなるんじゃないか、という人間の探究心と英知恐ろしいな。
AI画像生成分野は技術更新が早く追うのが大変でビックテックが大量のデータと計算資源を投入してぶち壊してくる割には、需要は極めて少ないので、私は仕事を変えるほど全投入できなかった。ちゃんと追ってるの偉い
“これまでの画像生成AI(Stable Diffusion、Flux.1、DALL-E 3)は拡散モデル設計を基盤。それとは全く異なる、自己回帰モデルを画像生成に応用すると、言語モデルの膨大な知見を画像生成にも流用できる。Any-to-Anyモデル”
たこ焼きの作り方でベンチマークしてる人面白すぎるwww進化がわかりやすいので良い手だなこれ
たこ焼きの作り方って確かに難易度高いよね、画像的にね
画像のトークンとか、bug of keypoints時代からみると隔世の感があるよなぁ。あれがそれなりに動いてた理由ももう説明できるんだろうな。
最後の一文がすごい。
理想的な粒度でまとめてくださって感謝!(ただ、なるほどわからん状態ではあるが)
凄さがむっちゃ伝わってくる(*´д`*)
“GPT-4oとGemini-2.0のAny-to-Anyモデルの裏にある技術的な背景を、分かる範囲で解説”
そのうち推論にも画像や図を生成して、それを参考にまた推論を進める、みたいな事が出来てきたら思考能力も上がりそう。
ムーアの法則が明らかに失速してきたこのタイミングでようやく人類はAIを実現しシンギュラリティに手が届きそうになっている。ほんとここ数年は奇跡のタイミングだったんだなと思う。性能が1/10だったら無理だった。
“GPT-4oとGemini-2.0”
単語と絵の対応を学習する際の手順がdifusion系とは全く違うっぽい
へええ、いまの画像生成AIは拡散モデルじゃなくて自己回帰モデルってやつなのか。規模が効くということなら画像生成AIのモデルもクソデカ VRAM 使うようになっていくのかな……
“テキスト、画像、音声など異なる種類のデータを全て離散トークンとして統一的に表現することで、多様なモダリティを入力として受け取り、同時に様々な形式で出力できる「Any-to-Any」モデルという概念”
マルチモーダル手法この2年で一気に伸びたんだな。すごい参考になった。あと『私は職を失ってしまうかもしれませんが相変わらず面白い領域です』もこの領域追ってる人こそ強く感じてるよね。
GPT-4oとGemini-2.0の画像生成能力はいかにして作られているのか
はぁー、今一番読みたい記事だった。
詳しそう
“私は職を失ってしまうかもしれませんが、相変わらず面白い領域です。”
こうするともっと良くなるんじゃないか、という人間の探究心と英知恐ろしいな。
AI画像生成分野は技術更新が早く追うのが大変でビックテックが大量のデータと計算資源を投入してぶち壊してくる割には、需要は極めて少ないので、私は仕事を変えるほど全投入できなかった。ちゃんと追ってるの偉い
“これまでの画像生成AI(Stable Diffusion、Flux.1、DALL-E 3)は拡散モデル設計を基盤。それとは全く異なる、自己回帰モデルを画像生成に応用すると、言語モデルの膨大な知見を画像生成にも流用できる。Any-to-Anyモデル”
たこ焼きの作り方でベンチマークしてる人面白すぎるwww進化がわかりやすいので良い手だなこれ
たこ焼きの作り方って確かに難易度高いよね、画像的にね
画像のトークンとか、bug of keypoints時代からみると隔世の感があるよなぁ。あれがそれなりに動いてた理由ももう説明できるんだろうな。
最後の一文がすごい。
理想的な粒度でまとめてくださって感謝!(ただ、なるほどわからん状態ではあるが)
凄さがむっちゃ伝わってくる(*´д`*)
“GPT-4oとGemini-2.0のAny-to-Anyモデルの裏にある技術的な背景を、分かる範囲で解説”
そのうち推論にも画像や図を生成して、それを参考にまた推論を進める、みたいな事が出来てきたら思考能力も上がりそう。
ムーアの法則が明らかに失速してきたこのタイミングでようやく人類はAIを実現しシンギュラリティに手が届きそうになっている。ほんとここ数年は奇跡のタイミングだったんだなと思う。性能が1/10だったら無理だった。
“GPT-4oとGemini-2.0”
単語と絵の対応を学習する際の手順がdifusion系とは全く違うっぽい
へええ、いまの画像生成AIは拡散モデルじゃなくて自己回帰モデルってやつなのか。規模が効くということなら画像生成AIのモデルもクソデカ VRAM 使うようになっていくのかな……
“テキスト、画像、音声など異なる種類のデータを全て離散トークンとして統一的に表現することで、多様なモダリティを入力として受け取り、同時に様々な形式で出力できる「Any-to-Any」モデルという概念”
マルチモーダル手法この2年で一気に伸びたんだな。すごい参考になった。あと『私は職を失ってしまうかもしれませんが相変わらず面白い領域です』もこの領域追ってる人こそ強く感じてるよね。