数式が欲しいな。 同じ意味を束ねるところでコストがかかりそうだけど、、
データセンターも無限に建てられるわけじゃないし、今後は効率化の技術の重要性が増していくのかな。
すごいな。並のGPUでも実用的にローカルLLMを動かせるようになるのかな?
ここが475倍になると全体としてどれくらいの改善になるんだろう?今までと全然違う使い心地になる?
最大はレアケースじゃないのかな。通常は何倍程度なんだろう
冒頭がうさんくさい詐欺誇大広告みたいで警戒したけど富士通か、これは凄いな
Transformerの説明記事もブクマされてて、はてブは勉強になるなぁと思った
なんか凄そう(小並感)
そもそもプリフェッチ/エンコード/デコードを少なくしてGPUの多重スレッドを効率的に使おうというのが今の本流なんだと思うが、これをソフトでやっても速くなるって?本当に?
“PHOTONは現在、大規模言語モデルの主流の基盤アーキテクチャであるTransformerの最大475倍のマルチクエリー性能”
Tranfromerはこれ読んだから知ってる!https://codezine.jp/article/detail/24575 という人が増えるのでマンガ化は大事
なんか凄い事を言い出したぞ。ちゃんと調べてみよ。/ 把握した。ようするに自宅PCで巨大モデルを動作させられる、みたいな話ではなく、業者がより多くのセッションを同時に処理できるようになるって話ね。
MoEの応用みたいなもの?内容もちゃんと把握できてないけども、実装がOSSで提供されるならちゃんと動作確認するよ。
PHOTON、上手い命名だ。こうした技術は使える!となるとすぐ広まるので期待したい。
少し出遅れたが(いつもそう)日本勢、まだまだやれてまぁす!!
前も似たようなことを言ってたけど実装されたっけ?
Transformerと比較し、GPU当たり最大475倍の出力トークン数を持つ新アーキテクチャを開発
数式が欲しいな。 同じ意味を束ねるところでコストがかかりそうだけど、、
データセンターも無限に建てられるわけじゃないし、今後は効率化の技術の重要性が増していくのかな。
すごいな。並のGPUでも実用的にローカルLLMを動かせるようになるのかな?
ここが475倍になると全体としてどれくらいの改善になるんだろう?今までと全然違う使い心地になる?
最大はレアケースじゃないのかな。通常は何倍程度なんだろう
冒頭がうさんくさい詐欺誇大広告みたいで警戒したけど富士通か、これは凄いな
Transformerの説明記事もブクマされてて、はてブは勉強になるなぁと思った
なんか凄そう(小並感)
そもそもプリフェッチ/エンコード/デコードを少なくしてGPUの多重スレッドを効率的に使おうというのが今の本流なんだと思うが、これをソフトでやっても速くなるって?本当に?
“PHOTONは現在、大規模言語モデルの主流の基盤アーキテクチャであるTransformerの最大475倍のマルチクエリー性能”
Tranfromerはこれ読んだから知ってる!https://codezine.jp/article/detail/24575 という人が増えるのでマンガ化は大事
なんか凄い事を言い出したぞ。ちゃんと調べてみよ。/ 把握した。ようするに自宅PCで巨大モデルを動作させられる、みたいな話ではなく、業者がより多くのセッションを同時に処理できるようになるって話ね。
MoEの応用みたいなもの?内容もちゃんと把握できてないけども、実装がOSSで提供されるならちゃんと動作確認するよ。
PHOTON、上手い命名だ。こうした技術は使える!となるとすぐ広まるので期待したい。
少し出遅れたが(いつもそう)日本勢、まだまだやれてまぁす!!
前も似たようなことを言ってたけど実装されたっけ?