日本発でTransformerの弱点を克服する新アーキテクチャとか胸熱。推論1000倍効率化がマジなら世界変わるぞ。論理構成も筋が良さそう
どーなんだろ https://x.com/fumishiki/status/2041551874311274890
現代のLLMではpost-trainingができることが重要な価値だが、そのアーキテクチャでやれるのだろうか
蒸留するのと何が違うのだろう?蒸留の方が並列で流しやすい分、分があるのでは?
スタートレックでは光子魚雷より量子魚雷の威力が大きいのだが…w
分子創薬や画像生成と同じ概念なのかな
先行研究が未引用とのこと
日本発のPHOTONは、Transformerの水平スキャンを階層スキャンへ置き換え、KVキャッシュを大幅削減する新LLMアーキテクチャ。品質を大きく落とさず、長文・多同時リクエストでTPMを数百〜千倍級まで高めうる可能性を示した。
日本発、LLMの推論を「桁違い」に効率化する新アーキテクチャ「PHOTON」の論文が面白かったのでまとめてみた - Qiita
日本発でTransformerの弱点を克服する新アーキテクチャとか胸熱。推論1000倍効率化がマジなら世界変わるぞ。論理構成も筋が良さそう
どーなんだろ https://x.com/fumishiki/status/2041551874311274890
現代のLLMではpost-trainingができることが重要な価値だが、そのアーキテクチャでやれるのだろうか
蒸留するのと何が違うのだろう?蒸留の方が並列で流しやすい分、分があるのでは?
スタートレックでは光子魚雷より量子魚雷の威力が大きいのだが…w
分子創薬や画像生成と同じ概念なのかな
先行研究が未引用とのこと
日本発のPHOTONは、Transformerの水平スキャンを階層スキャンへ置き換え、KVキャッシュを大幅削減する新LLMアーキテクチャ。品質を大きく落とさず、長文・多同時リクエストでTPMを数百〜千倍級まで高めうる可能性を示した。