精華大卒の若き2人が創設のAIチームが開発。訓練サンプル1000件でAGIレベルを評価するテスト「ARC-AGI-1/2」で巨大なo3-mini-highやClaude 3.7を凌駕しトップ
HRM久しぶりに聞いた。ジェフ・ホーキンス
GPT5も似たような構成という噂を見た気がする
まだ特定タスク専用という感じかな。ただ、こういった新しい機構がうまく今の先端LLMと融合したら、とんでもない成長を見せる可能性はあって、ちと怖いという感覚もある
「人間には簡単だがAIには難しい汎用人工知能(AGI)を測定するベンチマーク「ARC-AGI-1」では40.3%の精度を達成し、これはOpenAIのo3-mini-highの34.5%、Claude 3.7 8Kの21.2%を上回る成果です。」
AGI!AGI!
高次ニューラルネットと低次ニューラルネットで言語介さずに直接CoTのループ回すみたいな感じ?Metaの概念ベクトルでCoTするのとかも近い話か。すごく小さいモデルなのは概念実証用なのかな。
これさえあればオルツも少しは延命できた
お手軽に試せるようにhuggingfaceで配布してくれないかな… https://huggingface.co/sapientinc
https://vocal.media/authors/how-to-get-a-human-at-coinbase-talk-to-coinbase-rep
ラズベリーLLM
アメリカと中国ばかりで悲しい
精華大学って京都のではなくて北京にあるのね
ジャブジャブにお金突っ込んでどかどかリソースを投入する米国勢と、諸事情で限られた制約の中で効率よく動くモデルを模索する中国勢だと、最終的に後者のモデルが効率で凌駕する事になるんじゃないか、という気がね
“、わずか2700万パラメータという小規模なモデルでありながら、複雑な推論タスクにおいて最先端の大規模言語モデル(LLM)を凌駕するモデルを開発した論文「Hierarchical Reasoning Model」”
で、試すと全然使えないパターンを散々見てきたからなぁ
「AGIを評価するより難しいベンチマーク「ARC-AGI-2」において、スコア5%のパフォーマンスを達成し、はるかに大きなサイズとコンテキスト長に依存するOpenAI o3-mini-high、DeepSeek R1、Claude 3.7 8Kなどを大幅に上回りました」
クロード
謎の超小型AI「HRM」、たった2700万パラメータで巨大なOpenAI o3やClaude 3.7を蹴散らす(生成AIクローズアップ) | テクノエッジ TechnoEdge
精華大卒の若き2人が創設のAIチームが開発。訓練サンプル1000件でAGIレベルを評価するテスト「ARC-AGI-1/2」で巨大なo3-mini-highやClaude 3.7を凌駕しトップ
HRM久しぶりに聞いた。ジェフ・ホーキンス
GPT5も似たような構成という噂を見た気がする
まだ特定タスク専用という感じかな。ただ、こういった新しい機構がうまく今の先端LLMと融合したら、とんでもない成長を見せる可能性はあって、ちと怖いという感覚もある
「人間には簡単だがAIには難しい汎用人工知能(AGI)を測定するベンチマーク「ARC-AGI-1」では40.3%の精度を達成し、これはOpenAIのo3-mini-highの34.5%、Claude 3.7 8Kの21.2%を上回る成果です。」
AGI!AGI!
高次ニューラルネットと低次ニューラルネットで言語介さずに直接CoTのループ回すみたいな感じ?Metaの概念ベクトルでCoTするのとかも近い話か。すごく小さいモデルなのは概念実証用なのかな。
これさえあればオルツも少しは延命できた
お手軽に試せるようにhuggingfaceで配布してくれないかな… https://huggingface.co/sapientinc
https://vocal.media/authors/how-to-get-a-human-at-coinbase-talk-to-coinbase-rep
ラズベリーLLM
アメリカと中国ばかりで悲しい
精華大学って京都のではなくて北京にあるのね
ジャブジャブにお金突っ込んでどかどかリソースを投入する米国勢と、諸事情で限られた制約の中で効率よく動くモデルを模索する中国勢だと、最終的に後者のモデルが効率で凌駕する事になるんじゃないか、という気がね
“、わずか2700万パラメータという小規模なモデルでありながら、複雑な推論タスクにおいて最先端の大規模言語モデル(LLM)を凌駕するモデルを開発した論文「Hierarchical Reasoning Model」”
で、試すと全然使えないパターンを散々見てきたからなぁ
「AGIを評価するより難しいベンチマーク「ARC-AGI-2」において、スコア5%のパフォーマンスを達成し、はるかに大きなサイズとコンテキスト長に依存するOpenAI o3-mini-high、DeepSeek R1、Claude 3.7 8Kなどを大幅に上回りました」
クロード