SWE-benchのスコア爆上がりしてて草。もうコーダーは人間いらねーじゃん
4.6みたいにまたすぐにナーフされそう😍せめて突然バカになる1日前にアナウンスが欲しいところですな🤔
proじゃopusだのマルチエージェントだのトークンマッハで高嶺の花なんですがどうにかなりませんかね
めちゃくちゃ評判悪いんだけど
すごいけどMythosまで行くと公開できないのならここからは速度やコストの勝負になっていくのかも?
Csとagentic searchが下がってるな。csはコンテキスト考えると安全に倒した気もするけど、agentic searchチューニングせずに出したのが早さを重視しているんだなと感じる
“Amazon Bedrock”
俺のターン!!!!ドロー!!!!!!!労働者を生贄にコーディングエージェントを召喚!!!!!!!
codex5.4でかなり十分なレベルだがさらにすごいのか。gemini cli 3flashはコンテキスト広くて良く覚えてるけど実装力はやや難あり。
"脆弱性調査などの適切な用途向けに「Cyber Verification Program」の申請受付も始めた。"本当に悪人を排除できんのかよ。心配。
うーむ
たぶん1Mトークン対応からできてるんだけど、大きい計画を作って「終わるまでやってね」というのが雑にできるようになってて草。
「Claude Opus 4.7」登場 難関コーディングを「任せきれる」レベルに、画像認識は解像度3倍超
SWE-benchのスコア爆上がりしてて草。もうコーダーは人間いらねーじゃん
4.6みたいにまたすぐにナーフされそう😍せめて突然バカになる1日前にアナウンスが欲しいところですな🤔
proじゃopusだのマルチエージェントだのトークンマッハで高嶺の花なんですがどうにかなりませんかね
めちゃくちゃ評判悪いんだけど
すごいけどMythosまで行くと公開できないのならここからは速度やコストの勝負になっていくのかも?
Csとagentic searchが下がってるな。csはコンテキスト考えると安全に倒した気もするけど、agentic searchチューニングせずに出したのが早さを重視しているんだなと感じる
“Amazon Bedrock”
俺のターン!!!!ドロー!!!!!!!労働者を生贄にコーディングエージェントを召喚!!!!!!!
codex5.4でかなり十分なレベルだがさらにすごいのか。gemini cli 3flashはコンテキスト広くて良く覚えてるけど実装力はやや難あり。
"脆弱性調査などの適切な用途向けに「Cyber Verification Program」の申請受付も始めた。"本当に悪人を排除できんのかよ。心配。
うーむ
たぶん1Mトークン対応からできてるんだけど、大きい計画を作って「終わるまでやってね」というのが雑にできるようになってて草。