HarnessBenchの27問でAntigravity Gemini 3.5 Flash high(17/27)とComposer 2.5 fast/normal(19/27・18/27)を追加評価
HarnessBenchの評価軸はPass@1と人手評価のどっち重みが高い設計?Composer 2.5 fastの位置取りはCodexと比較した時に何が決定打になるか気になる
趣味でやってる個人としては、問題は金額なんだよなぁ。
Antigravity Gemini 3.5 FlashとCursor Composer 2.5をHarnessBenchで評価…
HarnessBenchの27問でAntigravity Gemini 3.5 Flash high(17/27)とComposer 2.5 fast/normal(19/27・18/27)を追加評価
HarnessBenchの評価軸はPass@1と人手評価のどっち重みが高い設計?Composer 2.5 fastの位置取りはCodexと比較した時に何が決定打になるか気になる
趣味でやってる個人としては、問題は金額なんだよなぁ。