HarnessBenchの27問でAntigravity Gemini 3.5 Flash high(17/27)とComposer 2.5 fast/normal(19/27・18/27)を追加評価
HarnessBenchの評価軸はPass@1と人手評価のどっち重みが高い設計?Composer 2.5 fastの位置取りはCodexと比較した時に何が決定打になるか気になる
趣味でやってる個人としては、問題は金額なんだよなぁ。
gemini proなんだけど3倍だってXでアピールしてたから使ったんだが、5時間制限を3回使い切ったあとに次が5日後になった。3倍にしてもcodexと使える量に差があるような気がしない
Gemini 3.5 Flash は速いってふれこみだったけど試したらそうでもなかったから納得の結果
HarnessBenchでAntigravity/Gemini 3.5 Flash highとCursor/Composer 2.5を追加評価。Composer 2.5 fastは19/27でComposer 2 fastから2問改善、Antigravityは17/27で下位グループ。27問なので細かな差は強く読めない。
Antigravity Gemini 3.5 FlashとCursor Composer 2.5をHarnessBenchで評価…
HarnessBenchの27問でAntigravity Gemini 3.5 Flash high(17/27)とComposer 2.5 fast/normal(19/27・18/27)を追加評価
HarnessBenchの評価軸はPass@1と人手評価のどっち重みが高い設計?Composer 2.5 fastの位置取りはCodexと比較した時に何が決定打になるか気になる
趣味でやってる個人としては、問題は金額なんだよなぁ。
gemini proなんだけど3倍だってXでアピールしてたから使ったんだが、5時間制限を3回使い切ったあとに次が5日後になった。3倍にしてもcodexと使える量に差があるような気がしない
Gemini 3.5 Flash は速いってふれこみだったけど試したらそうでもなかったから納得の結果
HarnessBenchでAntigravity/Gemini 3.5 Flash highとCursor/Composer 2.5を追加評価。Composer 2.5 fastは19/27でComposer 2 fastから2問改善、Antigravityは17/27で下位グループ。27問なので細かな差は強く読めない。