テクノロジー

Antigravity Gemini 3.5 FlashとCursor Composer 2.5をHarnessBenchで評価…

1: mkusaka 2026/05/24 18:22

HarnessBenchの27問でAntigravity Gemini 3.5 Flash high(17/27)とComposer 2.5 fast/normal(19/27・18/27)を追加評価

2: simplememofast 2026/05/24 21:18

HarnessBenchの評価軸はPass@1と人手評価のどっち重みが高い設計?Composer 2.5 fastの位置取りはCodexと比較した時に何が決定打になるか気になる

3: akahmys 2026/05/25 08:14

趣味でやってる個人としては、問題は金額なんだよなぁ。

4: devgai 2026/05/25 10:11

gemini proなんだけど3倍だってXでアピールしてたから使ったんだが、5時間制限を3回使い切ったあとに次が5日後になった。3倍にしてもcodexと使える量に差があるような気がしない

5: door-s-dev 2026/05/25 10:25

Gemini 3.5 Flash は速いってふれこみだったけど試したらそうでもなかったから納得の結果

6: misshiki 2026/05/25 16:17

HarnessBenchでAntigravity/Gemini 3.5 Flash highとCursor/Composer 2.5を追加評価。Composer 2.5 fastは19/27でComposer 2 fastから2問改善、Antigravityは17/27で下位グループ。27問なので細かな差は強く読めない。