はてなまとめ - Coding Agent比較用の独自のベンチマーク、Harness Benchを作ってみた話

1: mayumayu_nimolove 2026/05/09 08:02

まずハーネスが人によって定義がバラバラなイメージ

2: nguyen-oi 2026/05/09 08:12

モデル性能よりハーネス側の実装が効くのは現場感ある。Cursor強いな

3: simplememofast 2026/05/09 09:07

harness差は実在するという観察に同意。同じモデルでもCLIの粘り・キャッシュ・timeout挙動で結果が変わる。27問で有意差未達という正直さも信頼できる

4: gfx 2026/05/09 10:32

興味深い。harnessというかcoding agentsの差のような気もする。