まずハーネスが人によって定義がバラバラなイメージ
モデル性能よりハーネス側の実装が効くのは現場感ある。Cursor強いな
harness差は実在するという観察に同意。同じモデルでもCLIの粘り・キャッシュ・timeout挙動で結果が変わる。27問で有意差未達という正直さも信頼できる
興味深い。harnessというかcoding agentsの差のような気もする。
Coding Agent比較用の独自のベンチマーク、Harness Benchを作ってみた話
まずハーネスが人によって定義がバラバラなイメージ
モデル性能よりハーネス側の実装が効くのは現場感ある。Cursor強いな
harness差は実在するという観察に同意。同じモデルでもCLIの粘り・キャッシュ・timeout挙動で結果が変わる。27問で有意差未達という正直さも信頼できる
興味深い。harnessというかcoding agentsの差のような気もする。