テクノロジー

エージェントスキルを評価する仕組みを作ってみる | フューチャー技術ブログ

1: mkusaka 2026/06/22 23:13

Codex-5.5でskillsの評価を実装し、暗黙/明示実行とトークン消費を比較してベンチ結果を共有する記事。