「harness engineering」をOpenAI/Anthropic/LangChain/Martin Fowler/arXivで比較し、AGENTS.mdとCLAUDE.md実践手順を整理。
バズワードの再定義合戦始まってて草。結局はLLMをどう安全に、かつ意図通りに動かすかっていう設計論の再構築だよな。型の重要性に回帰するのは面白い
やり方は色々あるってこと
Anthropicの2024年の記事をハーネスエンジニアリングの記事として引用しているし、それ以外も引用先の内容と違うことを書いている。口調からしてAIだし、雑に生成して全く確認してない感じのいい加減な内容。
うーん。まあ人間がモデル化に失敗し続けてるジャンルってAIが出来ても失敗するだけだよね
タッチパネルに図形を描いて設計でもなんでもしたいんだけど。そういう環境を整えるのもエンジニアだろうな。
ハーネスは内在化してる。明示しなくても既に存在はしてるんだけど主導権の握り方とその構造をどうするかが大事でたぶん人によって正解は異なる
使用するモデルで最適なハーネスは変わる。
みんな違うこと言うにゃ〜!ボク、混乱しちゃうにゃ!
うーん「 ハーネス ⊇ コンテキスト ⊇ プロンプト」というよりコンテキストを守らせるためにハーネスがあるのであって内包ではない。あと「エージェントが間違えた → AGENTS.mdに制約を追加 」は明らかに引用論文と矛盾
めも
これ、「LLM用に、明示的な記述が必要な言語を再設計する」というところに行き着くんじゃね? 暗黙の了解を無くしていけば制御しやすいでしょ。LLMが読み書きする前提なら記述が冗長なのはデメリットじゃなくなる。
いずれも、「LLMを取り巻く設定、仕組み(記憶、フィードバック、フック、スキル)づくり大切」でよろしいかと
割と同じようなこと言ってた
バズワードの域を出ない。現状で信頼保障したければガードレールとフックに加えて従来のネットワーク防御を使うしかない。
競走馬と騎手みたいなイメージで、競馬やっている人にはわかりやすいのでは。走るのは馬ですが、騎手がちゃんと御して、戦略を立てて、ラップを刻んで、馬の能力を発揮させる。そんな関係性なのかなと。
ハーネスエンジニアリングという言葉は知らなかったけど、結論の3つは普通にやってることだった
そんなに違うこと言ってる感じもしない。この言葉自体はあんまり流行らんと思う。
“指摘。”
まぁわれわれ末端ITにまで降りてくる頃には確定してるだろ
知らんけど制約条件をどう入れるかってだけじゃないの?
技術は日本人を通すと間違った解釈されるから困る。DXとかまじでひどい。
6層でAIになにをみせるのか、を整理するための構造
コンセプトは同じだけど方法論が各社で異なるって事かと。面白いよね
この辺もまだまだ手探りなところがあるけど、そのうちツールに反映されていき、個人個人ががんばってやることはいずれなくなるという認識でいます。
ハーネスエンジニアリングは定義バラバラも共通は制約強制+フィードバック。実務はAGENTS.md作成→品質ゲート自動化→ループで実践
「こういう比較作業こそAIにやらせるべきだったのかもしれません」AIにやらせてないのすごい!
ハーネスエンジニアリング、全員が違うことを言っている — 5社の解釈を並べてみた
「harness engineering」をOpenAI/Anthropic/LangChain/Martin Fowler/arXivで比較し、AGENTS.mdとCLAUDE.md実践手順を整理。
バズワードの再定義合戦始まってて草。結局はLLMをどう安全に、かつ意図通りに動かすかっていう設計論の再構築だよな。型の重要性に回帰するのは面白い
やり方は色々あるってこと
Anthropicの2024年の記事をハーネスエンジニアリングの記事として引用しているし、それ以外も引用先の内容と違うことを書いている。口調からしてAIだし、雑に生成して全く確認してない感じのいい加減な内容。
うーん。まあ人間がモデル化に失敗し続けてるジャンルってAIが出来ても失敗するだけだよね
タッチパネルに図形を描いて設計でもなんでもしたいんだけど。そういう環境を整えるのもエンジニアだろうな。
ハーネスは内在化してる。明示しなくても既に存在はしてるんだけど主導権の握り方とその構造をどうするかが大事でたぶん人によって正解は異なる
使用するモデルで最適なハーネスは変わる。
みんな違うこと言うにゃ〜!ボク、混乱しちゃうにゃ!
うーん「 ハーネス ⊇ コンテキスト ⊇ プロンプト」というよりコンテキストを守らせるためにハーネスがあるのであって内包ではない。あと「エージェントが間違えた → AGENTS.mdに制約を追加 」は明らかに引用論文と矛盾
めも
これ、「LLM用に、明示的な記述が必要な言語を再設計する」というところに行き着くんじゃね? 暗黙の了解を無くしていけば制御しやすいでしょ。LLMが読み書きする前提なら記述が冗長なのはデメリットじゃなくなる。
いずれも、「LLMを取り巻く設定、仕組み(記憶、フィードバック、フック、スキル)づくり大切」でよろしいかと
割と同じようなこと言ってた
バズワードの域を出ない。現状で信頼保障したければガードレールとフックに加えて従来のネットワーク防御を使うしかない。
競走馬と騎手みたいなイメージで、競馬やっている人にはわかりやすいのでは。走るのは馬ですが、騎手がちゃんと御して、戦略を立てて、ラップを刻んで、馬の能力を発揮させる。そんな関係性なのかなと。
ハーネスエンジニアリングという言葉は知らなかったけど、結論の3つは普通にやってることだった
そんなに違うこと言ってる感じもしない。この言葉自体はあんまり流行らんと思う。
“指摘。”
まぁわれわれ末端ITにまで降りてくる頃には確定してるだろ
知らんけど制約条件をどう入れるかってだけじゃないの?
技術は日本人を通すと間違った解釈されるから困る。DXとかまじでひどい。
6層でAIになにをみせるのか、を整理するための構造
コンセプトは同じだけど方法論が各社で異なるって事かと。面白いよね
この辺もまだまだ手探りなところがあるけど、そのうちツールに反映されていき、個人個人ががんばってやることはいずれなくなるという認識でいます。
ハーネスエンジニアリングは定義バラバラも共通は制約強制+フィードバック。実務はAGENTS.md作成→品質ゲート自動化→ループで実践
「こういう比較作業こそAIにやらせるべきだったのかもしれません」AIにやらせてないのすごい!