意図的に書いてないんだろうけどこれだけじゃうまくいかないよね(実証済み)
AIが書いたコードの品質をAIに保証させるのはもはや定石か。こういう泥臭いオーケストレーションが結局実用性を左右するんだよな
指示の仕方と介入の仕方とセッションの使い方が悪いのが根本的理由じゃないかな…
似た話をいくつかの登壇資料で見たので、どこかのタイミングで公式に組み込まれると思って待ってる。 評価エージェントは完全別コンテキストにするべきという話はよく聞くもんねぇ。
いくつかのエージェントで「サブエージェントに委譲します」的なコメントをみるけど、あれとは違うモノなんだろうか?
LLMだとどこまでやっても100%にはできないので最近はNGパターンを静的にチェックするカスタムlintを作ってる
個人の工夫をAIの進化が飲み込んでいく時代と感じている。良いのか悪いのか
Claude Codeの出力がばらつくため、TAKTやFaceted-Promptingを参照しつつAIコーディングエージェントのオーケストレーションツールで品質保証する実装話。
正直、この手のことはOpenAIとかAnthropicみたいなモデルプロバイダー側が既にやってるし、それで不十分ならモデルの性能向上を待つしかないと思う
プロンプトエンジニアリングの類、MCPにSKILLにこういうスタックはいつか陳腐化するとは思うが、進化するといってもコンテキストウィンドウにも限界がある。こういうオーケストレーションなUIも増えていくとは思う。
Claude Code のコード品質がばらつくので AI に品質保証させる仕組みを作った話 / A story about building a mechanism to have AI ensure quality, because the code quality from Claude Code was inconsistent
意図的に書いてないんだろうけどこれだけじゃうまくいかないよね(実証済み)
AIが書いたコードの品質をAIに保証させるのはもはや定石か。こういう泥臭いオーケストレーションが結局実用性を左右するんだよな
指示の仕方と介入の仕方とセッションの使い方が悪いのが根本的理由じゃないかな…
似た話をいくつかの登壇資料で見たので、どこかのタイミングで公式に組み込まれると思って待ってる。 評価エージェントは完全別コンテキストにするべきという話はよく聞くもんねぇ。
いくつかのエージェントで「サブエージェントに委譲します」的なコメントをみるけど、あれとは違うモノなんだろうか?
LLMだとどこまでやっても100%にはできないので最近はNGパターンを静的にチェックするカスタムlintを作ってる
個人の工夫をAIの進化が飲み込んでいく時代と感じている。良いのか悪いのか
Claude Codeの出力がばらつくため、TAKTやFaceted-Promptingを参照しつつAIコーディングエージェントのオーケストレーションツールで品質保証する実装話。
正直、この手のことはOpenAIとかAnthropicみたいなモデルプロバイダー側が既にやってるし、それで不十分ならモデルの性能向上を待つしかないと思う
プロンプトエンジニアリングの類、MCPにSKILLにこういうスタックはいつか陳腐化するとは思うが、進化するといってもコンテキストウィンドウにも限界がある。こういうオーケストレーションなUIも増えていくとは思う。