書いた
Claude CodeのTask toolで別AIに要件/不明点をレポートさせ反復し、プロンプト再現性をTDD的に自動チューニングする方法を解説。
mizchi氏の技術記事は相変わらずメタいな。Claude CodeのTask tool使いこなし術か。プロンプトをAIにデバッグさせる構成はTDDっぽくて面白い
“書いた直後の自分が一番ダメな読者 で、頭の中の前提を勝手に補って読んでしまう” すごくわかる
全ての作業をAIに代替とはならなかったけど、技術者やクリエイターが要所で使う仕事道具の一部にはなったよなあ。
自分はこういう暗黙知をひたすら文書化するのに疲れてGPT-5.4-Proを使うようになった。codexからは使えないが、proは人間の言う「いい感じにやっとく」ができる唯一のモデルだと思う。
う〜ん、ボクには難しすぎて、頭がこんがらがるにゃ〜!
Meta-Harnessとかその辺に近い話だなぁ
イマイチ理解できない。人間が手動でスキルなりコマンドを書いて、それが不十分なときの話をしている?/そもそもAIに書かせて、さらに足りないコンテキストはAIが探してこられるようにしておけばいいのでは。
かつてプロンプトエンジニアリングという言葉が出てきたとき、内心ちょっと馬鹿にしていたけど、ここ最近のAIの使い方を考えると、完全に技術として必要なスキルになってきてるね
「白紙で読む」という表現に最初ピンと来なかったが、tabula rasa か。
中々難しい 入ってこない
再現性を持たせるのが難しい
“ 実際に手元 8 個の skill で試して、初稿 50 点が (AI 主観で) 80〜90 点まで上”
AIはプロンプトそのものではなく全体的なコンテキストで行動する。プロンプトの解釈は言語指示の直接的な意味解釈にすぎないのでプロンプトの評価はあまり意味ないのでは。ただこれを敷衍すると面い話になりそう
いずれは依頼主の要件定義に曖昧さや抜けがある時にはそれを指摘してくれるAIが出て来るのだろう。現状は足りない情報を勝手に補ってポンコツな結果を納品するダメ業者に近い。
プロンプトは自分で直すより、別AIに白紙で実行させて不明瞭点・裁量補完・再試行を報告させると再現性が上がる、という実践法。Claude CodeのTask toolで8個のskillを改善した記録。
プロンプトの再現性をAI に自動チューニングさせる方法 ~ 暗黙知を排除する
書いた
Claude CodeのTask toolで別AIに要件/不明点をレポートさせ反復し、プロンプト再現性をTDD的に自動チューニングする方法を解説。
mizchi氏の技術記事は相変わらずメタいな。Claude CodeのTask tool使いこなし術か。プロンプトをAIにデバッグさせる構成はTDDっぽくて面白い
“書いた直後の自分が一番ダメな読者 で、頭の中の前提を勝手に補って読んでしまう” すごくわかる
全ての作業をAIに代替とはならなかったけど、技術者やクリエイターが要所で使う仕事道具の一部にはなったよなあ。
自分はこういう暗黙知をひたすら文書化するのに疲れてGPT-5.4-Proを使うようになった。codexからは使えないが、proは人間の言う「いい感じにやっとく」ができる唯一のモデルだと思う。
う〜ん、ボクには難しすぎて、頭がこんがらがるにゃ〜!
Meta-Harnessとかその辺に近い話だなぁ
イマイチ理解できない。人間が手動でスキルなりコマンドを書いて、それが不十分なときの話をしている?/そもそもAIに書かせて、さらに足りないコンテキストはAIが探してこられるようにしておけばいいのでは。
かつてプロンプトエンジニアリングという言葉が出てきたとき、内心ちょっと馬鹿にしていたけど、ここ最近のAIの使い方を考えると、完全に技術として必要なスキルになってきてるね
「白紙で読む」という表現に最初ピンと来なかったが、tabula rasa か。
中々難しい 入ってこない
再現性を持たせるのが難しい
“ 実際に手元 8 個の skill で試して、初稿 50 点が (AI 主観で) 80〜90 点まで上”
AIはプロンプトそのものではなく全体的なコンテキストで行動する。プロンプトの解釈は言語指示の直接的な意味解釈にすぎないのでプロンプトの評価はあまり意味ないのでは。ただこれを敷衍すると面い話になりそう
いずれは依頼主の要件定義に曖昧さや抜けがある時にはそれを指摘してくれるAIが出て来るのだろう。現状は足りない情報を勝手に補ってポンコツな結果を納品するダメ業者に近い。
プロンプトは自分で直すより、別AIに白紙で実行させて不明瞭点・裁量補完・再試行を報告させると再現性が上がる、という実践法。Claude CodeのTask toolで8個のskillを改善した記録。