AIに任せると「グローバルは必要最低限に留める」という原則を守らず、可能な限り統制を効かせようとして結局readmeみたいになる。書きますか?>書くな。書きますか?>書くな。の繰り返し。
論文要約:LLM生成の指示ファイル(CLAUDE.md/AGENTS.md)は成功率を平均0.5〜2%下げ、推論コストを20〜23%増加させる一方、人間作成は平均4%改善と報告されています。
AIが出したものの密度を変えずにそのままAIに入れる行為に懐疑的で、だろうなという気持ち
"強いモデルあっても、AI生成なら結果は同じ"モデル能力の問題ではなく情報設計の問題。丁寧し過ぎるのかも。
これ、リポジトリの規模書いてないけど、100万行ぐらいある規模のリポジトリで比較してほしいな。
俺テキスト生成系でプロンプト作らせて検証して修正していくみたいな仕組み作ってよくやるけど、プロンプト作りは雑魚。検証作業と後処理アルゴリズム考えるのとかは見事
CLAUDE.mdを人間が書こうがAIが書こうが同じで非決定論である以上結果は確約されないし多くなればなるほど抜け漏れがでるよ。
2~3%で済む? Claude羨ましすぎる案件。Geminiの場合プロンプトのアンチパターン盛り盛りで体感80%くらい精度が悪化する。ので、コンテクスト文書を書かせるときは自作したprompt-crafterスキル使って推敲させてるが。
ポン出しの性能は微妙だよね。出てきたものにおおまかな調整指示して、その後に軽く手直しするぐらいの半自動が今はちょうどいい
何もないと本当に全探索し始めるので私はそうは思わない しかしAIの書く文章は情報が薄いのは全般的にどうにかしてほしい 我々は作文のたびに俳句や短歌を毎度やってるんだよ
守れ!さもないとお前の首をへし折る。と書けば守る
普通の文章書かせても焦点の合わないぼやけた感じになるので、生成目的に焦点を合わせた文書の作成はまた別の能力にも感じる。メタ認知的なところまでいってないし
CLAUDE.mdくらいAIに生成させた後に添削しなよ
暗黙のコンテキストを明文化するのが目的なのだから当たり前では。中途メンバー参加当日に業務WF書かせて添削しないのは正気じゃないって。
そりゃコンテキストに常に居るんだからコストは上がるんだろうけど、意図したやり方を外れないためのガードレールとして使う分には有用では。まぁ一切チェックや修正しないなら意味無いのはそう。
まー、でも一から作るよりは2-3%で済むなら導入コスト考えたらありなのよね。後でチューニングすりゃいいんだし
リポジトリに関する話は、README.md とかに書いてリポジトリには AGENTS.md を持たせない方針。一方、ユーザレベルの AGENTS.md には普遍的なルールとか好みを書いてる。これは AI に書かせてるけど、いい感じだよ。
今やCLAUDE.mdを作成•リファクターするスキルが公式から出てるぐらいなんだから、それを使用した場合のことを書いてくれないとあまり参考にならない
CLAUDE.mdは性能アップじゃなくてフィルターだと思うので精度が落ちてると感じる事は無いな
"推論コストを20%以上増加させる" これが目的かもしれない
むしろたったの0.5%〜2%程度で済むならAI生成のファイルで良い気がする。
それはそう。今のAIの出力は動くだけのクソなので大幅な修正が必要。バイブコーディングとか言ってる奴らは、今までもクソみたいなコードを平気でpushしてたのではないか。
CLAUDE.md は試行錯誤しながら育てる感覚ですよね、コードの深いところを探索しないとわからないけど、すごく大事なことは、CLAUDE.md に前提として書いておいた方が毎回勘違いされなくて済む。
経験則で知られていたことが論文になった、という印象だけれどあまり知られていない?結構前に https://www.humanlayer.dev/blog/writing-a-good-claude-md ここでも見た。
ETH Zurich研究:AI生成のCLAUDE.mdはコーディングエージェントの成功率を平均0.5〜2%下げ、推論コストを20%以上増加。原因はREADMEなど既存ドキュメントとの重複によるRAGノイズ。指示ファイルは人間が最小限で書く方が有効。
「誰が(人かAIか)書いたか」ではなく「何を書くべきか」が本質なはずなので、どうにも的を外しているように感じる 何も指示せず/initしてできたCLAUDE.mdが使えないのはそりゃそう ただAIの自動生成が進化する未来はありそ
AI生成の「CLAUDE .md」、逆に精度が下がるという研究
AIに任せると「グローバルは必要最低限に留める」という原則を守らず、可能な限り統制を効かせようとして結局readmeみたいになる。書きますか?>書くな。書きますか?>書くな。の繰り返し。
論文要約:LLM生成の指示ファイル(CLAUDE.md/AGENTS.md)は成功率を平均0.5〜2%下げ、推論コストを20〜23%増加させる一方、人間作成は平均4%改善と報告されています。
AIが出したものの密度を変えずにそのままAIに入れる行為に懐疑的で、だろうなという気持ち
"強いモデルあっても、AI生成なら結果は同じ"モデル能力の問題ではなく情報設計の問題。丁寧し過ぎるのかも。
これ、リポジトリの規模書いてないけど、100万行ぐらいある規模のリポジトリで比較してほしいな。
俺テキスト生成系でプロンプト作らせて検証して修正していくみたいな仕組み作ってよくやるけど、プロンプト作りは雑魚。検証作業と後処理アルゴリズム考えるのとかは見事
CLAUDE.mdを人間が書こうがAIが書こうが同じで非決定論である以上結果は確約されないし多くなればなるほど抜け漏れがでるよ。
2~3%で済む? Claude羨ましすぎる案件。Geminiの場合プロンプトのアンチパターン盛り盛りで体感80%くらい精度が悪化する。ので、コンテクスト文書を書かせるときは自作したprompt-crafterスキル使って推敲させてるが。
ポン出しの性能は微妙だよね。出てきたものにおおまかな調整指示して、その後に軽く手直しするぐらいの半自動が今はちょうどいい
何もないと本当に全探索し始めるので私はそうは思わない しかしAIの書く文章は情報が薄いのは全般的にどうにかしてほしい 我々は作文のたびに俳句や短歌を毎度やってるんだよ
守れ!さもないとお前の首をへし折る。と書けば守る
普通の文章書かせても焦点の合わないぼやけた感じになるので、生成目的に焦点を合わせた文書の作成はまた別の能力にも感じる。メタ認知的なところまでいってないし
CLAUDE.mdくらいAIに生成させた後に添削しなよ
暗黙のコンテキストを明文化するのが目的なのだから当たり前では。中途メンバー参加当日に業務WF書かせて添削しないのは正気じゃないって。
そりゃコンテキストに常に居るんだからコストは上がるんだろうけど、意図したやり方を外れないためのガードレールとして使う分には有用では。まぁ一切チェックや修正しないなら意味無いのはそう。
まー、でも一から作るよりは2-3%で済むなら導入コスト考えたらありなのよね。後でチューニングすりゃいいんだし
リポジトリに関する話は、README.md とかに書いてリポジトリには AGENTS.md を持たせない方針。一方、ユーザレベルの AGENTS.md には普遍的なルールとか好みを書いてる。これは AI に書かせてるけど、いい感じだよ。
今やCLAUDE.mdを作成•リファクターするスキルが公式から出てるぐらいなんだから、それを使用した場合のことを書いてくれないとあまり参考にならない
CLAUDE.mdは性能アップじゃなくてフィルターだと思うので精度が落ちてると感じる事は無いな
"推論コストを20%以上増加させる" これが目的かもしれない
むしろたったの0.5%〜2%程度で済むならAI生成のファイルで良い気がする。
それはそう。今のAIの出力は動くだけのクソなので大幅な修正が必要。バイブコーディングとか言ってる奴らは、今までもクソみたいなコードを平気でpushしてたのではないか。
CLAUDE.md は試行錯誤しながら育てる感覚ですよね、コードの深いところを探索しないとわからないけど、すごく大事なことは、CLAUDE.md に前提として書いておいた方が毎回勘違いされなくて済む。
経験則で知られていたことが論文になった、という印象だけれどあまり知られていない?結構前に https://www.humanlayer.dev/blog/writing-a-good-claude-md ここでも見た。
ETH Zurich研究:AI生成のCLAUDE.mdはコーディングエージェントの成功率を平均0.5〜2%下げ、推論コストを20%以上増加。原因はREADMEなど既存ドキュメントとの重複によるRAGノイズ。指示ファイルは人間が最小限で書く方が有効。
「誰が(人かAIか)書いたか」ではなく「何を書くべきか」が本質なはずなので、どうにも的を外しているように感じる 何も指示せず/initしてできたCLAUDE.mdが使えないのはそりゃそう ただAIの自動生成が進化する未来はありそ