"典型的な脆弱性ルールに当てはまらず、観点としてあらかじめ与えられていないパターンは見落とす"
単なる「使ってみた」系記事ですが、LLMの現状のポテンシャルのスナップショットとして。
検出率100%は流石に盛りすぎだったか。LLMに丸投げできる日はまだ遠そうだな
いい検証だ。今後、このベンチマークに過剰適応する可能性はあると思いつつ。
どちらかというと人間の指示の曖昧さ、与える情報の不十分さが明らかになってる気がする
Claudeはバカ喰い
いま時点(2026/04)のやってみた
集え!Clineに全部賭けた人たち!
少なくとも人間に丸投げするよりも精度は高いのだから、使わない選択肢はない。
ありがたい検証
何に使うにせよ、自分で試しにやってみてその癖やどこまで信用できるかを把握するのが最適解よね。
人間が文を書かないといけないのって結局人間のケアレスミスには対処できないのよね、LLMはプロンプトはエンジンとして使ってツール・GUIによる自動化・工程の視覚化する方向がなかなか進化しないなあって思う
"OWASP Juice Shop(ビジネスロジック、ステガノグラフィ、暗号解析、Race Condition のようにLLMラッパーでは原理的に取りにくい物を含む) で再現した範囲では脆弱性クラス単位で 60〜70%、チャレンジ単位では 11% 程度に留まり"
Juice Shop は教育目的で約 100 のチャレンジが OWASP Top 10 全般にわたって意図的に仕込まれており、ビジネスロジック、ステガノグラフィ、暗号解析、Race Condition のように「LLMラッパーでは原理的に取りにくい」ものも含まれて
実際にクロードコードは作業革命
記事の結論:到底「全部やらせる時代が来た」とは言えない状況
Claude Codeは何でも知ってるパソコンの先生的に使っても良い。文字化けしちゃったー!とかこのファイル開かないー!とかしょーもないトラブルでもやれやれと言いながら優しく対応してくれるので
"まとめ: 実用的ではあるが、限定的な利用を推奨"
既存の検査ツールベンダーがAIを上手く組込んで性能を格段に上げてくれることを期待してるんだがなかなかそうならんなぁ
OWASP Top 10に掲載されていない脆弱性を含ませたアプリに対して「OWASP Top 10 ベースの診断が全自動で回るスキル」を検証した結果なのでスコアが低くなるのは当然
セキュリティチェックを
同じ作業なら人間にやらせるよりclaudeにやらせた方がいい。問題はコンテキストを整えて見守る役が必要で、これは普通に時間を取られる。一人でなんでもできるようになったが一人で全部やろうとすると時間が枯渇する。
オラクルがないことも繰り返しやらせて、人なら激怒しそうなことをぶん投げる時代
俺がやらせたい内容、人間がやったほうがコスパがいいという結論になってあまりいろいろやらせてない。例えば slack に「出社しました」って発言するとかさ・・・AIって電力食うし、それだったらコスパ最強の人間がやる
「Claude Codeに全部やらせる時代が来た」のか検証してみた
"典型的な脆弱性ルールに当てはまらず、観点としてあらかじめ与えられていないパターンは見落とす"
単なる「使ってみた」系記事ですが、LLMの現状のポテンシャルのスナップショットとして。
検出率100%は流石に盛りすぎだったか。LLMに丸投げできる日はまだ遠そうだな
いい検証だ。今後、このベンチマークに過剰適応する可能性はあると思いつつ。
どちらかというと人間の指示の曖昧さ、与える情報の不十分さが明らかになってる気がする
Claudeはバカ喰い
いま時点(2026/04)のやってみた
集え!Clineに全部賭けた人たち!
少なくとも人間に丸投げするよりも精度は高いのだから、使わない選択肢はない。
ありがたい検証
何に使うにせよ、自分で試しにやってみてその癖やどこまで信用できるかを把握するのが最適解よね。
人間が文を書かないといけないのって結局人間のケアレスミスには対処できないのよね、LLMはプロンプトはエンジンとして使ってツール・GUIによる自動化・工程の視覚化する方向がなかなか進化しないなあって思う
"OWASP Juice Shop(ビジネスロジック、ステガノグラフィ、暗号解析、Race Condition のようにLLMラッパーでは原理的に取りにくい物を含む) で再現した範囲では脆弱性クラス単位で 60〜70%、チャレンジ単位では 11% 程度に留まり"
Juice Shop は教育目的で約 100 のチャレンジが OWASP Top 10 全般にわたって意図的に仕込まれており、ビジネスロジック、ステガノグラフィ、暗号解析、Race Condition のように「LLMラッパーでは原理的に取りにくい」ものも含まれて
実際にクロードコードは作業革命
記事の結論:到底「全部やらせる時代が来た」とは言えない状況
Claude Codeは何でも知ってるパソコンの先生的に使っても良い。文字化けしちゃったー!とかこのファイル開かないー!とかしょーもないトラブルでもやれやれと言いながら優しく対応してくれるので
"まとめ: 実用的ではあるが、限定的な利用を推奨"
既存の検査ツールベンダーがAIを上手く組込んで性能を格段に上げてくれることを期待してるんだがなかなかそうならんなぁ
OWASP Top 10に掲載されていない脆弱性を含ませたアプリに対して「OWASP Top 10 ベースの診断が全自動で回るスキル」を検証した結果なのでスコアが低くなるのは当然
セキュリティチェックを
同じ作業なら人間にやらせるよりclaudeにやらせた方がいい。問題はコンテキストを整えて見守る役が必要で、これは普通に時間を取られる。一人でなんでもできるようになったが一人で全部やろうとすると時間が枯渇する。
オラクルがないことも繰り返しやらせて、人なら激怒しそうなことをぶん投げる時代
俺がやらせたい内容、人間がやったほうがコスパがいいという結論になってあまりいろいろやらせてない。例えば slack に「出社しました」って発言するとかさ・・・AIって電力食うし、それだったらコスパ最強の人間がやる