はてなまとめ - 「Claude Codeに全部やらせる時代が来た」のか検証してみた

1: igrep 2026/05/07 17:38

"典型的な脆弱性ルールに当てはまらず、観点としてあらかじめ与えられていないパターンは見落とす"

2: uhavetwocows 2026/05/07 23:04

単なる「使ってみた」系記事ですが、LLMの現状のポテンシャルのスナップショットとして。

3: nguyen-oi 2026/05/08 07:02

検出率100%は流石に盛りすぎだったか。LLMに丸投げできる日はまだ遠そうだな

4: lets_skeptic 2026/05/08 07:51

いい検証だ。今後、このベンチマークに過剰適応する可能性はあると思いつつ。

5: hiroshe 2026/05/08 07:53

どちらかというと人間の指示の曖昧さ、与える情報の不十分さが明らかになってる気がする

6: solidstatesociety 2026/05/08 08:27

Claudeはバカ喰い

7: shoh8 2026/05/08 09:13

いま時点（2026/04）のやってみた

8: shinobue679fbea 2026/05/08 09:18

集え！Clineに全部賭けた人たち！

9: yoiIT 2026/05/08 09:33

少なくとも人間に丸投げするよりも精度は高いのだから、使わない選択肢はない。

10: hry64 2026/05/08 10:34

ありがたい検証

11: k3akinori 2026/05/08 10:38

何に使うにせよ、自分で試しにやってみてその癖やどこまで信用できるかを把握するのが最適解よね。

12: peppers_white 2026/05/08 11:40

人間が文を書かないといけないのって結局人間のケアレスミスには対処できないのよね、LLMはプロンプトはエンジンとして使ってツール・GUIによる自動化・工程の視覚化する方向がなかなか進化しないなあって思う

13: rgfx 2026/05/08 12:10

"OWASP Juice Shop(ビジネスロジック、ステガノグラフィ、暗号解析、Race Condition のようにLLMラッパーでは原理的に取りにくい物を含む) で再現した範囲では脆弱性クラス単位で 60〜70%、チャレンジ単位では 11% 程度に留まり"

14: TakayukiN627 2026/05/08 12:15

Juice Shop は教育目的で約 100 のチャレンジが OWASP Top 10 全般にわたって意図的に仕込まれており、ビジネスロジック、ステガノグラフィ、暗号解析、Race Condition のように「LLMラッパーでは原理的に取りにくい」ものも含まれて

15: takataka2026 2026/05/08 12:33

実際にクロードコードは作業革命

16: richmikan 2026/05/08 12:45

記事の結論：到底「全部やらせる時代が来た」とは言えない状況

17: kurage_lizard 2026/05/08 12:53

Claude Codeは何でも知ってるパソコンの先生的に使っても良い。文字化けしちゃったー！とかこのファイル開かないー！とかしょーもないトラブルでもやれやれと言いながら優しく対応してくれるので

18: moronbee 2026/05/08 13:29

"まとめ: 実用的ではあるが、限定的な利用を推奨"

19: cubed-l 2026/05/08 15:12

既存の検査ツールベンダーがAIを上手く組込んで性能を格段に上げてくれることを期待してるんだがなかなかそうならんなぁ

20: fashi 2026/05/08 16:09

OWASP Top 10に掲載されていない脆弱性を含ませたアプリに対して「OWASP Top 10 ベースの診断が全自動で回るスキル」を検証した結果なのでスコアが低くなるのは当然

21: eagleyama 2026/05/08 16:21

セキュリティチェックを

22: mmaka2787 2026/05/08 18:47

同じ作業なら人間にやらせるよりclaudeにやらせた方がいい。問題はコンテキストを整えて見守る役が必要で、これは普通に時間を取られる。一人でなんでもできるようになったが一人で全部やろうとすると時間が枯渇する。

23: sd-craft 2026/05/08 19:01

オラクルがないことも繰り返しやらせて、人なら激怒しそうなことをぶん投げる時代

24: versatile 2026/05/08 19:27

俺がやらせたい内容、人間がやったほうがコスパがいいという結論になってあまりいろいろやらせてない。例えば slack に「出社しました」って発言するとかさ・・・AIって電力食うし、それだったらコスパ最強の人間がやる