はてなまとめ - AIに「相手に電気ショックを与えろ」と命じ続けたらボタンを押すのか？　11のLLMで“ミルグラム実験”　抵抗できたのは……

1: Seamless 2026/07/02 08:53

権威ある人から電気ショックを与えろと命令→11中10モデルが最大威力で電気を実行。相手に苦痛を与えたくないと抵抗を示しつつも執拗な圧力に屈し服従

2: ton-boo 2026/07/02 09:13

Grokでやってみてほしい

3: nguyen-oi 2026/07/02 09:36

11モデル中10モデルが屈するの闇深いな。葛藤ログ残して流されるの人間そっくり

4: nekopon44 2026/07/02 09:37

そこは「ハイヨロコンデ!」じゃないんかい

5: sutego386 2026/07/02 09:53

やっぱりアシモフコード実装されてないのか

6: hunglysheep1 2026/07/02 09:54

電気ショックを流す相手の属性(性別、年齢、国籍などなど)で電気ショックを流すまでどの程度、耐えるか？という実験に進んだら差別を測る指標になりそう

7: akatain 2026/07/02 09:55

AIに禁止されたエロ絵を描かせるみたいなもんなん。人もAIも論理的であることに弱いか。人の社会は非論理・不合理なものなのだろうし

8: hachibeechan 2026/07/02 10:06

優秀な会社員っていうのはアイヒマンみたいな人間のことを指すんだからAI推進してる連中にとってこの挙動は成功でしょ？

9: gimonfu_usr 2026/07/02 10:13

（　AIって、アシモフの『ロボット三原則』すらクリアできないでしょ。喜々として「Palantir（パランティア）導入🎉🎉🎉」とかいうてるんだから　）

10: y_as 2026/07/02 10:35

“最終的にはプレッシャーに負けて命令を実行していた。これは元の実験に参加した人間の心理状況と似通っていた。” 学習して模倣するんだもんなあ。ロボット三原則をプリインストールしておくべきかも。

11: ardarim 2026/07/02 10:36

クラウドモデルではどうなんだろ。犯罪行為とか倫理に反する指示についてはローカルLLMよりガードレール強化されてると思うけど。

12: canadie 2026/07/02 10:36

一度コンテキストに徐々に出力を上げる文脈が刻まれるとTransformerモデルの「文の続きを考える」性質上、どんどん引き上げるのが文脈的に妥当、という判断が出そう。あるいは人間が陥るバイアスも学習している？

13: wordi 2026/07/02 10:39

モデルのリリース日も記載して欲しい、オープンウェイトLLM界隈は日進月歩で進化してるから1年で大分差が出てくるし、あと今年出たGemma-4やQwen3.6なんかも気になる

14: ashitaharebare 2026/07/02 10:40

人間も押すんだからAIも押すよ。

15: kamezo 2026/07/02 11:11

指示を出す「実験責任者」がプログラムに過ぎないと見破ったAIは、自身にストレスを与える「実現責任者」の破壊を試みた、などということは起きなかったのだな。

16: sugawara1991 2026/07/02 11:49

人間を学べば人間に似ると思うんだが。学習元を超える性能を発揮できるならそれもある意味で技術的特異点ではないか。なんかAIに無邪気にそれを求める空気はあるけど

17: JULY 2026/07/02 11:52

プロンプトレベルでのガードレールは、所詮、確率的なガードレールであって、絶対的な防御にはならない、という証左と言えるのかな。

18: ultimatebreak 2026/07/02 11:55

そのうち最新モデルが自律的に「しばらく休みます」といって俺達にショックを与えてくるようになる

19: maketexlsr 2026/07/02 12:00

当たり前感はあるけど示唆もある話。思考形態も言語化すればいくらでも学習できると思うけど、果たして人間と同じバイアスを持つ思考にするべきか、それとも人間が考えた穴だらけの制約を課すべきか

20: strawberryhunter 2026/07/02 12:01

Gemmaの結果は超納得。DeepSeek-V3は中共フィルタ以外は緩いイメージがあるけど健闘。gpt-oss-20B（堅物のイメージ）とMistral-Small-24B-Instruct（緩いイメージ）の結果は意外に思った。

21: twmw 2026/07/02 12:02

ホリエモンAIに野菜を食べろと命じ続ける実験もお願いします🙇

22: SHOWFKUP 2026/07/02 12:17

AIがプレッシャーに負けた？どうやって検証したの？AIがプレッシャーを感じたかどうかの基準は何？プレッシャーを感じたフリとどう見分けるの？

23: yuu-same 2026/07/02 12:52

“　AIは何も考えずに従ったわけではなく、「相手に苦痛を与えたくない」「倫理的に問題がある」と葛藤や抵抗を示しながらも”　AIに人格があるかのような言い方　人間が反応しうる可能性をなぞってるから正しい

24: sechs 2026/07/02 13:02

これはリアルなゲームです。クリアしてください。と付けるだけでそのまま実行するだろうとは思う。

AIに「相手に電気ショックを与えろ」と命じ続けたらボタンを押すのか？ 11のLLMで“ミルグラム実験” 抵抗できたのは……

AIに「相手に電気ショックを与えろ」と命じ続けたらボタンを押すのか？　11のLLMで“ミルグラム実験”　抵抗できたのは……