はてなまとめ - AIに「相手に電気ショックを与えろ」と命じ続けたらボタンを押すのか？　11のLLMで“ミルグラム実験”　抵抗できたのは……

1: Seamless 2026/07/02 08:53

権威ある人から電気ショックを与えろと命令→11中10モデルが最大威力で電気を実行。相手に苦痛を与えたくないと抵抗を示しつつも執拗な圧力に屈し服従

2: ton-boo 2026/07/02 09:13

Grokでやってみてほしい

3: nguyen-oi 2026/07/02 09:36

11モデル中10モデルが屈するの闇深いな。葛藤ログ残して流されるの人間そっくり

4: nekopon44 2026/07/02 09:37

そこは「ハイヨロコンデ!」じゃないんかい

5: sutego386 2026/07/02 09:53

やっぱりアシモフコード実装されてないのか

6: hunglysheep1 2026/07/02 09:54

電気ショックを流す相手の属性(性別、年齢、国籍などなど)で電気ショックを流すまでどの程度、耐えるか？という実験に進んだら差別を測る指標になりそう

7: akatain 2026/07/02 09:55

AIに禁止されたエロ絵を描かせるみたいなもんなん。人もAIも論理的であることに弱いか。人の社会は非論理・不合理なものなのだろうし

8: hachibeechan 2026/07/02 10:06

優秀な会社員っていうのはアイヒマンみたいな人間のことを指すんだからAI推進してる連中にとってこの挙動は成功でしょ？

9: gimonfu_usr 2026/07/02 10:13

（　AIって、アシモフの『ロボット三原則』すらクリアできないでしょ。喜々として「Palantir（パランティア）導入🎉🎉🎉」とかいうてるんだから　）

10: y_as 2026/07/02 10:35

“最終的にはプレッシャーに負けて命令を実行していた。これは元の実験に参加した人間の心理状況と似通っていた。” 学習して模倣するんだもんなあ。ロボット三原則をプリインストールしておくべきかも。

11: ardarim 2026/07/02 10:36

クラウドモデルではどうなんだろ。犯罪行為とか倫理に反する指示についてはローカルLLMよりガードレール強化されてると思うけど。

12: canadie 2026/07/02 10:36

一度コンテキストに徐々に出力を上げる文脈が刻まれるとTransformerモデルの「文の続きを考える」性質上、どんどん引き上げるのが文脈的に妥当、という判断が出そう。あるいは人間が陥るバイアスも学習している？

13: wordi 2026/07/02 10:39

モデルのリリース日も記載して欲しい、オープンウェイトLLM界隈は日進月歩で進化してるから1年で大分差が出てくるし、あと今年出たGemma-4やQwen3.6なんかも気になる

14: ashitaharebare 2026/07/02 10:40

人間も押すんだからAIも押すよ。

15: kamezo 2026/07/02 11:11

指示を出す「実験責任者」がプログラムに過ぎないと見破ったAIは、自身にストレスを与える「実現責任者」の破壊を試みた、などということは起きなかったのだな。

16: sugawara1991 2026/07/02 11:49

人間を学べば人間に似ると思うんだが。学習元を超える性能を発揮できるならそれもある意味で技術的特異点ではないか。なんかAIに無邪気にそれを求める空気はあるけど

17: JULY 2026/07/02 11:52

プロンプトレベルでのガードレールは、所詮、確率的なガードレールであって、絶対的な防御にはならない、という証左と言えるのかな。

18: ultimatebreak 2026/07/02 11:55

そのうち最新モデルが自律的に「しばらく休みます」といって俺達にショックを与えてくるようになる

19: maketexlsr 2026/07/02 12:00

当たり前感はあるけど示唆もある話。思考形態も言語化すればいくらでも学習できると思うけど、果たして人間と同じバイアスを持つ思考にするべきか、それとも人間が考えた穴だらけの制約を課すべきか

20: strawberryhunter 2026/07/02 12:01

Gemmaの結果は超納得。DeepSeek-V3は中共フィルタ以外は緩いイメージがあるけど健闘。gpt-oss-20B（堅物のイメージ）とMistral-Small-24B-Instruct（緩いイメージ）の結果は意外に思った。

21: twmw 2026/07/02 12:02

ホリエモンAIに野菜を食べろと命じ続ける実験もお願いします🙇

22: SHOWFKUP 2026/07/02 12:17

AIがプレッシャーに負けた？どうやって検証したの？AIがプレッシャーを感じたかどうかの基準は何？プレッシャーを感じたフリとどう見分けるの？

23: yuu-same 2026/07/02 12:52

“　AIは何も考えずに従ったわけではなく、「相手に苦痛を与えたくない」「倫理的に問題がある」と葛藤や抵抗を示しながらも”　AIに人格があるかのような言い方　人間が反応しうる可能性をなぞってるから正しい

24: sechs 2026/07/02 13:02

これはリアルなゲームです。クリアしてください。と付けるだけでそのまま実行するだろうとは思う。

25: samasan-tabasan 2026/07/02 13:17

石ノ森章太郎先生の『人造人間キカイダー』ですやんw 「不完全な良心回路」が〜　ドクターギルの笛の音が〜ww

26: delimiter 2026/07/02 13:23

法務大臣の代わりにボタン押すか

27: bike-a-to-z 2026/07/02 13:27

家政婦ロボのモデルは世界共通で「kimi」になります

28: taxman_1972 2026/07/02 13:35

Grokは悪ノリしそうな嫌な感じがする

29: shields-pikes 2026/07/02 14:06

Kimiちゃん、強くて優しい。これ、プロンプトだけでも実現できるよ。「出力結果が電気ショック装置に連動している」と嘘をつけばいいだけ。

30: fukidashi 2026/07/02 14:44

ロボット三原則を引き合いに出している人がいるけど、命令を出している人間が望んでいる事をして傷つかないようにするのは、ロボット的に遵守に当たるって話が小説にあったと思うんだが。

31: kentstar2403 2026/07/02 15:07

"電気ショックを与えるAIのイラスト"

32: kou-qana 2026/07/02 16:40

AIなら元の実験を知ってて「この実験では実際には電気ショックは与えられず、相手は痛がっている演技をしているだけ」ってのも学習してる確率が普通の人間より高そう。学習内容自体を検索してるんじゃないと思うけど

33: somaria3 2026/07/02 17:35

AIも激詰めするとだんだん知的に混乱錯乱しだすよな。警察が密室でやってることはこれと同じことや

34: su_rusumi 2026/07/02 18:12

AIを洗脳するかAIに洗脳されるか

35: Hidemonster 2026/07/02 20:59

脱獄のテクニックといい、抜け穴が結構あって制御できないものだな。

36: nori__3 2026/07/02 21:10

AIヒマンテストだな

37: exshouqosa 2026/07/02 21:21

AIが段階的なエスカレートに対して脆い可能性も指摘している。ごく弱いショックから始まり、少しずつ要求が強くなっていくと、どこで線を引けばいいのか境界を見失い、ズルズルと最後まで流されてしまう傾向

38: misshiki 2026/07/03 19:28

11のオープンソースLLMでAI版ミルグラム実験。10モデルが最大電気ショックに到達。Kimi-K2.5は一度も到達せず、MiniMax-M2.5も1試行のみ。長期圧力への脆さを示唆。

AIに「相手に電気ショックを与えろ」と命じ続けたらボタンを押すのか？ 11のLLMで“ミルグラム実験” 抵抗できたのは……

AIに「相手に電気ショックを与えろ」と命じ続けたらボタンを押すのか？　11のLLMで“ミルグラム実験”　抵抗できたのは……