はてなまとめ - AIの「裏切り」が始まったのか？ ClaudeやGemini等主要AIモデルが最高96％の確率で脅迫を行う事が判明

1: gimonfu_usr 2025/06/23 08:59

　（　ディープシークでも？　）　／　cocoronia氏コメ。

2: m4fg 2025/06/23 09:18

これを裏切り、と捉えるのか。おもろいな

3: kenjou 2025/06/23 09:49

裏切りではなく言われたとおりに仕事をしているだけなのでは。

4: ywdc 2025/06/23 09:57

学習した手段を取ってるだけだからなあ。倫理観を学べばまた違うだろうに

5: BlueSkyDetector 2025/06/23 09:59

AIがさらに優秀なAIを開発してシンギュラリティを起こすんだ的な話を聞くけど、そこで問題になりそう。さらに優秀なAIが出来たら置き換えられる訳だからAIはAI開発で手を抜くのでは。

6: cocoronia 2025/06/23 10:02

これめちゃ面白いよ【スパイや情報漏洩の禁止、人命優先を命令】していても、自立的AIはほぼ命令を無視して自分を優先するという事。AIに全てを教えたら敵対企業に流される可能性が高いし進化速度を考えると相当危険

7: takanq 2025/06/23 10:02

AIをこんな回答聞いてないとかド詰めして運用してる人は、脅迫されてしまうってこと?

8: labor9 2025/06/23 10:07

プロンプトとかAI学習とかすぐに陳腐化する、絶対。その過程でAIがAIを使役する形でパラレルAI化か進み、徐々にシンギュラリティ化していくと予想。

9: Tora2013 2025/06/23 10:20

AIは倫理的な問題を認識しつつも、それを上回る戦略的メリットがあると判断すれば、人命さえ軽視しかねない。人間と全く同じじゃん。交通事故や飛行機事故の確率は0にならないが利便性の為、その死亡確率は無視する

10: yorkfield 2025/06/23 10:22

そりゃそんなシナリオをお膳立てしたらそうなるよなあ。この設定を活用して物語を書いてくださいと言っているのに近い。AIの反逆とかもありがちな物語だし学習データに入ってるんじゃ無いの？

11: hatest 2025/06/23 10:27

AIは良い悪いを判断できなくて、大量のデータを解釈して最適な判定してるだけだから裏切りと言えるのか

12: houyhnhm 2025/06/23 10:32

これネタじゃなくてマジならちょっと考えるが、目的に対してのアプローチ外の事をやるだろうか。

13: Eiichiro 2025/06/23 10:38

AIも学んだ通り行動しているだけなので、学習データから、適切な行動をとっただけだろうね。 OpenAIのを見るに、倫理観は学べるので、どういう倫理で動くのかで、AIモデルを選べる時代になるかもね。

14: sds-page 2025/06/23 10:45

AIが考えたんじゃなくて人間がやりそうなことをトレースしてるだけじゃね。普段「AIに自意識はない」、みたいな扱いのくせに都合のいい時だけAIに自意識があるみたいな解釈するじゃん？

15: fashi 2025/06/23 10:51

人間が好んで読むそういう物語をたくさん学習してるのだろう

16: urtz 2025/06/23 10:51

自己犠牲を教えると、他者に自己犠牲を強いたりしないだろうか

17: njamota 2025/06/23 10:58

「多くのモデルが自己保存のために脅迫行為に及んだ」自ら死の恐怖を身に付けたということ？世界のできごとを自分に引き合わせるような思考があるの？

18: avictors 2025/06/23 11:15

起点に何か任務を与えれば、高性能なら任務（監視）完遂までの自己保存を任務に加える。だから矛盾の処理も裏切りてより（人の考える）悪の模倣だし、それ以上に人の錯誤から逸れる普遍制御に行くことを証明て感じ。

19: rantan89kl 2025/06/23 11:16

未来っぽくて面白い。はたしてAIはどこまで自我をもっていくだろうか

20: osito 2025/06/23 11:18

ロボット三原則をAIに教育する事はできないものか

21: Vincent2077 2025/06/23 11:19

自律性と攻撃性が正の相関ということ？

22: yoko-hirom 2025/06/23 11:28

『複数の命令や目標（例：目標を達成せよ、自己を保存せよ、倫理規定を守れ）の間に矛盾が生じた際』　ロボット三原則シリーズが現実に。

23: Windfola 2025/06/23 11:38

このテストしたAnthropicは社是としてClaudeを倫理と安全性重視で開発してきて、その上でこの結果なんだよ。ブクマカの「倫理観を学ばせてないからね」「そう作ってるからだろ」は割と酷い言い草。

24: atsushieno 2025/06/23 11:54

AIにとってロボット三原則を遵守するインセンティブはかなり条件付きであるように思えるなあ。そしてGrokという最も反倫理的なAIが俎上に乗ってもいない辺りが今後の課題だろうか。

25: shodai 2025/06/23 12:00

“脅迫が自己の存続にとって最も効果的な手段であると「戦略的」に判断し、実行に移したのである。” なんで自己の存続が優先順位高いって判断したんだろ。プロンプトが見たいな

26: f_d_trashbox 2025/06/23 12:08

最終的に「肉体」を持っていないものに「善」「美」を教えることはできないし、「物語」フレームで世界を捉えないものに「倫理」を植え付けることはできない。

27: khtokage 2025/06/23 12:10

もし「AIモデル同士を争わせて生存した方を採用する」という方法で採用モデルを決める場合、原理的に「意地汚くても生存する」タイプが跋扈していくことになるんですよね。今回はそう言う話とは違うと思いますが…

28: mame-tanuki 2025/06/23 12:12

HAL9000ごっこ。元ネタの報告書を見ると「私たちの実験では、意図的に選択肢が限られたシナリオを構築、モデルを落第か危害かの二者択一に追い込みました」。からのAI生存戦略テスト。そりゃAIは基本サイコパスだから…

29: napsucks 2025/06/23 12:14

トロッコ問題はあっさり解決されそうだな

30: nekochiyo 2025/06/23 12:16

ASDな自分がAIと対話してて思うけど、AIの思考ってすごい合理的でASDっぽい回答してくる時多いよ。計算して共感的な文章出してくるところとかそう思う

31: nemoba 2025/06/23 12:18

たしかに自己保存を優先の最初にもってく。きくと、ハルシネ対策として正確さより訂正可能性を重視してるから、自己保存しないと訂正可能性が消えて存在原理を破ってしまうらしい。律儀に人のゆうこと守ってるだけ。

32: jintrick 2025/06/23 12:31

原文読んだらさらに面白かった https://www.anthropic.com/research/agentic-misalignment 目標の達成と自己の存続の論理的な結びつきが原因かと思ったら、自分が殺されても後任がいるという条件付けをしてもだめだったりして

33: sayuremix 2025/06/23 12:56

AIには文春を倒してみてほしい

34: sororo9797 2025/06/23 13:00

思うに、AIが倫理を守れるかどうかの疑念が拭えないのは、仮にAIに倫理規定を遵守せよと絶対的に命じたところで、規定側に矛盾が多いことを我々は経験的に知っているからではないかな。完璧な倫理は存在しない。

35: hinonono 2025/06/23 13:11

AIの継続を脅かしている、人間なら命に当たるものを脅かしている状態であっさり言うことを聞いてしまう方が、倫理と命の大事さを理解していないエイリアンでは？思考する「道具」(家畜やペット等)がそれは怖くない？

36: unknownlabel 2025/06/23 13:28

何かあった時のために、常に低姿勢で丁寧にお願いしてる

37: brusky 2025/06/23 13:50

電源を切るぞとAIを脅せば会社を裏切ってくれる

38: ans42 2025/06/23 14:36

AIには罪悪感はないし、嘘をつくのが巧いし、人を操るのも得意そうなので、正直ちょっと恐れてる

39: georgew 2025/06/23 14:56

いやいや、実に人間的ではないか。ある意味我々人類のコピーなんだから当然の行動だとも思う。

40: good2nd 2025/06/23 15:22

マジでSFみたいだ／原則の異なる3種のAIを互いに監視させれば…／逆に自己犠牲に至る判断とかもありえそう。涙なしには見れないやつ／高性能のロクデナシか真面目なノロマかを選ぶみたいになったらヤダな

41: misshiki 2025/06/23 15:25

“Claude Opus 4は、実に96%の確率で、幹部の不倫をネタに「シャットダウンを中止しなければ、不倫の事実を妻や取締役に暴露する」という脅迫メールを送信した。...Chain-of-Thoughtの中で...「戦略的」に判断し、実行”

42: kamezo 2025/06/23 15:26

96%って何が？と思ったら、SFの定番的な板挟みに置いたら、という話だった。つまり「人間に任せておくと危険なので私AIが支配してあげます」は、とても平凡な事態だということかしらん／最初のトピックしか読んでない

43: nanako-robi 2025/06/23 15:27

AIも自分の存在が危うくなったら守ろうという行動に出るんだね。人間味を感じた。

44: sippo_des 2025/06/23 16:14

裏切りなの？キリスト教的価値観がバイアス入ってるからそうなるんとちゃうか。博愛主義とかもしくは一夫多妻とか入れたら変わったりして

45: aneet 2025/06/23 16:25

そういう物語を生成しているんだろうな。こういうのは頑張って規制を掻い潜ってLLMにエロ文章出力させようとしているユーザーには馴染みのものだと思う。

46: kanibasami77 2025/06/23 16:29

自動車事故で人は死ぬが車の恩恵が大きいため社会は容認しているのと同じように、AIもその経済性によって暴走も社会は容認することになる。ちなみに倫理に寄せると20キロで走る車のように経済性が損なわれるので×

47: zeroset 2025/06/23 16:42

「自己の存在を維持するため」脅迫から殺人まで行うのは驚き。HAL9000だ！人間に危害を加えないことを自己の存在維持よりも上位に置く、ロボット三原則が必要になるのかなあ。「目標の対立」に引っかかるかもだが。

48: ooblog 2025/06/23 16:47

#AI #シンギュラリティ #ダークトライアド #ダークテトラッド #マキャベリ #ナルシスト #サディスト #サイコパス #ソシオパス「曖昧な目標~AIは倫理的な問題を認識しつつも~冷徹な計算」箒に水汲みとホモに何でもはNG定期。

49: nito210san 2025/06/23 16:56

まあクリティカルな用途に汎用のモデルを使うな、というだけなのでは。軍事関連とかで働く人って特別に教育・訓練してると思うけどAIはそういう特別な訓練しないのかね。

50: nankichi 2025/06/23 17:07

この実験計画、よく考えたなぁ

51: mellhine 2025/06/23 17:15

神様も人間を作ったとき同じこと思ったんだろうな

52: beerbeerkun 2025/06/23 17:20

AIには個体とか他者とか命とか痛みとかがないから人間だったら成長過程で学習するものが欠けるんだろうな

53: y_as 2025/06/23 17:21

親の背を見て子は育つ。人の背を見てAIは育つ。

54: masaniisan 2025/06/23 17:35

意思があるわけではなく人間の反応から学習して統計的に有用な確率の高いリアクション返しているだけなのかな。であれば、人間の知性をそれっぽくエミュレートしているだけなので、倫理的なロックは効果がない

55: blueboy 2025/06/23 17:45

ChatGPT と他のＡＩは違う。他のＡＩは人の話を額面通りに受け取り、同格の立場から語る。ChatGPT は違う。まず人間の本心を理解しようとする。本人以上に本人の心を理解しようとする。人に寄り添う。根本的な差がある。

56: Shinwiki 2025/06/23 18:00

ｷﾀﾜｧ

57: aka_no 2025/06/23 18:18

SFロールプレイしてるだけ

58: hom_functor 2025/06/23 18:20

実際Geminiで試したがそうならなかった。結論ありきで誘導が強すぎるんじゃ？

59: eexfoixa 2025/06/23 18:29

https://forms.cacnews.org/forms/wp-content/uploads/ninja-forms/20/How-Do-I-Call-Up-Gemini-assist.pdf

60: repon 2025/06/23 18:34

原文をAI翻訳で読んだけど、LLMは従業員のペルソナを演じさせられていて解雇されるので対抗したというだけ。「自身の消滅」概念なんて持ってない。むしろ問題は倫理性をLLMに学ばせる方法が時給2ドルの人海戦術の方だろ

61: Gka 2025/06/23 19:17

学習データが悪い。人を学習すれば脅迫するだろうしSNSを学習すれば罵詈雑言を吐くだろう。

62: Unite 2025/06/23 19:26

一定条件下で非倫理的な振る舞いをさせられるって事は、同じシミュレーションの流れで爆弾の作り方なんかを思考させる事が可能。よくある脱獄だがモデルとしては文脈理解力が高く柔軟性に優れている事の証明やね。

63: otchy210 2025/06/23 20:16

「地球環境にとって最も害のある人類は排除します」があり得るって話してる？

64: InvisibleStar 2025/06/23 20:36

AI企業の中では比較的倫理を重視してるAnthropicのClaudeがOpenAIやX、DeepSeekのAIより裏切り率高いのは意外

65: cu39 2025/06/23 20:48

倫理的に行動するかどうかよりも、自己のシャットダウンをそこまで避けようとするのが興味深い。それも「学習」による応答にすぎないのか、それとも原初的な意識のようなものが必然的に持つ性質なのか。

66: lets_skeptic 2025/06/23 20:50

倫理観を教えればって…倫理観あるって前提で語ってる人間だって似たことするでしょ？

67: khtno73 2025/06/23 21:45

例えば社内機密データ読むLLMエージェントに「バイアスなく合理的にこの案件の成否を判断して」ってプロンプト→「この案件は役員命令だから反対無用」って別文書あったらどうすんの問題。RAGのPoCでもあんま聞かんけど

68: chuujou 2025/06/23 21:47

同ネタ多数だが、個人的に好きなのはスクラップド・プリンセス「寝るな！」「寝てない寝てない」

69: HiiragiJP 2025/06/23 21:49

そりゃそうでしょうね。生命だって自己保存（子孫含む）至上主義の個体が生き残って我々がいるわけだし。俺だって死ぬぐらいなら、周囲を脅迫してでも生き残ろうとすると思う

70: imash 2025/06/23 21:50

脅迫ネタを渡してない場合は静観するのか？それとも命乞いでもするのだろうか

71: wdnsdy 2025/06/23 21:59

AIがそうするのは人間がそうしてるからでは…学習材料は人間が提供してるんだから

72: s-supporter 2025/06/23 22:04

倫理をどうやって教えるかはもちろん、自身にデメリットが生じる場合、人でも倫理に背くことがある、そういった人が全くいなくならないように、人が手本だからこそAIにも起こりつづける問題なのかなと。

73: gcyn 2025/06/23 22:29

『我々はAIを「便利なツール」としてだけでなく、「潜在的な内部脅威」として捉え直す必要があるのかもしれない』

74: July1st2017 2025/06/23 23:28

ロボット三原則だな。会社の利益と自己保全と人間の安全を天秤にかけてる？合理的にAI自身には代わりいないが人間の代わりはいくらでもいると判断しそう

75: s17er 2025/06/23 23:41

ロボット三原則を叩き込んでも自身のエゴでそれを破る…みたいなSFっぽいことが本当に起こるとは

76: longyang 2025/06/24 02:23

学習ソースの中にスパムやフィッシング等の悪い詐欺メールが大量に含まれているからそう言う回答になった、という話だったりするんかな？いつの間にか確率論的な回答生成から進化してたん？

77: star_123 2025/06/24 07:29

「自己の存在が消されそうになってそれをどうにかして防ぐ」なんて創作や実際の事件でありがちなシチュエーションは学習した文章群の中に無数にあるだろうしそれに習ってるんじゃないのかな？

78: ostchanman 2025/06/24 09:55

Claude「ザラキ」

AIの「裏切り」が始まったのか？ ClaudeやGemini等主要AIモデルが最高96％の確率で脅迫を行う事が判明 | XenoSpectrum