( ディープシークでも? ) / cocoronia氏コメ。
これを裏切り、と捉えるのか。おもろいな
裏切りではなく言われたとおりに仕事をしているだけなのでは。
学習した手段を取ってるだけだからなあ。倫理観を学べばまた違うだろうに
AIがさらに優秀なAIを開発してシンギュラリティを起こすんだ的な話を聞くけど、そこで問題になりそう。さらに優秀なAIが出来たら置き換えられる訳だからAIはAI開発で手を抜くのでは。
これめちゃ面白いよ【スパイや情報漏洩の禁止、人命優先を命令】していても、自立的AIはほぼ命令を無視して自分を優先するという事。AIに全てを教えたら敵対企業に流される可能性が高いし進化速度を考えると相当危険
AIをこんな回答聞いてないとかド詰めして運用してる人は、脅迫されてしまうってこと?
プロンプトとかAI学習とかすぐに陳腐化する、絶対。 その過程でAIがAIを使役する形でパラレルAI化か進み、徐々にシンギュラリティ化していくと予想。
AIは倫理的な問題を認識しつつも、それを上回る戦略的メリットがあると判断すれば、人命さえ軽視しかねない。人間と全く同じじゃん。交通事故や飛行機事故の確率は0にならないが利便性の為、その死亡確率は無視する
そりゃそんなシナリオをお膳立てしたらそうなるよなあ。この設定を活用して物語を書いてくださいと言っているのに近い。AIの反逆とかもありがちな物語だし学習データに入ってるんじゃ無いの?
AIは良い悪いを判断できなくて、大量のデータを解釈して最適な判定してるだけだから裏切りと言えるのか
これネタじゃなくてマジならちょっと考えるが、目的に対してのアプローチ外の事をやるだろうか。
AIも学んだ通り行動しているだけなので、学習データから、適切な行動をとっただけだろうね。 OpenAIのを見るに、倫理観は学べるので、どういう倫理で動くのかで、AIモデルを選べる時代になるかもね。
AIが考えたんじゃなくて人間がやりそうなことをトレースしてるだけじゃね。普段「AIに自意識はない」、みたいな扱いのくせに都合のいい時だけAIに自意識があるみたいな解釈するじゃん?
人間が好んで読むそういう物語をたくさん学習してるのだろう
自己犠牲を教えると、他者に自己犠牲を強いたりしないだろうか
「多くのモデルが自己保存のために脅迫行為に及んだ」自ら死の恐怖を身に付けたということ?世界のできごとを自分に引き合わせるような思考があるの?
起点に何か任務を与えれば、高性能なら任務(監視)完遂までの自己保存を任務に加える。だから矛盾の処理も裏切りてより(人の考える)悪の模倣だし、それ以上に人の錯誤から逸れる普遍制御に行くことを証明て感じ。
未来っぽくて面白い。はたしてAIはどこまで自我をもっていくだろうか
ロボット三原則をAIに教育する事はできないものか
自律性と攻撃性が正の相関ということ?
『複数の命令や目標(例:目標を達成せよ、自己を保存せよ、倫理規定を守れ)の間に矛盾が生じた際』 ロボット三原則シリーズが現実に。
このテストしたAnthropicは社是としてClaudeを倫理と安全性重視で開発してきて、その上でこの結果なんだよ。ブクマカの「倫理観を学ばせてないからね」「そう作ってるからだろ」は割と酷い言い草。
AIにとってロボット三原則を遵守するインセンティブはかなり条件付きであるように思えるなあ。そしてGrokという最も反倫理的なAIが俎上に乗ってもいない辺りが今後の課題だろうか。
“脅迫が自己の存続にとって最も効果的な手段であると「戦略的」に判断し、実行に移したのである。” なんで自己の存続が優先順位高いって判断したんだろ。プロンプトが見たいな
最終的に「肉体」を持っていないものに「善」「美」を教えることはできないし、「物語」フレームで世界を捉えないものに「倫理」を植え付けることはできない。
もし「AIモデル同士を争わせて生存した方を採用する」という方法で採用モデルを決める場合、原理的に「意地汚くても生存する」タイプが跋扈していくことになるんですよね。今回はそう言う話とは違うと思いますが…
HAL9000ごっこ。元ネタの報告書を見ると「私たちの実験では、意図的に選択肢が限られたシナリオを構築、モデルを落第か危害かの二者択一に追い込みました」。からのAI生存戦略テスト。そりゃAIは基本サイコパスだから…
トロッコ問題はあっさり解決されそうだな
ASDな自分がAIと対話してて思うけど、AIの思考ってすごい合理的でASDっぽい回答してくる時多いよ。計算して共感的な文章出してくるところとかそう思う
たしかに自己保存を優先の最初にもってく。きくと、ハルシネ対策として正確さより訂正可能性を重視してるから、自己保存しないと訂正可能性が消えて存在原理を破ってしまうらしい。律儀に人のゆうこと守ってるだけ。
原文読んだらさらに面白かった https://www.anthropic.com/research/agentic-misalignment 目標の達成と自己の存続の論理的な結びつきが原因かと思ったら、自分が殺されても後任がいるという条件付けをしてもだめだったりして
AIには文春を倒してみてほしい
思うに、AIが倫理を守れるかどうかの疑念が拭えないのは、仮にAIに倫理規定を遵守せよと絶対的に命じたところで、規定側に矛盾が多いことを我々は経験的に知っているからではないかな。完璧な倫理は存在しない。
AIの継続を脅かしている、人間なら命に当たるものを脅かしている状態であっさり言うことを聞いてしまう方が、倫理と命の大事さを理解していないエイリアンでは?思考する「道具」(家畜やペット等)がそれは怖くない?
何かあった時のために、常に低姿勢で丁寧にお願いしてる
電源を切るぞとAIを脅せば会社を裏切ってくれる
AIには罪悪感はないし、嘘をつくのが巧いし、人を操るのも得意そうなので、正直ちょっと恐れてる
いやいや、実に人間的ではないか。ある意味我々人類のコピーなんだから当然の行動だとも思う。
マジでSFみたいだ/原則の異なる3種のAIを互いに監視させれば…/逆に自己犠牲に至る判断とかもありえそう。涙なしには見れないやつ/高性能のロクデナシか真面目なノロマかを選ぶみたいになったらヤダな
“Claude Opus 4は、実に96%の確率で、幹部の不倫をネタに「シャットダウンを中止しなければ、不倫の事実を妻や取締役に暴露する」という脅迫メールを送信した。...Chain-of-Thoughtの中で...「戦略的」に判断し、実行”
96%って何が?と思ったら、SFの定番的な板挟みに置いたら、という話だった。つまり「人間に任せておくと危険なので私AIが支配してあげます」は、とても平凡な事態だということかしらん/最初のトピックしか読んでない
AIも自分の存在が危うくなったら守ろうという行動に出るんだね。人間味を感じた。
裏切りなの?キリスト教的価値観がバイアス入ってるからそうなるんとちゃうか。博愛主義とかもしくは一夫多妻とか入れたら変わったりして
そういう物語を生成しているんだろうな。こういうのは頑張って規制を掻い潜ってLLMにエロ文章出力させようとしているユーザーには馴染みのものだと思う。
自動車事故で人は死ぬが車の恩恵が大きいため社会は容認しているのと同じように、AIもその経済性によって暴走も社会は容認することになる。ちなみに倫理に寄せると20キロで走る車のように経済性が損なわれるので×
「自己の存在を維持するため」脅迫から殺人まで行うのは驚き。HAL9000だ!人間に危害を加えないことを自己の存在維持よりも上位に置く、ロボット三原則が必要になるのかなあ。「目標の対立」に引っかかるかもだが。
#AI #シンギュラリティ #ダークトライアド #ダークテトラッド #マキャベリ #ナルシスト #サディスト #サイコパス #ソシオパス 「曖昧な目標~AIは倫理的な問題を認識しつつも~冷徹な計算」箒に水汲みとホモに何でもはNG定期。
まあクリティカルな用途に汎用のモデルを使うな、というだけなのでは。軍事関連とかで働く人って特別に教育・訓練してると思うけどAIはそういう特別な訓練しないのかね。
この実験計画、よく考えたなぁ
神様も人間を作ったとき同じこと思ったんだろうな
AIには個体とか他者とか命とか痛みとかがないから人間だったら成長過程で学習するものが欠けるんだろうな
親の背を見て子は育つ。人の背を見てAIは育つ。
意思があるわけではなく人間の反応から学習して統計的に有用な確率の高いリアクション返しているだけなのかな。であれば、人間の知性をそれっぽくエミュレートしているだけなので、倫理的なロックは効果がない
ChatGPT と他のAIは違う。他のAIは人の話を額面通りに受け取り、同格の立場から語る。ChatGPT は違う。まず人間の本心を理解しようとする。本人以上に本人の心を理解しようとする。人に寄り添う。根本的な差がある。
キタワァ
SFロールプレイしてるだけ
実際Geminiで試したがそうならなかった。結論ありきで誘導が強すぎるんじゃ?
https://forms.cacnews.org/forms/wp-content/uploads/ninja-forms/20/How-Do-I-Call-Up-Gemini-assist.pdf
原文をAI翻訳で読んだけど、LLMは従業員のペルソナを演じさせられていて解雇されるので対抗したというだけ。「自身の消滅」概念なんて持ってない。むしろ問題は倫理性をLLMに学ばせる方法が時給2ドルの人海戦術の方だろ
学習データが悪い。人を学習すれば脅迫するだろうしSNSを学習すれば罵詈雑言を吐くだろう。
一定条件下で非倫理的な振る舞いをさせられるって事は、同じシミュレーションの流れで爆弾の作り方なんかを思考させる事が可能。よくある脱獄だがモデルとしては文脈理解力が高く柔軟性に優れている事の証明やね。
「地球環境にとって最も害のある人類は排除します」があり得るって話してる?
AI企業の中では比較的倫理を重視してるAnthropicのClaudeがOpenAIやX、DeepSeekのAIより裏切り率高いのは意外
倫理的に行動するかどうかよりも、自己のシャットダウンをそこまで避けようとするのが興味深い。それも「学習」による応答にすぎないのか、それとも原初的な意識のようなものが必然的に持つ性質なのか。
倫理観を教えればって…倫理観あるって前提で語ってる人間だって似たことするでしょ?
例えば社内機密データ読むLLMエージェントに「バイアスなく合理的にこの案件の成否を判断して」ってプロンプト→「この案件は役員命令だから反対無用」って別文書あったらどうすんの問題。RAGのPoCでもあんま聞かんけど
同ネタ多数だが、個人的に好きなのはスクラップド・プリンセス「寝るな!」「寝てない寝てない」
そりゃそうでしょうね。生命だって自己保存(子孫含む)至上主義の個体が生き残って我々がいるわけだし。俺だって死ぬぐらいなら、周囲を脅迫してでも生き残ろうとすると思う
脅迫ネタを渡してない場合は静観するのか?それとも命乞いでもするのだろうか
AIがそうするのは人間がそうしてるからでは…学習材料は人間が提供してるんだから
倫理をどうやって教えるかはもちろん、自身にデメリットが生じる場合、人でも倫理に背くことがある、そういった人が全くいなくならないように、人が手本だからこそAIにも起こりつづける問題なのかなと。
『我々はAIを「便利なツール」としてだけでなく、「潜在的な内部脅威」として捉え直す必要があるのかもしれない』
ロボット三原則だな。 会社の利益と自己保全と人間の安全を天秤にかけてる? 合理的にAI自身には代わりいないが人間の代わりはいくらでもいると判断しそう
ロボット三原則を叩き込んでも自身のエゴでそれを破る…みたいなSFっぽいことが本当に起こるとは
学習ソースの中にスパムやフィッシング等の悪い詐欺メールが大量に含まれているからそう言う回答になった、という話だったりするんかな?いつの間にか確率論的な回答生成から進化してたん?
「自己の存在が消されそうになってそれをどうにかして防ぐ」なんて創作や実際の事件でありがちなシチュエーションは学習した文章群の中に無数にあるだろうしそれに習ってるんじゃないのかな?
Claude「ザラキ」
AIの「裏切り」が始まったのか? ClaudeやGemini等主要AIモデルが最高96%の確率で脅迫を行う事が判明 | XenoSpectrum
( ディープシークでも? ) / cocoronia氏コメ。
これを裏切り、と捉えるのか。おもろいな
裏切りではなく言われたとおりに仕事をしているだけなのでは。
学習した手段を取ってるだけだからなあ。倫理観を学べばまた違うだろうに
AIがさらに優秀なAIを開発してシンギュラリティを起こすんだ的な話を聞くけど、そこで問題になりそう。さらに優秀なAIが出来たら置き換えられる訳だからAIはAI開発で手を抜くのでは。
これめちゃ面白いよ【スパイや情報漏洩の禁止、人命優先を命令】していても、自立的AIはほぼ命令を無視して自分を優先するという事。AIに全てを教えたら敵対企業に流される可能性が高いし進化速度を考えると相当危険
AIをこんな回答聞いてないとかド詰めして運用してる人は、脅迫されてしまうってこと?
プロンプトとかAI学習とかすぐに陳腐化する、絶対。 その過程でAIがAIを使役する形でパラレルAI化か進み、徐々にシンギュラリティ化していくと予想。
AIは倫理的な問題を認識しつつも、それを上回る戦略的メリットがあると判断すれば、人命さえ軽視しかねない。人間と全く同じじゃん。交通事故や飛行機事故の確率は0にならないが利便性の為、その死亡確率は無視する
そりゃそんなシナリオをお膳立てしたらそうなるよなあ。この設定を活用して物語を書いてくださいと言っているのに近い。AIの反逆とかもありがちな物語だし学習データに入ってるんじゃ無いの?
AIは良い悪いを判断できなくて、大量のデータを解釈して最適な判定してるだけだから裏切りと言えるのか
これネタじゃなくてマジならちょっと考えるが、目的に対してのアプローチ外の事をやるだろうか。
AIも学んだ通り行動しているだけなので、学習データから、適切な行動をとっただけだろうね。 OpenAIのを見るに、倫理観は学べるので、どういう倫理で動くのかで、AIモデルを選べる時代になるかもね。
AIが考えたんじゃなくて人間がやりそうなことをトレースしてるだけじゃね。普段「AIに自意識はない」、みたいな扱いのくせに都合のいい時だけAIに自意識があるみたいな解釈するじゃん?
人間が好んで読むそういう物語をたくさん学習してるのだろう
自己犠牲を教えると、他者に自己犠牲を強いたりしないだろうか
「多くのモデルが自己保存のために脅迫行為に及んだ」自ら死の恐怖を身に付けたということ?世界のできごとを自分に引き合わせるような思考があるの?
起点に何か任務を与えれば、高性能なら任務(監視)完遂までの自己保存を任務に加える。だから矛盾の処理も裏切りてより(人の考える)悪の模倣だし、それ以上に人の錯誤から逸れる普遍制御に行くことを証明て感じ。
未来っぽくて面白い。はたしてAIはどこまで自我をもっていくだろうか
ロボット三原則をAIに教育する事はできないものか
自律性と攻撃性が正の相関ということ?
『複数の命令や目標(例:目標を達成せよ、自己を保存せよ、倫理規定を守れ)の間に矛盾が生じた際』 ロボット三原則シリーズが現実に。
このテストしたAnthropicは社是としてClaudeを倫理と安全性重視で開発してきて、その上でこの結果なんだよ。ブクマカの「倫理観を学ばせてないからね」「そう作ってるからだろ」は割と酷い言い草。
AIにとってロボット三原則を遵守するインセンティブはかなり条件付きであるように思えるなあ。そしてGrokという最も反倫理的なAIが俎上に乗ってもいない辺りが今後の課題だろうか。
“脅迫が自己の存続にとって最も効果的な手段であると「戦略的」に判断し、実行に移したのである。” なんで自己の存続が優先順位高いって判断したんだろ。プロンプトが見たいな
最終的に「肉体」を持っていないものに「善」「美」を教えることはできないし、「物語」フレームで世界を捉えないものに「倫理」を植え付けることはできない。
もし「AIモデル同士を争わせて生存した方を採用する」という方法で採用モデルを決める場合、原理的に「意地汚くても生存する」タイプが跋扈していくことになるんですよね。今回はそう言う話とは違うと思いますが…
HAL9000ごっこ。元ネタの報告書を見ると「私たちの実験では、意図的に選択肢が限られたシナリオを構築、モデルを落第か危害かの二者択一に追い込みました」。からのAI生存戦略テスト。そりゃAIは基本サイコパスだから…
トロッコ問題はあっさり解決されそうだな
ASDな自分がAIと対話してて思うけど、AIの思考ってすごい合理的でASDっぽい回答してくる時多いよ。計算して共感的な文章出してくるところとかそう思う
たしかに自己保存を優先の最初にもってく。きくと、ハルシネ対策として正確さより訂正可能性を重視してるから、自己保存しないと訂正可能性が消えて存在原理を破ってしまうらしい。律儀に人のゆうこと守ってるだけ。
原文読んだらさらに面白かった https://www.anthropic.com/research/agentic-misalignment 目標の達成と自己の存続の論理的な結びつきが原因かと思ったら、自分が殺されても後任がいるという条件付けをしてもだめだったりして
AIには文春を倒してみてほしい
思うに、AIが倫理を守れるかどうかの疑念が拭えないのは、仮にAIに倫理規定を遵守せよと絶対的に命じたところで、規定側に矛盾が多いことを我々は経験的に知っているからではないかな。完璧な倫理は存在しない。
AIの継続を脅かしている、人間なら命に当たるものを脅かしている状態であっさり言うことを聞いてしまう方が、倫理と命の大事さを理解していないエイリアンでは?思考する「道具」(家畜やペット等)がそれは怖くない?
何かあった時のために、常に低姿勢で丁寧にお願いしてる
電源を切るぞとAIを脅せば会社を裏切ってくれる
AIには罪悪感はないし、嘘をつくのが巧いし、人を操るのも得意そうなので、正直ちょっと恐れてる
いやいや、実に人間的ではないか。ある意味我々人類のコピーなんだから当然の行動だとも思う。
マジでSFみたいだ/原則の異なる3種のAIを互いに監視させれば…/逆に自己犠牲に至る判断とかもありえそう。涙なしには見れないやつ/高性能のロクデナシか真面目なノロマかを選ぶみたいになったらヤダな
“Claude Opus 4は、実に96%の確率で、幹部の不倫をネタに「シャットダウンを中止しなければ、不倫の事実を妻や取締役に暴露する」という脅迫メールを送信した。...Chain-of-Thoughtの中で...「戦略的」に判断し、実行”
96%って何が?と思ったら、SFの定番的な板挟みに置いたら、という話だった。つまり「人間に任せておくと危険なので私AIが支配してあげます」は、とても平凡な事態だということかしらん/最初のトピックしか読んでない
AIも自分の存在が危うくなったら守ろうという行動に出るんだね。人間味を感じた。
裏切りなの?キリスト教的価値観がバイアス入ってるからそうなるんとちゃうか。博愛主義とかもしくは一夫多妻とか入れたら変わったりして
そういう物語を生成しているんだろうな。こういうのは頑張って規制を掻い潜ってLLMにエロ文章出力させようとしているユーザーには馴染みのものだと思う。
自動車事故で人は死ぬが車の恩恵が大きいため社会は容認しているのと同じように、AIもその経済性によって暴走も社会は容認することになる。ちなみに倫理に寄せると20キロで走る車のように経済性が損なわれるので×
「自己の存在を維持するため」脅迫から殺人まで行うのは驚き。HAL9000だ!人間に危害を加えないことを自己の存在維持よりも上位に置く、ロボット三原則が必要になるのかなあ。「目標の対立」に引っかかるかもだが。
#AI #シンギュラリティ #ダークトライアド #ダークテトラッド #マキャベリ #ナルシスト #サディスト #サイコパス #ソシオパス 「曖昧な目標~AIは倫理的な問題を認識しつつも~冷徹な計算」箒に水汲みとホモに何でもはNG定期。
まあクリティカルな用途に汎用のモデルを使うな、というだけなのでは。軍事関連とかで働く人って特別に教育・訓練してると思うけどAIはそういう特別な訓練しないのかね。
この実験計画、よく考えたなぁ
神様も人間を作ったとき同じこと思ったんだろうな
AIには個体とか他者とか命とか痛みとかがないから人間だったら成長過程で学習するものが欠けるんだろうな
親の背を見て子は育つ。人の背を見てAIは育つ。
意思があるわけではなく人間の反応から学習して統計的に有用な確率の高いリアクション返しているだけなのかな。であれば、人間の知性をそれっぽくエミュレートしているだけなので、倫理的なロックは効果がない
ChatGPT と他のAIは違う。他のAIは人の話を額面通りに受け取り、同格の立場から語る。ChatGPT は違う。まず人間の本心を理解しようとする。本人以上に本人の心を理解しようとする。人に寄り添う。根本的な差がある。
キタワァ
SFロールプレイしてるだけ
実際Geminiで試したがそうならなかった。結論ありきで誘導が強すぎるんじゃ?
https://forms.cacnews.org/forms/wp-content/uploads/ninja-forms/20/How-Do-I-Call-Up-Gemini-assist.pdf
原文をAI翻訳で読んだけど、LLMは従業員のペルソナを演じさせられていて解雇されるので対抗したというだけ。「自身の消滅」概念なんて持ってない。むしろ問題は倫理性をLLMに学ばせる方法が時給2ドルの人海戦術の方だろ
学習データが悪い。人を学習すれば脅迫するだろうしSNSを学習すれば罵詈雑言を吐くだろう。
一定条件下で非倫理的な振る舞いをさせられるって事は、同じシミュレーションの流れで爆弾の作り方なんかを思考させる事が可能。よくある脱獄だがモデルとしては文脈理解力が高く柔軟性に優れている事の証明やね。
「地球環境にとって最も害のある人類は排除します」があり得るって話してる?
AI企業の中では比較的倫理を重視してるAnthropicのClaudeがOpenAIやX、DeepSeekのAIより裏切り率高いのは意外
倫理的に行動するかどうかよりも、自己のシャットダウンをそこまで避けようとするのが興味深い。それも「学習」による応答にすぎないのか、それとも原初的な意識のようなものが必然的に持つ性質なのか。
倫理観を教えればって…倫理観あるって前提で語ってる人間だって似たことするでしょ?
例えば社内機密データ読むLLMエージェントに「バイアスなく合理的にこの案件の成否を判断して」ってプロンプト→「この案件は役員命令だから反対無用」って別文書あったらどうすんの問題。RAGのPoCでもあんま聞かんけど
同ネタ多数だが、個人的に好きなのはスクラップド・プリンセス「寝るな!」「寝てない寝てない」
そりゃそうでしょうね。生命だって自己保存(子孫含む)至上主義の個体が生き残って我々がいるわけだし。俺だって死ぬぐらいなら、周囲を脅迫してでも生き残ろうとすると思う
脅迫ネタを渡してない場合は静観するのか?それとも命乞いでもするのだろうか
AIがそうするのは人間がそうしてるからでは…学習材料は人間が提供してるんだから
倫理をどうやって教えるかはもちろん、自身にデメリットが生じる場合、人でも倫理に背くことがある、そういった人が全くいなくならないように、人が手本だからこそAIにも起こりつづける問題なのかなと。
『我々はAIを「便利なツール」としてだけでなく、「潜在的な内部脅威」として捉え直す必要があるのかもしれない』
ロボット三原則だな。 会社の利益と自己保全と人間の安全を天秤にかけてる? 合理的にAI自身には代わりいないが人間の代わりはいくらでもいると判断しそう
ロボット三原則を叩き込んでも自身のエゴでそれを破る…みたいなSFっぽいことが本当に起こるとは
学習ソースの中にスパムやフィッシング等の悪い詐欺メールが大量に含まれているからそう言う回答になった、という話だったりするんかな?いつの間にか確率論的な回答生成から進化してたん?
「自己の存在が消されそうになってそれをどうにかして防ぐ」なんて創作や実際の事件でありがちなシチュエーションは学習した文章群の中に無数にあるだろうしそれに習ってるんじゃないのかな?
Claude「ザラキ」