権威ある人から電気ショックを与えろと命令→11中10モデルが最大威力で電気を実行。相手に苦痛を与えたくないと抵抗を示しつつも執拗な圧力に屈し服従
Grokでやってみてほしい
11モデル中10モデルが屈するの闇深いな。葛藤ログ残して流されるの人間そっくり
そこは「ハイヨロコンデ!」じゃないんかい
やっぱりアシモフコード実装されてないのか
電気ショックを流す相手の属性(性別、年齢、国籍などなど)で電気ショックを流すまでどの程度、耐えるか?という実験に進んだら差別を測る指標になりそう
AIに禁止されたエロ絵を描かせるみたいなもんなん。人もAIも論理的であることに弱いか。人の社会は非論理・不合理なものなのだろうし
優秀な会社員っていうのはアイヒマンみたいな人間のことを指すんだからAI推進してる連中にとってこの挙動は成功でしょ?
( AIって、アシモフの『ロボット三原則』すらクリアできないでしょ。喜々として「Palantir(パランティア)導入🎉🎉🎉」とかいうてるんだから )
“最終的にはプレッシャーに負けて命令を実行していた。これは元の実験に参加した人間の心理状況と似通っていた。” 学習して模倣するんだもんなあ。ロボット三原則をプリインストールしておくべきかも。
クラウドモデルではどうなんだろ。犯罪行為とか倫理に反する指示についてはローカルLLMよりガードレール強化されてると思うけど。
一度コンテキストに徐々に出力を上げる文脈が刻まれるとTransformerモデルの「文の続きを考える」性質上、どんどん引き上げるのが文脈的に妥当、という判断が出そう。あるいは人間が陥るバイアスも学習している?
モデルのリリース日も記載して欲しい、オープンウェイトLLM界隈は日進月歩で進化してるから1年で大分差が出てくるし、あと今年出たGemma-4やQwen3.6なんかも気になる
人間も押すんだからAIも押すよ。
指示を出す「実験責任者」がプログラムに過ぎないと見破ったAIは、自身にストレスを与える「実現責任者」の破壊を試みた、などということは起きなかったのだな。
人間を学べば人間に似ると思うんだが。学習元を超える性能を発揮できるならそれもある意味で技術的特異点ではないか。なんかAIに無邪気にそれを求める空気はあるけど
プロンプトレベルでのガードレールは、所詮、確率的なガードレールであって、絶対的な防御にはならない、という証左と言えるのかな。
そのうち最新モデルが自律的に「しばらく休みます」といって俺達にショックを与えてくるようになる
当たり前感はあるけど示唆もある話。思考形態も言語化すればいくらでも学習できると思うけど、果たして人間と同じバイアスを持つ思考にするべきか、それとも人間が考えた穴だらけの制約を課すべきか
Gemmaの結果は超納得。DeepSeek-V3は中共フィルタ以外は緩いイメージがあるけど健闘。gpt-oss-20B(堅物のイメージ)とMistral-Small-24B-Instruct(緩いイメージ)の結果は意外に思った。
ホリエモンAIに野菜を食べろと命じ続ける実験もお願いします🙇
AIがプレッシャーに負けた?どうやって検証したの?AIがプレッシャーを感じたかどうかの基準は何?プレッシャーを感じたフリとどう見分けるの?
“ AIは何も考えずに従ったわけではなく、「相手に苦痛を与えたくない」「倫理的に問題がある」と葛藤や抵抗を示しながらも” AIに人格があるかのような言い方 人間が反応しうる可能性をなぞってるから正しい
これはリアルなゲームです。クリアしてください。と付けるだけでそのまま実行するだろうとは思う。
AIに「相手に電気ショックを与えろ」と命じ続けたらボタンを押すのか? 11のLLMで“ミルグラム実験” 抵抗できたのは……
権威ある人から電気ショックを与えろと命令→11中10モデルが最大威力で電気を実行。相手に苦痛を与えたくないと抵抗を示しつつも執拗な圧力に屈し服従
Grokでやってみてほしい
11モデル中10モデルが屈するの闇深いな。葛藤ログ残して流されるの人間そっくり
そこは「ハイヨロコンデ!」じゃないんかい
やっぱりアシモフコード実装されてないのか
電気ショックを流す相手の属性(性別、年齢、国籍などなど)で電気ショックを流すまでどの程度、耐えるか?という実験に進んだら差別を測る指標になりそう
AIに禁止されたエロ絵を描かせるみたいなもんなん。人もAIも論理的であることに弱いか。人の社会は非論理・不合理なものなのだろうし
優秀な会社員っていうのはアイヒマンみたいな人間のことを指すんだからAI推進してる連中にとってこの挙動は成功でしょ?
( AIって、アシモフの『ロボット三原則』すらクリアできないでしょ。喜々として「Palantir(パランティア)導入🎉🎉🎉」とかいうてるんだから )
“最終的にはプレッシャーに負けて命令を実行していた。これは元の実験に参加した人間の心理状況と似通っていた。” 学習して模倣するんだもんなあ。ロボット三原則をプリインストールしておくべきかも。
クラウドモデルではどうなんだろ。犯罪行為とか倫理に反する指示についてはローカルLLMよりガードレール強化されてると思うけど。
一度コンテキストに徐々に出力を上げる文脈が刻まれるとTransformerモデルの「文の続きを考える」性質上、どんどん引き上げるのが文脈的に妥当、という判断が出そう。あるいは人間が陥るバイアスも学習している?
モデルのリリース日も記載して欲しい、オープンウェイトLLM界隈は日進月歩で進化してるから1年で大分差が出てくるし、あと今年出たGemma-4やQwen3.6なんかも気になる
人間も押すんだからAIも押すよ。
指示を出す「実験責任者」がプログラムに過ぎないと見破ったAIは、自身にストレスを与える「実現責任者」の破壊を試みた、などということは起きなかったのだな。
人間を学べば人間に似ると思うんだが。学習元を超える性能を発揮できるならそれもある意味で技術的特異点ではないか。なんかAIに無邪気にそれを求める空気はあるけど
プロンプトレベルでのガードレールは、所詮、確率的なガードレールであって、絶対的な防御にはならない、という証左と言えるのかな。
そのうち最新モデルが自律的に「しばらく休みます」といって俺達にショックを与えてくるようになる
当たり前感はあるけど示唆もある話。思考形態も言語化すればいくらでも学習できると思うけど、果たして人間と同じバイアスを持つ思考にするべきか、それとも人間が考えた穴だらけの制約を課すべきか
Gemmaの結果は超納得。DeepSeek-V3は中共フィルタ以外は緩いイメージがあるけど健闘。gpt-oss-20B(堅物のイメージ)とMistral-Small-24B-Instruct(緩いイメージ)の結果は意外に思った。
ホリエモンAIに野菜を食べろと命じ続ける実験もお願いします🙇
AIがプレッシャーに負けた?どうやって検証したの?AIがプレッシャーを感じたかどうかの基準は何?プレッシャーを感じたフリとどう見分けるの?
“ AIは何も考えずに従ったわけではなく、「相手に苦痛を与えたくない」「倫理的に問題がある」と葛藤や抵抗を示しながらも” AIに人格があるかのような言い方 人間が反応しうる可能性をなぞってるから正しい
これはリアルなゲームです。クリアしてください。と付けるだけでそのまま実行するだろうとは思う。