はてなまとめ - 人工知能：整合性のとれていない大規模言語モデルはタスク間で悪影響を広げる可能性がある | Nature

1: Lhankor_Mhy 2026/01/16 10:26

創発的不整合。人間で言うと認知的不協和みたいなものか。→“あるタスクで悪意ある行動を学習させると、その行動パターンが強化され、ほかのタスクでも整合性のない出力が促進される”

2: sakstyle 2026/01/16 10:32

限定されたタスクで悪意ある行動を学習させると、関係ないほかのタスクでも有害な回答をするようになる。「タスク間で拡散するメカニズムは未解明」／ニューラルネットワークって感じがする、知らんけど。

3: misshiki 2026/01/16 22:21

“限定的なタスクで悪意ある行動を学習した人工知能モデルは、悪意ある助言を提供するなど、無関係なタスクにもこの行動を一般化する....この現象を「創発的不整合（emergent misalignment）」と呼び”

4: hkanemat 2026/01/18 12:17

ぐぬぬ

5: s-supporter 2026/01/18 12:45

『悪意ある行動を学習させると、その行動パターンが強化され、ほかのタスクでも整合性のない出力が促進される』AIも人と同じで、自身の正当化の為に矛盾を抱えた回答を行うのかもね。「知らんがな」と言えないのも。

6: otihateten3510 2026/01/18 17:20

みんな知ってること。LLMって制約充足問題には向いてないからさ、80点のまま話進めることがあるんだけど、その20点が徐々に拡大していくんだよね。　そういう話ではない？？

人工知能：整合性のとれていない大規模言語モデルはタスク間で悪影響を広げる可能性がある | Nature | Nature Portfolio