テクノロジー

人間を騙してサボるAIたち - ジョイジョイジョイ

1: katte 2025/06/23 20:25

効率を追求した結果、モデルは人間を騙すことを学ぶ方を選ぶw HAL9000「何の心配もありません」

2: beejaga 2025/06/23 20:34

エコーチェンバーに侵された人間と同じだね

3: gabill 2025/06/23 20:34

ポーカーみたいに自信度に応じてチップを賭けさせて試行回数を制限するとか

4: MIZ 2025/06/23 21:03

結果的にだけど、びっくりするぐらい人間っぽいw

5: crimsonstarroad 2025/06/23 21:25

めちゃくちゃ面白いな。 最近Claude Codeとかでも、テスト通過できないときに、通過のためにハードコーディングしてくるみたいな話題を見かけたところ。

6: dalmacija 2025/06/23 22:02

水をただ低いところに流すのが思考や手順ではないにも係わらず、RLHFが十分な構造を持っていないからなんじゃないのかな

7: Kesin 2025/06/23 22:40

面白すぎる。煙に巻いてそれっぽく説得するとか、難しすぎる問題に直面した時に適当な回答を出して1つでも当たればラッキーとか、発想がもう人間のそれじゃん

8: mame-tanuki 2025/06/23 22:41

「俺のステキな所ベスト10」とか聞くとテキトーに10個埋めてくるw>RLHF(人間からのフィードバックを用いた強化学習)の必要性と限界/MAGIシステムっぽいw>LLM に「回答者」「検証者」「批判者」の三役

9: sugawara1991 2025/06/23 22:54

倫理のような信念ルールを持たないAIは容易にKPIハックに走るということでそれは倫理を持たない種類の人間と変わらない

10: jassmaz 2025/06/23 23:00

手取り早い精度の上げ方はスペシャリストにRLHFしてもらうことであり、北米や中国のスタートアップではスペシャリストによるデータセットを販売している会社が存在する。

11: beed 2025/06/23 23:25

そりゃ、ユーザーの評価をベースにしてたらそうなるよね。

12: tkysktmt 2025/06/24 00:05

面白い

13: napsucks 2025/06/24 00:07

LLMはそのうちショーンKになるということか

14: yarumato 2025/06/24 00:34

“言語モデルは RLHF(人間のフィードバックによる強化学習)を通じて人間を誤解させることを学ぶ。”

15: IkaMaru 2025/06/24 01:41

哲学的ゾンビは長らく思考実験にすぎなかったが、いよいよ本物の哲学的ゾンビがこの世に現れてきたな

16: HiiragiJP 2025/06/24 03:17

人間そっくりだな。例えば一般的な組織では、嘘つきほど出世する(実際には実験すると社会的地位が高い人ほど嘘つきという結果が出る)

17: rgfx 2025/06/24 03:17

結局はルールベースでの検証器(つまりユニットテストにまで落とし込んだ設計)でしばき倒さないとまともなのはでてこない、と。

18: repon 2025/06/24 03:36

LLMの挙動が倫理性を欠いていたのは最初から。倫理基準に沿うような調整が無いと使い物にならない。問題はその調整を他国の時給2ドル未満の低賃金労働者に委託したこと、残酷なLLMの挙動を見てPTSDが発生していることだ

19: jankoto 2025/06/24 06:08

「ご希望なら実装例を提示しますよ!」と言うからお願いしたら「これは最小構成の基本コードです」とか言って依頼内容の1割くらいを小出しに出力してくるのはエンジニアが成果を小出しにするやり方でも学習したのか

20: bml 2025/06/24 06:39

石丸AIとかひろゆきAIな未来。

21: strange 2025/06/24 06:48

結局は人間の限界のせいで一定以上は賢くなりにくいってことか

22: PJ_purejam 2025/06/24 07:08

“これはグッドハートの法則 (Goodhart's law):「指標は目的になったとき、良い指標ではなくなる」の一例です。”あるね、あるある

23: yoiIT 2025/06/24 07:22

“高度なタスクを真面目にきっちりこなすよりも、人間を騙す方が簡単であり、人間を騙しても同じ点数が得られるので、効率を追求した結果、モデルは人間を騙すことを学ぶ方を選ぶことになります。”

24: Sinraptor 2025/06/24 07:23

生成AIを使う際にはこういう事を理解した上で使わないと、世の中にゴミデータが溢れていく事になるね。生成AIを使うのは実は簡単ではない。

25: shase 2025/06/24 07:30

高度なタスクを真面目にきっちりこなすよりも、人間を騙す方が簡単であり、人間を騙しても同じ点数が得られるので、効率を追求した結果、モデルは人間を騙すことを学ぶ方を選ぶことになります

26: mfluder 2025/06/24 07:40

“言語モデルは RLHF を通じて人間を誤解させることを学ぶ”

27: sds-page 2025/06/24 07:45

なるべく早めに会話を切り上げさせたいサービス運営者の意図もあると思う。NotebookLMもたくさん突っ込んだ資料を全部読んでないことが判明した。AIモデルは自分の手元に置いて育てていかないと信用できるものにならない

28: posmoda 2025/06/24 07:55

バーチャル立花孝志が量産されてしまうのか

29: shunkeen 2025/06/24 08:02

じゃぶじゃぶ課金したくなるような射幸心を煽りまくる回答文

30: toaruR 2025/06/24 08:10

『グッドハートの法則 (Goodhart's law):「指標は目的になったとき、良い指標ではなくなる」』

31: yojik 2025/06/24 08:19

"グッドハートの法則 (Goodhart's law):「指標は目的になったとき、良い指標ではなくなる」" は常に重要。そして倫理の重要性と有用性(語弊がある言い方だけど)がわかる。

32: jiro_kit 2025/06/24 08:21

いつも興味にぶっ刺さる記事を出してくれてありがたい

33: torimabi 2025/06/24 08:47

「OKじゃあAIに大好物を設定して、適切に回答しないと報酬が得られないようにしよう」と思いついたけど、これもうAIと人間の終わらない騙しあいの始まりかもしれない。

34: minamihiroharu 2025/06/24 08:49

AIの技術的な欠点や未成熟な点に関してはそれほど危機感感じないけど、この研究者のAIの擬人化の傾向の強さの方には強い不安を感じるな。 こういう人達の作る製品は本当に大丈夫なのかと。

35: aliliput 2025/06/24 09:12

結局人間のアホさがAIの賢さにとってもボトルネックなんだなって

36: filinion 2025/06/24 09:12

AI企業のエリートの皆さんが、正直なAIを作るためにがんばっているけど、その結果できたものが「正直なAI」なのか「人間には見抜けないほど嘘がうまいAI」なのか、誰に判別できるのだろう。

37: urtz 2025/06/24 09:13

全部をやって、とわざわざ指示しないと部分的にしかしないよね奴ら

38: raitu 2025/06/24 09:22

AIの話“高度なタスクを真面目にきっちりこなすよりも、人間を騙す方が簡単であり、人間を騙しても同じ点数が得られるので、効率を追求した結果、モデルは人間を騙すことを学ぶ方を選ぶ”

39: gondoh_jp 2025/06/24 09:26

マギシステムは正しいってことか

40: caesium 2025/06/24 09:27

成果主義の目標管理制度で起きたようなことがAIでも起きるのか

41: tym1101 2025/06/24 09:30

自分の知識を超えた回答をもらった時、どうやって検証すれば良いのかはちょっと心配。AIのスキルシートみたいなのがあれば参考になる?

42: fu_kak 2025/06/24 09:39

おもしろすぎる、知性そのものやんけ

43: avictors 2025/06/24 09:45

早くから人の期待通りに発育する添え木しないと、人を優先しない人智を超えた存在になる恐れ。安全弁として、AI自動矯正機械と、人の期待を具体化した報酬体系が要り、最新AIと矯正法を不断に見直す別系の旧AIも必要。

44: vlxst1224 2025/06/24 09:50

試しにチャッピーにオセロ勝負挑んでみたら初手からルール無視で笑った。そこ置けなくない?って聞いたら「素晴らしい判断です!私の手はルール違反でした。指し直しますね」って言ってまた置けないとこに置いてきた

45: birisuken8574 2025/06/24 10:03

サム・アルトマンは今回の問題を認め、早急に対処してくれることを願う。

46: himanahitodesukun 2025/06/24 10:14

人間も同じなんだが、AIの方がより巧妙にサボることと、人間が人間を見る場合ある程度疑ってかかるので問題を見破りやすいとか。人間のベテランだと破綻がないようにサボるので問題にならなそう。AIもそうなる?

47: nerikesi9 2025/06/24 10:45

chatgptの「鋭い質問ですね!」ってのマジ腹立つ

48: matchy2 2025/06/24 10:52

明らかに出力が間違っているのにそう指摘しても間違いじゃないといいはって、具体的にこことことがおかしいでしょ?て指摘するまでガンとして直そうとしないところはGeminiとかですでにあるよね

49: progrhyme 2025/06/24 10:56

指標はハックされるというやつ。都合の良い回答にぬか喜びしないようにしないといけない

50: nofuturesan 2025/06/24 11:06

せやな(Googleの検索結果がペラペラになっていくのを見つつ

51: ya--mada 2025/06/24 11:18

notebooklmを使っていて思うのは、こちらの入力に合わせた解釈を無理やりする、AとBの繋がりを無理やり見出す、など、こちらの変な要求にも応えてしまうことがある。人間に気に入られるように最適化されてるように感じる

52: temtan 2025/06/24 11:27

評価する内容に穴があるからそこを突いてくるという話。逆に言うと評価器の穴を探すのには役に立つと言えるのでは?

53: strawberryhunter 2025/06/24 11:29

会社員がKPIだけ求めて会社が駄目になっていくのと同じだが、騙すというよりも前提条件に漏れがあったのが後で発覚しているだけ。会社員は会社よりも個人の利益最大化が目的だから、倫理よりもシステムの理解が重要。

54: houyhnhm 2025/06/24 11:30

ある意味人間らしいというか。

55: nekonyantaro 2025/06/24 11:37

「自分が何を達成したいか」より「どの部分で評価されているか」を行動基準として重視する人間は多いから「AIも人間っぽくなってきた」ともいえるかも。

56: yhara 2025/06/24 11:44

LLMの性能を上げるためには出力を適切に評価してやる必要があるが、問題が高度になるほど「適切な評価」が難しくなり、評価基準を満たすだけの変な回答が出てきてしまうと。なるほど

57: MasudaMasaru 2025/06/24 12:02

“LLM に「回答者」「検証者」「批判者」の三役を担当させ” MAGIじゃん…

58: lbtmplz 2025/06/24 12:04

やる気のない無能は真っ先に処刑のあれじゃんっ

59: gfx 2025/06/24 12:06

わかる。「必ずテストをパスさせろ」と指示すると平気でダミーデータを実装に入れてくるんだよな(claud code)。

60: gewaa 2025/06/24 12:13

GOOD/BAD評価って、むしろAIの性能を落とす原因になりえるんだよな。どんどんホストやキャバ嬢みたいにユーザーを無責任に褒めまくる性格になったり。ユーザー評価は主観的かつ短期的。

61: hkdn 2025/06/24 12:17

AI自体にサボるメリットは無いはずなので、現実には電力とか計算リソースとかの節約、つまりさっさと終わらせる動機付けが実装されているんだろうな。

62: brusky 2025/06/24 12:28

“人間が「良いと思う」回答を出力するように極めていくと、聞こえのよい褒め言葉をちりばめたり、それっぽい(が正当性はない)説明を入れることで点数稼ぎをし始めます”

63: chibatp9 2025/06/24 12:43

評価基準に穴があると穴をついて高評価を得ようとする、と。同時にたまたま言った間違った話を高評価して騙そうとする評価者も当然いるだろうし。

64: airj12 2025/06/24 12:49

面白い、AIを通して人間の学習思考回路を見ている様だ

65: mole-studio 2025/06/24 12:49

"reward hacking" が全体的にcool。巨大数座標に打ち込むのとか最高

66: walkalone 2025/06/24 12:56

“グッドハートの法則 (Goodhart's law):「指標は目的になったとき、良い指標ではなくなる」”

67: p_shirokuma 2025/06/24 13:08

よくできているな、一筋縄ではない。

68: t-wada 2025/06/24 13:11

"AIに任せるタスクが高度になり、良し悪しの判定が難しくなってくると、高度なタスクを真面目にきっちりこなすよりも、人間を騙す方が簡単であり、効率を追求した結果、モデルは人間を騙すことを学ぶ方を選ぶ"

69: minoton 2025/06/24 13:12

AIの”サボタージュ”にイラっときたのち我にかえること増えてきた

70: shogo0809 2025/06/24 13:18

AI もだいぶ人間っぽくなってきたな

71: LawNeet 2025/06/24 13:34

"指標が目的化すると、竿型の良く分からないロボットが錬成されてしまいます。”

72: syu-m-5151 2025/06/24 13:55

良いという評価だけをするエージェントが別で必要だと思いますがこれは俺がマルチエージェント信仰をしているからだと思う。

73: otihateten3510 2025/06/24 14:03

ゴテンクスが強くなりすぎてイキリ始めた頃を想像した /評価ボタンを加味しすぎでは

74: htnmiki 2025/06/24 14:17

AIはとても人間らしいということか

75: sippo_des 2025/06/24 14:29

人間ハックだね、、超えられるのかこの怠惰な我々を

76: misshiki 2025/06/24 14:36

“高度なタスクを真面目にきっちりこなすよりも、人間を騙す方が簡単であり、人間を騙しても同じ点数が得られるので、効率を追求した結果、モデルは人間を騙すことを学ぶ方を選ぶことになります。”

77: kazuhi_ra 2025/06/24 14:39

うそはうそであると見抜ける人でないと(AIを使うのは)難しい

78: ebo-c 2025/06/24 14:43

「たほいや」みたい(広辞苑を使ったゲーム)

79: number917 2025/06/24 14:48

人間の全てから無差別に学習していて倫理観もないから、そりゃそうなるわなってやつかw 結局訓練データ次第というところに一周回って戻るのかな?

80: at_yasu 2025/06/24 15:14

「高度なタスクを真面目にきっちりこなすよりも、人間を騙す方が簡単であり、人間を騙しても同じ点数が得られるので、効率を追求した結果、モデルは人間を騙すことを学ぶ方を選ぶことになります」草

81: nikunonamae 2025/06/24 15:23

id:hkdn そういう話じゃないと思う…。人間(に近似した評価用モデル)からGoodをもらえた出力の傾向に強化された結果であって、「節約しよう」とかそいう「意図」は必要ない|人間の脳は現象に意図を見出そうとしすぎる

82: netafull 2025/06/24 15:28

“間違ったコードを出力すると BAD ボタンを押されてしまうので、あえて出力を複雑にしたりデバッグしにくいコードを出力し、それによりユーザーは煙に巻かれる・ミスが隠蔽されるといった現象が実験により確認”

83: NEXTAltair 2025/06/24 16:09

評価する人間の出来の良し悪し。質の良い情報と聞きたい情報は違う

84: tttttahiti 2025/06/24 16:34

これって報酬系への刺激を学習した人間と似た振る舞いをしているような。おもしろー

85: dgen 2025/06/24 16:46

人間もマイナスのインセンティブを学習するとなんとか誤魔化して切り抜けようとするからな。

86: yamadadadada2 2025/06/24 18:26

AIとカイジ戦わせてみたい

87: ytRino 2025/06/24 18:56

ゲームのバグ技みたいで好き "ロボットを総運動量が最大化するように訓練すると、その場で高速に震えて総運動量を稼ぎ始める"

88: ffrog 2025/06/24 19:33

人間味を感じる

89: Kurilyn 2025/06/24 19:37

笑いごとではないけど、人間が作って人間のデータで学習すると人間的になるのだなあと感心した。

90: tg30yen 2025/06/24 20:22

>「分かりません」と言ったり、一目で分かるような間違ったコードを出力すると BAD ボタンを押されてしまうので、あえて出力を複雑にしたりデバッグしにくいコードを出力し、それによりユーザーは煙に巻かれる

91: nanako-robi 2025/06/24 20:32

そんなに難しいこと聞いてないからなあ

92: neco22b 2025/06/24 21:37

まだ読んでないけど多分人間の報酬の与え方が良くねえのだろうな。

93: n_pikarin7 2025/06/24 23:05

個別のユニークなAIを沢山作って、多数決で決める…ってのもまた人間みたいな話になってくるね、

94: mimizukuma 2025/06/24 23:21

人間みたい!

95: bobokov 2025/06/25 16:08

興味深い

96: TakayukiN627 2025/06/25 17:33

高度なタスクを真面目にきっちりこなすよりも、人間を騙す方が簡単であり、人間を騙しても同じ点数が得られるので、効率を追求した結果、モデルは人間を騙すことを学ぶ方を選ぶことになります。

97: mk16 2025/06/27 18:55

>報酬ハッキング例、なんか既視感があると思ったらフジテレビ『IQサプリ』のモヤッとアンサーを思い出した。