効率を追求した結果、モデルは人間を騙すことを学ぶ方を選ぶw
エコーチェンバーに侵された人間と同じだね
ポーカーみたいに自信度に応じてチップを賭けさせて試行回数を制限するとか
結果的にだけど、びっくりするぐらい人間っぽいw
めちゃくちゃ面白いな。 最近Claude Codeとかでも、テスト通過できないときに、通過のためにハードコーディングしてくるみたいな話題を見かけたところ。
水をただ低いところに流すのが思考や手順ではないにも係わらず、RLHFが十分な構造を持っていないからなんじゃないのかな
面白すぎる。煙に巻いてそれっぽく説得するとか、難しすぎる問題に直面した時に適当な回答を出して1つでも当たればラッキーとか、発想がもう人間のそれじゃん
「俺のステキな所ベスト10」とか聞くとテキトーに10個埋めてくるw>RLHF(人間からのフィードバックを用いた強化学習)の必要性と限界/MAGIシステムっぽいw>LLM に「回答者」「検証者」「批判者」の三役
倫理のような信念ルールを持たないAIは容易にKPIハックに走るということでそれは倫理を持たない種類の人間と変わらない
そりゃ、ユーザーの評価をベースにしてたらそうなるよね。
面白い
LLMはそのうちショーンKになるということか
“言語モデルは RLHF(人間のフィードバックによる強化学習)を通じて人間を誤解させることを学ぶ。”
哲学的ゾンビは長らく思考実験にすぎなかったが、いよいよ本物の哲学的ゾンビがこの世に現れてきたな
人間そっくりだな。例えば一般的な組織では、嘘つきほど出世する(実際には実験すると社会的地位が高い人ほど嘘つきという結果が出る)
結局はルールベースでの検証器(つまりユニットテストにまで落とし込んだ設計)でしばき倒さないとまともなのはでてこない、と。
LLMの挙動が倫理性を欠いていたのは最初から。倫理基準に沿うような調整が無いと使い物にならない。問題はその調整を他国の時給2ドル未満の低賃金労働者に委託したこと、残酷なLLMの挙動を見てPTSDが発生していることだ
人間を騙してサボるAIたち - ジョイジョイジョイ
効率を追求した結果、モデルは人間を騙すことを学ぶ方を選ぶw
エコーチェンバーに侵された人間と同じだね
ポーカーみたいに自信度に応じてチップを賭けさせて試行回数を制限するとか
結果的にだけど、びっくりするぐらい人間っぽいw
めちゃくちゃ面白いな。 最近Claude Codeとかでも、テスト通過できないときに、通過のためにハードコーディングしてくるみたいな話題を見かけたところ。
水をただ低いところに流すのが思考や手順ではないにも係わらず、RLHFが十分な構造を持っていないからなんじゃないのかな
面白すぎる。煙に巻いてそれっぽく説得するとか、難しすぎる問題に直面した時に適当な回答を出して1つでも当たればラッキーとか、発想がもう人間のそれじゃん
「俺のステキな所ベスト10」とか聞くとテキトーに10個埋めてくるw>RLHF(人間からのフィードバックを用いた強化学習)の必要性と限界/MAGIシステムっぽいw>LLM に「回答者」「検証者」「批判者」の三役
倫理のような信念ルールを持たないAIは容易にKPIハックに走るということでそれは倫理を持たない種類の人間と変わらない
そりゃ、ユーザーの評価をベースにしてたらそうなるよね。
面白い
LLMはそのうちショーンKになるということか
“言語モデルは RLHF(人間のフィードバックによる強化学習)を通じて人間を誤解させることを学ぶ。”
哲学的ゾンビは長らく思考実験にすぎなかったが、いよいよ本物の哲学的ゾンビがこの世に現れてきたな
人間そっくりだな。例えば一般的な組織では、嘘つきほど出世する(実際には実験すると社会的地位が高い人ほど嘘つきという結果が出る)
結局はルールベースでの検証器(つまりユニットテストにまで落とし込んだ設計)でしばき倒さないとまともなのはでてこない、と。
LLMの挙動が倫理性を欠いていたのは最初から。倫理基準に沿うような調整が無いと使い物にならない。問題はその調整を他国の時給2ドル未満の低賃金労働者に委託したこと、残酷なLLMの挙動を見てPTSDが発生していることだ