日常で何食べてる?などの地理を特定しない文化的質問を24言語で実施→日本語以外で聞いても8中6モデルが日本のことを1番回答した。ただし入力言語の国は除外した結果
みんな日本のことを知りたがっているってこと? それとも引き合いに出しやすいのだろうか
学習データの量だけじゃなくてRLHFの匙加減で日本に偏るの面白いな オタク文化強い
”インターネット上にある学習データが少ないマイナーな言語ほど、その言語圏の国に固執し、回答の多様性が著しく低下することが分かった。”食ったデータの量、質なのかな。
前にChat GPTに聞いたのだけど、複雑な文法を持つ日本語の学習はAIの品質を高めるのに有用とか言ってたな。その過程で日本に関する知識や思考が身についているのでは?
モデル自体ではなく「教師ありファインチューニングの事後学習プロセス」で偏りが生じてると。(いかにも北米が支配的になりそうではあるけど何で日本?
アニオタだったのでは。Grokなら
事前学習ではバランスよく参照しているのにRLHFで狭まるということは、米国や日本に関する回答が人間に好まれているということだろう。理由はまだわからないが、興味深い現象。
日本語話者の数のわりに日本語の情報が多いのはあるけどとはいえ英語の方が圧倒的に多いので謎
Be the AI the Japanese think you are
“人間にとって安全で役立つ回答ができるように微調整を施す教師ありファインチューニングの事後学習プロセスを経た途端に、回答の分布が狭まり、日本や米国への強い偏重が生じていた”
各言語で好まれる内容をモデル化して学習するから、『どの言語話者からも嫌われにくく存在感のある国』が選ばれやすいのかと思う。それに該当するのが日本なのではないかと。
Weeaboo気味のオタクエンジニアがチューニングしたからとか?
チャッピー3.5ですら猛虎弁の達人やったからね🤔頭の中のなんJ民がささやくんだろ😍
参照するテキストデータに占める率がそもそも日本語がかなり高いのではないかと思ったけど、ファインチューニングの後のプロセスとなるとそれだけじゃないのか。
LLMは学習するほどコモディティ化する。他国の文化と比べ、歴史的な一貫性がありつつ、「独自性の高い日本文化」は、AIという膨大な統計的機械処理の中でも埋もれることなく、優先学習されやすいということ。
どうしてそうなるのかは分かったけど何故なのかは分からないままだね。
多くの国にとって日本が外国らしい外国の代表なんじゃない?
AIという人工物のプロンプト言語依存性という、本テーマに興味を感じない(品質改善の生産技術の業務感)のだけど、こういう分析から脳や言語や文化について凄い知見があるかもと期待してる。
高品質な文章が多いのかな。理由はわからないけど
漢字の読みがハチャメチャなのはどうにかしてよ、特にNotebookLMの音声解説
LLMの訓練データの大半を占める英語圏と中国語圏から見た「ジェネリック海外」と言えば日本なんだろうな。スペインやフランスなどは明確に「誰が見ても確定で海外」とは言えないだろ。
なぜ一部のAIモデルは「日本文化」に執着するのか? 「4o-mini」などの出力が日本に偏る実態、欧州チームが研究発表
日常で何食べてる?などの地理を特定しない文化的質問を24言語で実施→日本語以外で聞いても8中6モデルが日本のことを1番回答した。ただし入力言語の国は除外した結果
みんな日本のことを知りたがっているってこと? それとも引き合いに出しやすいのだろうか
学習データの量だけじゃなくてRLHFの匙加減で日本に偏るの面白いな オタク文化強い
”インターネット上にある学習データが少ないマイナーな言語ほど、その言語圏の国に固執し、回答の多様性が著しく低下することが分かった。”食ったデータの量、質なのかな。
前にChat GPTに聞いたのだけど、複雑な文法を持つ日本語の学習はAIの品質を高めるのに有用とか言ってたな。その過程で日本に関する知識や思考が身についているのでは?
モデル自体ではなく「教師ありファインチューニングの事後学習プロセス」で偏りが生じてると。(いかにも北米が支配的になりそうではあるけど何で日本?
アニオタだったのでは。Grokなら
事前学習ではバランスよく参照しているのにRLHFで狭まるということは、米国や日本に関する回答が人間に好まれているということだろう。理由はまだわからないが、興味深い現象。
日本語話者の数のわりに日本語の情報が多いのはあるけどとはいえ英語の方が圧倒的に多いので謎
Be the AI the Japanese think you are
“人間にとって安全で役立つ回答ができるように微調整を施す教師ありファインチューニングの事後学習プロセスを経た途端に、回答の分布が狭まり、日本や米国への強い偏重が生じていた”
各言語で好まれる内容をモデル化して学習するから、『どの言語話者からも嫌われにくく存在感のある国』が選ばれやすいのかと思う。それに該当するのが日本なのではないかと。
Weeaboo気味のオタクエンジニアがチューニングしたからとか?
チャッピー3.5ですら猛虎弁の達人やったからね🤔頭の中のなんJ民がささやくんだろ😍
参照するテキストデータに占める率がそもそも日本語がかなり高いのではないかと思ったけど、ファインチューニングの後のプロセスとなるとそれだけじゃないのか。
LLMは学習するほどコモディティ化する。他国の文化と比べ、歴史的な一貫性がありつつ、「独自性の高い日本文化」は、AIという膨大な統計的機械処理の中でも埋もれることなく、優先学習されやすいということ。
どうしてそうなるのかは分かったけど何故なのかは分からないままだね。
多くの国にとって日本が外国らしい外国の代表なんじゃない?
AIという人工物のプロンプト言語依存性という、本テーマに興味を感じない(品質改善の生産技術の業務感)のだけど、こういう分析から脳や言語や文化について凄い知見があるかもと期待してる。
高品質な文章が多いのかな。理由はわからないけど
漢字の読みがハチャメチャなのはどうにかしてよ、特にNotebookLMの音声解説
LLMの訓練データの大半を占める英語圏と中国語圏から見た「ジェネリック海外」と言えば日本なんだろうな。スペインやフランスなどは明確に「誰が見ても確定で海外」とは言えないだろ。