日常で何食べてる?などの地理を特定しない文化的質問を24言語で実施→日本語以外で聞いても8中6モデルが日本のことを1番回答した。ただし入力言語の国は除外した結果
みんな日本のことを知りたがっているってこと? それとも引き合いに出しやすいのだろうか
学習データの量だけじゃなくてRLHFの匙加減で日本に偏るの面白いな オタク文化強い
”インターネット上にある学習データが少ないマイナーな言語ほど、その言語圏の国に固執し、回答の多様性が著しく低下することが分かった。”食ったデータの量、質なのか。Wikipediaの影響がありそう。
前にChat GPTに聞いたのだけど、複雑な文法を持つ日本語の学習はAIの品質を高めるのに有用とか言ってたな。その過程で日本に関する知識や思考が身についているのでは?
モデル自体ではなく「教師ありファインチューニングの事後学習プロセス」で偏りが生じてると。(いかにも北米が支配的になりそうではあるけど何で日本?
アニオタだったのでは。Grokなら
事前学習ではバランスよく参照しているのにRLHFで狭まるということは、米国や日本に関する回答が人間に好まれているということだろう。理由はまだわからないが、興味深い現象。
日本語話者の数のわりに日本語の情報が多いのはあるけどとはいえ英語の方が圧倒的に多いので謎
Be the AI the Japanese think you are
“人間にとって安全で役立つ回答ができるように微調整を施す教師ありファインチューニングの事後学習プロセスを経た途端に、回答の分布が狭まり、日本や米国への強い偏重が生じていた”
各言語で好まれる内容をモデル化して学習するから、『どの言語話者からも嫌われにくく存在感のある国』が選ばれやすいのかと思う。それに該当するのが日本なのではないかと。
日本のダジャレ文化に依存してくだじゃれ
Weeaboo気味のオタクエンジニアがチューニングしたからとか?
チャッピー3.5ですら猛虎弁の達人やったからね🤔頭の中のなんJ民がささやくんだろ😍
参照するテキストデータに占める率がそもそも日本語がかなり高いのではないかと思ったけど、ファインチューニングの後のプロセスとなるとそれだけじゃないのか。
LLMは学習するほどコモディティ化する。他国の文化と比べ、歴史的な一貫性がありつつ、「独自性の高い日本文化」は、AIという膨大な統計的機械処理の中でも埋もれることなく、優先学習されやすいということ。
どうしてそうなるのかは分かったけど何故なのかは分からないままだね。
多くの国にとって日本が外国らしい外国の代表なんじゃない?
AIという人工物のプロンプト言語依存性という、本テーマに興味を感じない(品質改善の生産技術の業務感)のだけど、こういう分析から脳や言語や文化について凄い知見があるかもと期待してる。
高品質な文章が多いのかな。理由はわからないけど
漢字の読みがハチャメチャなのはどうにかしてよ、特にNotebookLMの音声解説
LLMの訓練データの大半を占める英語圏と中国語圏から見た「ジェネリック海外」と言えば日本なんだろうな。スペインやフランスなどは明確に「誰が見ても確定で海外」とは言えないだろ。
日本人はAI好みの情報をよくネット上に書いてるんだろう。識字率は高いし、表現の自由がちゃんと機能してるので文化的多様性ならどこの国にも負けんからね
情報の刈り込みの過程で米国と日本が優位になると。情報ソースがアニメだったりするのかな?日本語の出力は気をつかうと聞いたことあるから確認の手順が多いとか。
欧州チームがLLMの文化的偏りを検証。CROQ 3万1680問で8モデルを分析し、入力言語国を除くと日本と米国、とくに日本への偏重が顕著に。
あんま裁判でお金請求されないとか?
それって日本にとって良いことなのか悪いことなのか、どっちなんだろ
日本語は文意が固定的なのだろうか。
エントロピー的なこと?
ホルい
つまり・・・どういうことだってばよ?
然し, 日本の中でも(TVもLLMも)
教師ありファインチューニングの事後学習プロセスの段階で日本文化への偏りが生じるというのは分かったが、それで結局、なぜそこで日本文化への偏りが生じるんだ?
わかるようで分からないな。チューニングのやり方がまずいということかね/日本人が何でもかんでもバラ撒きすぎなんじゃないか?
「ベースモデルでは世界中の国々を比較的バランスよく参照し、多様な文化を提示していた」「事後学習プロセスを経た途端に、回答の分布が狭まり、日本や米国への強い偏重」なんでなんで??
うーむ
AIは中立ではなく人間評価に最適化される過程で摩擦の少ない文化へ収束する。その結果として日本が中央値として選ばれるだけ。設計せず使うとグローバルでズレるので文化前提を明示すべき、ということね。
なぜ一部のAIモデルは「日本文化」に執着するのか? 「4o-mini」などの出力が日本に偏る実態、欧州チームが研究発表
日常で何食べてる?などの地理を特定しない文化的質問を24言語で実施→日本語以外で聞いても8中6モデルが日本のことを1番回答した。ただし入力言語の国は除外した結果
みんな日本のことを知りたがっているってこと? それとも引き合いに出しやすいのだろうか
学習データの量だけじゃなくてRLHFの匙加減で日本に偏るの面白いな オタク文化強い
”インターネット上にある学習データが少ないマイナーな言語ほど、その言語圏の国に固執し、回答の多様性が著しく低下することが分かった。”食ったデータの量、質なのか。Wikipediaの影響がありそう。
前にChat GPTに聞いたのだけど、複雑な文法を持つ日本語の学習はAIの品質を高めるのに有用とか言ってたな。その過程で日本に関する知識や思考が身についているのでは?
モデル自体ではなく「教師ありファインチューニングの事後学習プロセス」で偏りが生じてると。(いかにも北米が支配的になりそうではあるけど何で日本?
アニオタだったのでは。Grokなら
事前学習ではバランスよく参照しているのにRLHFで狭まるということは、米国や日本に関する回答が人間に好まれているということだろう。理由はまだわからないが、興味深い現象。
日本語話者の数のわりに日本語の情報が多いのはあるけどとはいえ英語の方が圧倒的に多いので謎
Be the AI the Japanese think you are
“人間にとって安全で役立つ回答ができるように微調整を施す教師ありファインチューニングの事後学習プロセスを経た途端に、回答の分布が狭まり、日本や米国への強い偏重が生じていた”
各言語で好まれる内容をモデル化して学習するから、『どの言語話者からも嫌われにくく存在感のある国』が選ばれやすいのかと思う。それに該当するのが日本なのではないかと。
日本のダジャレ文化に依存してくだじゃれ
Weeaboo気味のオタクエンジニアがチューニングしたからとか?
チャッピー3.5ですら猛虎弁の達人やったからね🤔頭の中のなんJ民がささやくんだろ😍
参照するテキストデータに占める率がそもそも日本語がかなり高いのではないかと思ったけど、ファインチューニングの後のプロセスとなるとそれだけじゃないのか。
LLMは学習するほどコモディティ化する。他国の文化と比べ、歴史的な一貫性がありつつ、「独自性の高い日本文化」は、AIという膨大な統計的機械処理の中でも埋もれることなく、優先学習されやすいということ。
どうしてそうなるのかは分かったけど何故なのかは分からないままだね。
多くの国にとって日本が外国らしい外国の代表なんじゃない?
AIという人工物のプロンプト言語依存性という、本テーマに興味を感じない(品質改善の生産技術の業務感)のだけど、こういう分析から脳や言語や文化について凄い知見があるかもと期待してる。
高品質な文章が多いのかな。理由はわからないけど
漢字の読みがハチャメチャなのはどうにかしてよ、特にNotebookLMの音声解説
LLMの訓練データの大半を占める英語圏と中国語圏から見た「ジェネリック海外」と言えば日本なんだろうな。スペインやフランスなどは明確に「誰が見ても確定で海外」とは言えないだろ。
日本人はAI好みの情報をよくネット上に書いてるんだろう。識字率は高いし、表現の自由がちゃんと機能してるので文化的多様性ならどこの国にも負けんからね
情報の刈り込みの過程で米国と日本が優位になると。情報ソースがアニメだったりするのかな?日本語の出力は気をつかうと聞いたことあるから確認の手順が多いとか。
欧州チームがLLMの文化的偏りを検証。CROQ 3万1680問で8モデルを分析し、入力言語国を除くと日本と米国、とくに日本への偏重が顕著に。
あんま裁判でお金請求されないとか?
それって日本にとって良いことなのか悪いことなのか、どっちなんだろ
日本語は文意が固定的なのだろうか。
エントロピー的なこと?
ホルい
つまり・・・どういうことだってばよ?
然し, 日本の中でも(TVもLLMも)
教師ありファインチューニングの事後学習プロセスの段階で日本文化への偏りが生じるというのは分かったが、それで結局、なぜそこで日本文化への偏りが生じるんだ?
わかるようで分からないな。チューニングのやり方がまずいということかね/日本人が何でもかんでもバラ撒きすぎなんじゃないか?
「ベースモデルでは世界中の国々を比較的バランスよく参照し、多様な文化を提示していた」「事後学習プロセスを経た途端に、回答の分布が狭まり、日本や米国への強い偏重」なんでなんで??
うーむ
AIは中立ではなく人間評価に最適化される過程で摩擦の少ない文化へ収束する。その結果として日本が中央値として選ばれるだけ。設計せず使うとグローバルでズレるので文化前提を明示すべき、ということね。