はてなまとめ - AIの著作権問題に終止符か？ 8TBの巨大オープンデータセット「Common Pile」登場、Llama 2に匹敵するLLMもリリース

1: crmea 2025/06/08 08:05

クリーンなAI開発を応援したい　許可されていない著作物からの学習が明確にアウトな世界線に辿り着きたいので

2: ivory105 2025/06/08 10:49

すごい。ただ画像はこのデータセットには無さそうだ

3: enderuku 2025/06/08 11:20

本質的には著作権とかじゃなくて食い扶持を奪うなだから既存クリエイターはAIがクリーンかどうかはあんまり心動かされないと想像する

4: kotesaki 2025/06/08 11:25

著作権問題解決したらしたでまた別の観点から難癖付けてくるんじゃないの？(笑)

5: MIZ 2025/06/08 11:33

“フィルタリング: 非英語コンテンツや低品質なテキストを除去。” / 次は国会図書館の出番かな。在野がやるには規模がデカすぎるし。

6: bzero-sugar 2025/06/08 12:00

権利ガーというのは建前で反AIの本音は「AIに腕で負けるのが嫌」という我儘に端を発するラッダイト運動。画像ならAdobeのAIはとっくにクリーンなわけで連中はAI技術を破棄させるまで暴れるだろう

7: toaruR 2025/06/08 13:12

すばらしい（´－｀）日本も日本語のオープンなデータセットを整えてほしい。つかNHKのをオープンにしようぜ

8: btei 2025/06/08 13:17

引用の要件を満たした無断の引用は「クリーンじゃ無い」引用なの？

9: hinonono 2025/06/08 13:53

引用、先行研究、アイデアなど、他者の著作物を土台にすることはむしろ必須。その繰り返しを源泉に各作品の価値が雪だるま式に積み上がり、ファンタジー、RPG系なろう等の「ジャンル」の形で巨大な価値となることも。

10: fujimakitk 2025/06/08 14:26

しかしClaudeを作るのに Redditの情報は必須なんだろうなあ

11: preciar 2025/06/08 14:56

で、お前ら天然知能はオープンデータだけで学習してきたの？誰かの漫画に似た絵や誰かの小説に似た文章書かねえの？AIによる学習を禁じるってことはそういう話になるんだが？

12: eschan 2025/06/08 15:22

crmea「許可されていない著作物からの学習が明確にアウト」こんな都合のいい綺麗事言ってんじゃねえよ。どうせYOUTUBEで違法アップされたお笑い見ながら書いてるんでしょ。

13: hom_functor 2025/06/08 15:30

無断学習とやらで作られた翻訳AIには文句言わないどころか使っていい理由のこじつけを始めるので、そもそも著作権問題じゃない

14: nekomottin 2025/06/08 15:35

クリーンな生成AIができると泥棒の誹りを免れない輩がなんか色々言ってるな

15: tanglejar 2025/06/08 15:42

日本では著作権問題なんて存在しないので、是非データセット作ってください。翻訳や検索で無断学習されたコンテンツを散々利用しているのに、イラストだけ特例扱いを要求することほど阿呆で糞馬鹿なことはないので。

16: flont 2025/06/08 16:07

既に"クリーン"なAdobeを反AIは認めないように、結局のところ性能が上がるとヒスり始めるので付き合うだけ無駄だよ

17: Helfard 2025/06/08 16:09

努力は認めるがこれじゃ駄目だろうな。

18: zgmf-x20a 2025/06/08 16:14

同時に公開LLM開発は事前学習から強化学習ってことになるかもね。

19: kei_1010 2025/06/08 17:17

いいねー。こういうので、どんどんアホ共を追い詰めていって欲しい。あとwebの玉石混交のデータより、洗練されたデータの方が効率も性能も高くなるんじゃないかと思う。

20: fashi 2025/06/08 17:32

名前が微妙

21: H_He_Li_Be 2025/06/08 17:43

8TBくらいで、十分な性能が出るんだな。もっと巨大なデータセットが必要なのかと思ってた。

AIの著作権問題に終止符か？ 8TBの巨大オープンデータセット「Common Pile」登場、Llama 2に匹敵するLLMもリリース | XenoSpectrum