VentureBeat 2023/8/22 02:17:57(JST)
“The Atlantic”の報道によると、Stephen King、Zadie Smith、Michael Pollanなどの著名な作家の著作権保護された作品が、MetaのAIモデルであるLLaMAや他の大規模な言語モデルの訓練に使用されていることが明らかになりました。しかし、これらの作品が「盗まれた」とされる問題は、著作権法の複雑な世界ではまだ解決されていません。しかし、訓練に使用されるデータセットは、アメリカの法廷だけでなく、世論の裁判にも直面する可能性があります。
”
LLM(大規模言語モデル)は、著作権保護された素材を大量に取り込むことが一般的ですが、これは「公正な使用」として認められると主張されています。しかし、他の意見も存在し、議論が分かれています。また、LLMが大量のデータを処理し、テキストや画像を生成するために使用するデータセットが、創作活動に関与する人々にどのような影響を与えるかについて、AIコミュニティの外ではあまり考慮されていませんでした。しかし、ChatGPTの登場により、LLMは単なる科学的研究実験ではなく、巨額の投資と利益の可能性を持つ商業企業となりました。
”
同時に、OpenAI、Anthropic、Cohere、MetaなどのLLM企業は、従来はオープンソースに重点を置いていましたが、彼らのモデルの訓練に使用されるデータセットの詳細を公開しなくなり、より秘密主義的になっています。データセットにはWikipediaや他のオンラインの文章が含まれているが、高品質な生成AIには通常のインターネット上では見つからないような高品質な入力が必要です。先月、カリフォルニアで提起された訴訟では、Sarah Silverman、Richard Kadrey、Christopher Goldenの作家が、Metaが彼らの著作をLLaMAの訓練に使用したことで著作権法を侵害したと主張しています。
”
データ収集は、主にマーケティングや広告のために行われてきましたが、インターネットの登場以降、ソーシャルメディアの投稿やウェブサイトのクッキーやGPSの位置情報などを分析するために、広範なデータベースの作成が行われるようになりました。プライバシーやバイアス、安全性に関連する問題に対応するために、データ収集に関する数十年にわたる訴訟や規制の取り組みがありました。しかし、今の問題はプライバシーやバイアス、安全性に関連するだけでなく、労働や著作権にも影響を与えるものです。多くの人々が自分のデータが盗まれたと信じており、静かには受け入れないでしょう。
(※本記事はAIによって自動的に要約されています。正確な情報は引用元の記事をご覧ください。)
(※画像はAIによって自動で生成されており、引用元とは関係ありません。)
引用元の記事:Generative AI datasets could face a reckoning | The AI Beat.