AI2は、言語モデルのトレーニングに最大のオープンデータセットを公開しました。

TechCrunch 2023/8/19 05:29:54(JST)

AI2(Allen Institute for AI)は、GPT-4やClaudeのような言語モデルは強力で有用だが、そのトレーニングに使用されるデータは厳重に秘密にされていると指摘し、新しい巨大なテキストデータセット「Dolma」を公開し、誰でも自由に使用し、検査することができるようにすることを目指している。Dolmaは、AI2の計画されているオープン言語モデル(OLMo)の基盤となる予定であり、AI研究コミュニティによる自由な使用と改変を可能にするため、データセットも同様に公開されるべきだと主張している。


AI2は、Dolmaに関する最初の「データアーティファクト」を公開し、その選択された情報源と処理の合理性について説明している。他の企業が言語モデルの構築に使用するデータセットの重要な統計情報を公開しているものの、その情報の多くはプロプライエタリとして扱われている。AI2のDolmaは、これらとは逆に、すべての情報源とプロセスが公開され、透明性が確保されている。


AI2のDolmaは、3億トークンという非常に大規模なデータセットであり、使用と許可に関しても最も簡単なものであると主張されている。Dolmaの利用者は、連絡先情報と使用目的を提供し、派生作品を開示し、同じライセンスの下でそれらを配布することが求められる。また、監視やディスインフォメーションなどの禁止された領域にDolmaを適用しないことに同意する必要がある。個人データがデータベースに含まれている可能性がある場合、削除依頼フォームが用意されている。

(※本記事はAIによって自動的に要約されています。正確な情報は引用元の記事をご覧ください。)
(※画像はAIによって自動で生成されており、引用元とは関係ありません。)
引用元の記事:AI2 drops biggest open dataset yet for training language models.