世界最大のAIトレーニングデータセットの1つが、さらに大きくなり、そして「大幅に改善される」予定です。

VentureBeat 2024/1/12 06:26:24(JST)

AIトレーニングデータセットに対する批判が高まっている中、EleutherAIはPileと呼ばれる825GBのデータセットを作成し、2023年に注目を浴びた。彼らは現在、Pileの更新版を作成中であり、University of TorontoやAllen Institute for AIなどの組織と協力している。新しいPileはより大きく、品質も向上しており、数ヶ月以内に完成する予定だ。”
”
AIトレーニングデータセットに対する批判は、OpenAIのChatGPTがリリースされた後、特に著作権に関連する問題に焦点が当てられるようになった。EleutherAIは、Pile v2プロジェクトを通じて著作権とデータライセンスに関連する問題に取り組むことを目指している。彼らは、パブリックドメインのデータやクリエイティブ・コモンズのライセンスを持つテキストなど、さまざまな種類のデータを新しいデータセットに含める予定だ。”
”
AIトレーニングデータに関する議論は非常に複雑で微妙であり、問題によって異なる。EleutherAIは、オープンなデータセットでトレーニングされたAIモデルの方が安全であると主張している。彼らは、データの可視性がAIモデルの安全な使用に役立つと述べており、政策目標や倫理的な理想を達成するためには、トレーニングの詳細な文書化やデータセットへのアクセスが必要だと主張している。

(※本記事はAIによって自動的に要約されています。正確な情報は引用元の記事をご覧ください。)
(※画像はAIによって自動で生成されており、引用元とは関係ありません。)
引用元の記事：One of the world’s largest AI training datasets is about to get bigger and ‘substantially better’.