VentureBeat 2023/10/21 00:17:47(JST)
研究者たちは、Eleuther AIというオープンソースモデルで知られる企業といくつかの大学の共同研究により、数学の問題を解決するために特別に設計されたオープンソースの大規模言語モデル(LLM)であるLLEMMAを紹介しています。LLEMMAは、GoogleのMinervaを含む他の主要な数学に特化した言語モデルよりも優れた性能を持ち、さらなる研究のための堅牢なプラットフォームを提供しています。LLEMMAは数学の問題を完璧に解決するわけではありませんが、専門化された大規模言語モデルの開発に向けた重要な進歩であり、AI研究を新たな方向に進めることができます。
”
LLEMMAは、MetaのオープンソースモデルであるLlama 2モデルをベースにしたCode Llama上に構築されており、コードに特化したデータセットで微調整されています。研究者たちは、7兆パラメータと34兆パラメータの2つのバージョンのモデルを開発しました。これらのモデルは、研究者たちが作成したProof-Pile-2というデータセットでさらに微調整されており、科学論文、数学を特集したウェブデータ、数学のコードが組み合わさったデータセットです。研究者たちは、「LLEMMAは数学に関連する多様なデータで事前学習されており、特定のタスクにチューニングされていません。そのため、LLEMMAはタスク固有の微調整やフューショットのプロンプティングを通じて多くの他のタスクに適応できると期待しています。」と述べています。
”
研究者たちは、LLEMMAが数学のベンチマークテストで他のオープンモデルよりも優れたパフォーマンスを示したと報告しています。また、LLEMMAは追加の微調整なしでツールを使用し、形式的な定理を証明する能力も示しています。Pythonインタプリタや形式的な定理証明器などの計算ツールを活用することで、数学の問題を解決することができます。ツールの使用は、外部の知識源を提供して回答を検証し修正することで、モデルの問題解決能力をさらに強化することができます。
(※本記事はAIによって自動的に要約されています。正確な情報は引用元の記事をご覧ください。)
(※画像はAIによって自動で生成されており、引用元とは関係ありません。)
引用元の記事:Meet LLEMMA, the math-focused open source AI that outperforms rivals.