マイクロソフトは、より大きなモデルよりも優れた性能を発揮する一対の小さな言語モデル、Orca 2をリリースしました。

VentureBeat 2023/11/21 16:43:02(JST)

Microsoftは、OpenAIの権力闘争と大量辞任にもかかわらず、自社のAIの取り組みを止めていません。Satya Nadella率いる同社の研究部門は、Orca 2という2つの小さな言語モデルを開発しました。これらのモデルは、ゼロショット設定で複雑な推論タスクをテストした結果、MetaのLlama-2 Chat-70Bなど、5〜10倍大きな言語モデルと同等またはそれ以上の性能を発揮します。これらのモデルは、7兆と13兆のパラメータを持ち、より大きなモデルのステップバイステップの推論トレースを模倣することで強力な推論能力を示すOrcaモデルの改良版です。Microsoftはこれらのモデルをオープンソース化し、より小さなモデルの開発と評価に関するさらなる研究を促しています。これにより、リソースが限られている企業にとって、計算能力に多額の投資をすることなく、ターゲットのユースケースに対応するためのより良い選択肢が提供されることが期待されます。”

“Microsoft Researchは、小さなモデルにも複雑な推論能力を持たせるために、Llama 2のベースモデルを特別なデータセットで微調整しました。しかし、より大きなモデルの振る舞いを模倣するという一般的な手法ではなく、研究者たちは異なるタスクに対して異なる解決策戦略を用いるようにモデルを訓練しました。つまり、大きなモデルの戦略が小さなモデルには常に完璧に機能しない場合もあるという考えです。Orca 2では、モデルにさまざまな推論技術を教え、各タスクに対して最も効果的な解決策戦略を判断する能力を身につけさせることを目指しました。”

“Orca 2は、言語理解、常識的推論、多段階推論、数学問題解決、読解、要約、真実性などをカバーする15のベンチマークでテストされ、大きさが5〜10倍大きいモデルとほぼ同等またはそれ以上の結果を示しました。これは、コスト効果の高いビジネスアプリケーションに小さな高性能モデルを求める企業チームにとって良いニュースです。ただし、これらのモデルには他の言語モデルと同様の制限があり、ベースモデルの制限も引き継ぐ可能性があることに注意が必要です。Microsoftは、Orcaモデルの作成に使用された手法が他のベースモデルにも適用できると述べています。”

(※本記事はAIによって自動的に要約されています。正確な情報は引用元の記事をご覧ください。)
(※画像はAIによって自動で生成されており、引用元とは関係ありません。)
引用元の記事:Microsoft releases Orca 2, a pair of small language models that outperform larger counterparts.