プロセス監視による数学的推論の改善

OpenAI 2023/5/31 16:00:00(JST)

近年、大規模言語モデルは複雑な多段階推論を行う能力が大幅に向上していますが、最新のモデルでも論理的な誤りが生じることがあります。これを幻覚と呼び、幻覚を軽減することは、合意された人工知能を構築するための重要なステップです。本研究では、MATHデータセットを使用して、アウトカム監視とプロセス監視の2つの方法を比較し、プロセス監視がより優れたパフォーマンスを発揮することを明らかにしました。プロセス監視は、アラインメントに関するいくつかの利点があります。

“プロセス監視は、アラインメントに関するいくつかの利点があります。それは、各ステップに正確な監視を提供するため、アラインされた思考の連鎖に従うことをモデルに直接報酬を与えます。また、人間が承認したプロセスに従うようにモデルを促すため、より解釈可能な推論を生み出す可能性があります。一方、アウトカム監視は、アラインされていないプロセスに報酬を与える可能性があり、検証が一般的に難しいです。”

“本研究では、MATHテストセットの問題を使用して、プロセス監視とアウトカム監視の報酬モデルを評価しました。多くの解決策を生成し、それぞれの報酬モデルによって最も高く評価された解決策を選択しました。プロセス監視報酬モデルは、全体的に優れたパフォーマンスを発揮し、解決策の数が増えるにつれてパフォーマンス差が拡大することがわかりました。これは、プロセス監視報酬モデルがより信頼性が高いことを示しています。”

この結果が数学以外の領域にも適用されるかどうかは不明ですが、プロセス監視がアウトカム監視よりもパフォーマンスが優れ、アラインメントにも優れている可能性があるため、今後の研究で探究することが重要です。

(※本記事はAIによって自動的に要約されています。正確な情報は引用元の記事をご覧ください。)
(※画像はAIによって自動で生成されており、引用元とは関係ありません。)
引用元の記事:Improving mathematical reasoning with process supervision.