VentureBeat 2023/11/28 02:43:13(JST)
新しい人工知能ベンチマーク「GAIA」が、ChatGPTなどのチャットボットが日常のタスクで人間のような推論力と能力を示すことができるか評価することを目指しています。GAIAは、論理思考、多様な情報の取り扱い、ウェブブラウジング、一般的なツールの使用能力など、基本的な能力を必要とする実世界の質問を提案しています。人間の回答率は92%であるのに対し、GPT-4は15%に過ぎず、人間の専門的なスキルを必要とするタスクでは、最近の大規模言語モデル(LLMs)が人間を上回る傾向にあることとは対照的な結果です。GAIAは、人間のような能力に焦点を当てており、専門知識ではなく、一般的な人間の堅牢性を示すタスクに焦点を当てるべきだと研究者は提案しています。
”
GAIAの手法により、466の明確な回答を持つ実世界の質問が作成されました。そのうち300の回答は非公開で、公開された166の質問と回答は開発セットとして公開されました。GAIAを解決することは、AI研究の重要なマイルストーンとなると研究者は述べています。GAIAの最高スコアは、手動で選択されたプラグインを使用したGPT-4の30%の正答率です。GAIAを解決するシステムは、合理的な時間内に人工汎用知能と見なされる可能性があります。
”
GAIAのリリースは、AI研究の新たな方向性を示しており、広範な影響を持つ可能性があります。GAIAは、専門的な知識ではなく、日常のタスクにおける人間のような能力に焦点を当てることで、より狭いAIベンチマークを超えることを目指しています。GAIAによって人間レベルの常識、適応性、推論力を示すことができる未来のシステムが実現すれば、AIアシスタントやサービス、製品の展開が加速する可能性があります。ただし、現在のチャットボットの性能では、GAIAを解決するにはまだまだ時間がかかると研究者は警告しています。
(※本記事はAIによって自動的に要約されています。正確な情報は引用元の記事をご覧ください。)
(※画像はAIによって自動で生成されており、引用元とは関係ありません。)
引用元の記事:The GAIA benchmark: Next-gen AI faces off against real-world challenges.