VentureBeat 2023/10/5 21:00:00(JST)
IBMは、PyTorchをAIのトレーニングだけでなく、推論にも利用する取り組みを行っています。PyTorchをより企業向けのオプションとして利用可能にするための新しい研究が進められており、複数のベンダーテクノロジーやGPUおよびCPU上で動作するオープンソースの推論のための代替手段を提供することを目指しています。IBMの研究チームは、グラフフュージョン、カーネル最適化、並列テンソルの3つの技術を組み合わせて、高速な推論速度を実現しています。これらの最適化を使用することで、大規模な言語モデルにおいて100 GPUシステムで1トークンあたり29ミリ秒の推論速度を達成しています。しかし、IBMの取り組みはまだ本番環境への展開には準備が整っていません。”
“IBMは、PyTorchの推論能力を拡張するために、動的バッチングと呼ばれる機能も開発しています。動的バッチングは、複数の推論リクエストをまとめてGPU上でバッチ処理することで、GPUの効率的な利用を可能にします。これにより、単一のユーザーからの推論には通常低い負荷がかかるため、GPUの利用効率が向上します。IBMは、PyTorchをエンタープライズ向けに本格的に活用することを目指しています。”
“IBMの最適化は、現在のPyTorchの最新リリースに基づいており、今月後半にリリース予定のPyTorch 2.1でより広く利用できるようになる予定です。また、IBMはまだオープンソースプロジェクトの一部ではない新しいコードも多く持っていますが、IBMの目標は推論の最適化機能を貢献し、コードをメインラインプロジェクトに統合することです。”
(※本記事はAIによって自動的に要約されています。正確な情報は引用元の記事をご覧ください。)
(※画像はAIによって自動で生成されており、引用元とは関係ありません。)
引用元の記事:IBM propels PyTorch beyond model training into AI inference.