VentureBeat 2023/11/25 05:22:20(JST)
ETH Zurichの研究者たちは、ニューラルネットワークの速度を大幅に向上させる新しい技術を開発しました。彼らは推論プロセスを変更することで、これらのネットワークの計算要件を劇的に削減できることを実証しました。彼らは言語タスクで使用されるトランスフォーマーモデルであるBERTにおいて、計算量を99%以上削減する驚異的な結果を示しました。この革新的な技術は、GPT-3などの大規模な言語モデルにも適用でき、より高速かつ効率的な言語処理の可能性を開拓します。”
“研究者たちは、大規模な言語モデルの基盤となるトランスフォーマーネットワークは、アテンション層やフィードフォワード層などのさまざまな層で構成されていることを明らかにしました。フィードフォワード層はモデルのパラメータの大部分を占めており、すべてのニューロンと入力次元の積を計算する必要があるため、計算量が多くなります。しかし、研究者たちの論文は、推論プロセス中にはフィードフォワード層内のすべてのニューロンがアクティブである必要はないことを示しています。彼らは従来のフィードフォワード層の代わりに「高速フィードフォワード」層(FFF)の導入を提案しています。FFFは条件付き行列乗算(CMM)という数学的な操作を使用し、従来のフィードフォワードネットワークで使用される密行列乗算(DMM)を置き換えます。FFFは、ネットワークによる処理において各入力に対してほんのわずかなニューロンしか必要としない方法で推論を行います。これにより、適切なニューロンを特定することで、FFFは計算負荷を大幅に削減し、より高速かつ効率的な言語モデルを実現します。”
“研究者たちは、彼らの革新的な技術を検証するために、GoogleのBERTトランスフォーマーモデルを改良したFastBERTを開発しました。FastBERTは、中間のフィードフォワード層を高速フィードフォワード層に置き換えることで、モデルを革新します。FFFは、入力に基づいて条件付きで1つの枝のみを実行するようにニューロンをバランスの取れた2分木に配置します。FastBERTのパフォーマンスを評価するために、研究者たちはGeneral Language Understanding Evaluation(GLUE)ベンチマークのいくつかのタスクで異なるバリアントを微調整しました。その結果、FastBERTは同じサイズとトレーニング手順のベースBERTモデルと比較して同等のパフォーマンスを発揮しました。1日のトレーニングで単一のA6000 GPU上でトレーニングされたFastBERTのバリアントは、元のBERTモデルのパフォーマンスの少なくとも96.0%を保持しました。驚くべきことに、最も優れたFastBERTモデルは、自身のフィードフォワードニューロンのわずか0.3%の使用で元のBERTモデルのパフォーマンスに匹敵しました。研究者たちは、高速フィードフォワードネットワークを大規模な言語モデルに組み込むことが加速にとって非常に大きなポテンシャルを持つと考えています。例えば、GPT-3では、各トランスフォーマーレイヤーのフィードフォワードネットワークは49,152個のニューロンで構成されています。”
(※本記事はAIによって自動的に要約されています。正確な情報は引用元の記事をご覧ください。)
(※画像はAIによって自動で生成されており、引用元とは関係ありません。)
引用元の記事:New technique can accelerate language models by 300x.