VentureBeat 2023/6/19 05:39:46(JST)
Meta Platformsの人工知能研究部門は、テキストから音声を生成する機械学習モデルVoiceboxを発表しました。Voiceboxは、編集、ノイズ除去、スタイル変換など、訓練されていない多くのタスクを実行できることが特徴です。このモデルは、Metaの研究者が開発した特別な方法で訓練され、将来的に多くのアプリケーションに活用される可能性があります。しかし、誤用の懸念から、MetaはVoiceboxをリリースしていません。
”
Voiceboxは、英語、フランス語、スペイン語、ドイツ語、ポーランド語、ポルトガル語を含む6つの言語で音声を合成できる生成モデルです。このモデルは、音声オーディオサンプルをそのトランスクリプトにマッピングするパターンを学習するように訓練されています。このようなモデルは、微調整を必要とせずに多くの下流タスクに適用できます。Voiceboxは、Metaの「Flow Matching」技術で訓練されており、他の生成モデルで使用される拡散ベースの学習方法よりも効率的で一般化されています。
”
Voiceboxは、音声サンプルとそれに対応するテキストを提供することで、音声の一部をマスクし、周囲の音声とトランスクリプトを文脈としてマスクされた部分を生成するように訓練されています。このモデルは、特定のアプリケーションに訓練された生成モデルとは異なり、訓練されていない多くのタスクを実行できます。Voiceboxは、音声サンプルから新しいテキストに音声を生成することができ、音声を生成するための合成データを生成することもできます。しかし、誤用の懸念から、MetaはVoiceboxをリリースしていません。
(※本記事はAIによって自動的に要約されています。正確な情報は引用元の記事をご覧ください。)
(※画像はAIによって自動で生成されており、引用元とは関係ありません。)
引用元の記事:Meta announces Voicebox, a generative model for multiple voice synthesis tasks.