VentureBeat 2023/6/22 03:07:00(JST)
MITのコンピュータサイエンスと人工知能研究所(CSAIL)の研究者たちは、画像認識と画像生成の両方のタスクを高精度で処理できるフレームワークを発表しました。Masked Generative Encoder(MAGE)と名付けられたこの統合されたコンピュータビジョンシステムは、幅広い応用が期待され、画像の識別と新しい画像の生成のために別々のシステムを訓練するオーバーヘッドを削減できます。
”
MAGEの開発には、マスクされたトークンモデリングと呼ばれる事前学習アプローチが使用されました。画像データのセクションを意味的トークンで表現される抽象化されたバージョンに変換しました。これらのトークンは、元の画像の16×16トークンパッチを表し、ミニジグソーパズルのピースのように機能します。トークンが準備できたら、いくつかがランダムにマスクされ、周囲のトークンからのコンテキストを収集して隠されたものを予測するようにニューラルネットワークが訓練されました。これにより、システムは画像のパターンを理解する(画像認識)と同時に、新しい画像を生成する(画像生成)方法を学習しました。
”
MAGEは、条件付き画像生成もサポートしており、ユーザーが画像の基準を指定すると、適切な画像を生成します。今後、研究チームは、MAGEシステムを改善し、特にトークン変換部分を効率化する予定です。さらに、実世界の大規模なラベルなし画像データセットでMAGEをスケールアップし、画像からテキスト、テキストから画像への生成などのマルチモダリティタスクに適用する計画もあります。
(※本記事はAIによって自動的に要約されています。正確な情報は引用元の記事をご覧ください。)
(※画像はAIによって自動で生成されており、引用元とは関係ありません。)
引用元の記事:Meet MAGE, MIT’s unified system for image generation and recognition.