VASA-1 Microsoft 写真からAIでリアルな動画を生成

VASA-1 Microsoft

VASA-1とは

VASA-1は、Microsoftが開発した革新的なAIモデル。1枚の静止画像と音声クリップを入力するだけで、その画像の人物が実際に話しているかのように自然な表情や口の動きを再現した動画を生成することができます。

主な特徴

StableDiffusionのImage2Imageをさらに進化させたようなものでしょうか。

VASA-1は、Microsoftが開発した革新的なAIモデルで、1枚の顔写真と音声ファイルから超リアルな話す顔のビデオを生成することができます。VASA-1の潜在的な用途は以下のようなものが考えられます。

エンターテインメント分野

アクセシビリティ向上

教育分野

マーケティング・広告

その他

VASA-1を悪用すれば、実在する人物になりすまして偽の動画(ディープフェイク)を簡単に作成できてしまう危険性があります。

そのため、マイクロソフトは現時点でVASA-1の一般公開や製品化は計画していません。

専門家からは、ディープフェイクによる偽情報拡散への懸念が指摘されています。生成AIの発展に伴い、悪用防止のための技術の向上も求められています。

soraなんかも、リアルすぎてディープフェイクに利用されるかも、って公開を遅らせているらしいですね。ヤバいくらいリアルなんだぞ、っていう宣伝とも思えなくもないですが…。

Microsoftは、VASA-1の研究成果を公開する一方で、悪用リスクを認識しています。この革新的技術が適切に活用されるよう、倫理的な側面での議論と対策が重要となります。