バイトダンスのAI版レオナルド・ディカプリオが始まる：黄風嶺、八百里

ByteDanceと浙江大学が共同開発したプロジェクト「Loopy」が大ヒット！

たった 1 つの画像と 1 つのオーディオクリップだけで、非常に自然なビデオを生成できます。

研究チームは、Loopyと類似のアプリケーションの比較ビデオも公開しました。

ネットユーザーは全員一致で賞賛した。

Loopyの技術は素晴らしいですね！インタラクティブメディアの未来は明るいと感じます！

明るい未来が待っています！

本当にすごいの？見てみましょう！

ルーピーの生成効果

研究チームはデモビデオをいくつか公開しましたが、その内容は非常に想像力豊かで型破りです。

例えば、レオナルド・ディカプリオが「Black Myth」で陝西省の霊験あらたかな菩薩の話を歌う（高音を歌うときには眉をひそめる） :

兵馬俑にイギリス英語で話してもらいましょう。

モナ・リザは口を開いてこう語ります。

メイメイは、自身のBGMに合わせて古代の衣装のセリフを言います（少し眉毛も上げます） 。

ヒュー・ジャックマンのプロフィール写真でさえ、これには対抗できません。

ため息の細部も非常にうまく処理されています。

肖像画は非常に自然に見えます（話しているときも目が自然に別の方向を向いています） 。

これらのシームレスなデモビデオを見た後、Loopy がこれらのタイプのビデオをどのように生成するかを見てみましょう。

要約すると、Loopy はエンドツーエンドのオーディオ駆動型ビデオ生成モデルです。

そのフレームワークは次の4 つの部分から構成されます。

ReferenceNet : 元の SDU-Net の構造を複製し、参照画像の潜在表現を入力として取り、参照画像から特徴を抽出する追加のネットワークモジュール。

DenoisingNet : ノイズの多い入力から最終的なビデオフレームを生成するノイズ除去 U-Net。

DenoisingNet の空間注意層では、ReferenceNet によって抽出された参照画像の特徴が、トークン次元に沿って DenoisingNet の特徴と連結されます。

これは、DenoisingNet が現在の特徴に関連する画像情報を ReferenceNet から選択的に吸収し、生成プロセス中に画像の視覚的な一貫性を維持できるようにするためです。

つまり、これら 2 つのネットワークの機能を組み合わせることで、DenoisingNet は参照画像の詳細をより有効に活用し、生成される結果の品質と一貫性を向上させることができます。

Apperance : Loopy の外観モジュール。主に参照画像とモーションフレーム画像を受け取り、それらを特殊なデジタルコード(潜在ベクトル)に圧縮します。

移動フレームの潜在ベクトルは「時系列モジュール」によって処理され、参照画像の潜在ベクトルと連結されます。これにより、参照情報と動き情報が融合されます。

連結された潜在ベクトルは ReferenceNet モジュールに入力され、重要な視覚情報でラベル付けされた特徴マップを生成します。これは、後続のノイズ除去モジュールで使用するのに便利です。

オーディオ：Loopyのオーディオモジュール。このモデルは、まずWav2Vecネットワークを用いてオーディオ特徴を抽出し、次に各レイヤーの特徴を結合してマルチスケールのオーディオ特徴を形成します。

次に、ビデオの各フレームについて、前の 2 フレームと次の 2 フレームのオーディオ特徴が連結され、5 フレームのオーディオ特徴を含むシーケンスが形成されます。これが現在のフレームのオーディオ情報として機能します。

最後に、各残差ブロックでは、「クロスアテンション」メカニズムを使用して、オーディオ機能と視覚機能を組み合わせて、対象のオーディオ機能を計算し、それを視覚機能に追加して新しい機能を生成します。

このモデルには Audio2Latent モジュールも含まれており、オーディオ情報を共有モーション潜在空間にマッピングできるため、モデルがオーディオとビデオ内の人物のアクションとの関係をさらに理解するのに役立ちます。

研究チームの実験結果は次のとおりです。

Loopy 以前にも、ByteDance と浙江大学がCyberHost と呼ばれる同様のプロジェクトを共同で開発していたことは注目に値します。

Loopy とは異なり、CyberHost はエンドツーエンドのオーディオ駆動型人間アニメーションモデルです。