|
ByteDanceと浙江大学が共同開発したプロジェクト「Loopy」が大ヒット! たった 1 つの画像と 1 つのオーディオ クリップだけで、非常に自然なビデオを生成できます。 研究チームは、Loopyと類似のアプリケーションの比較ビデオも公開しました。 ネットユーザーは全員一致で賞賛した。 Loopyの技術は素晴らしいですね!インタラクティブメディアの未来は明るいと感じます! 明るい未来が待っています! 本当にすごいの?見てみましょう! ルーピーの生成効果研究チームはデモビデオをいくつか公開しましたが、その内容は非常に想像力豊かで型破りです。 例えば、レオナルド・ディカプリオが「Black Myth」で陝西省の霊験あらたかな菩薩の話を歌う(高音を歌うときには眉をひそめる) : 兵馬俑にイギリス英語で話してもらいましょう。 モナ・リザは口を開いてこう語ります。 メイメイは、自身のBGMに合わせて古代の衣装のセリフを言います(少し眉毛も上げます) 。 ヒュー・ジャックマンのプロフィール写真でさえ、これには対抗できません。 ため息の細部も非常にうまく処理されています。 肖像画は非常に自然に見えます(話しているときも目が自然に別の方向を向いています) 。 Loopy はどのようにして「疎外感に別れを告げる」のでしょうか?これらのシームレスなデモ ビデオを見た後、Loopy がこれらのタイプのビデオをどのように生成するかを見てみましょう。 要約すると、Loopy はエンドツーエンドのオーディオ駆動型ビデオ生成モデルです。 そのフレームワークは次の4 つの部分から構成されます。 ReferenceNet : 元の SDU-Net の構造を複製し、参照画像の潜在表現を入力として取り、参照画像から特徴を抽出する追加のネットワーク モジュール。 DenoisingNet : ノイズの多い入力から最終的なビデオ フレームを生成するノイズ除去 U-Net。 DenoisingNet の空間注意層では、ReferenceNet によって抽出された参照画像の特徴が、トークン次元に沿って DenoisingNet の特徴と連結されます。 これは、DenoisingNet が現在の特徴に関連する画像情報を ReferenceNet から選択的に吸収し、生成プロセス中に画像の視覚的な一貫性を維持できるようにするためです。 つまり、これら 2 つのネットワークの機能を組み合わせることで、DenoisingNet は参照画像の詳細をより有効に活用し、生成される結果の品質と一貫性を向上させることができます。 Apperance : Loopy の外観モジュール。主に参照画像とモーション フレーム画像を受け取り、それらを特殊なデジタル コード(潜在ベクトル)に圧縮します。 移動フレームの潜在ベクトルは「時系列モジュール」によって処理され、参照画像の潜在ベクトルと連結されます。これにより、参照情報と動き情報が融合されます。 連結された潜在ベクトルは ReferenceNet モジュールに入力され、重要な視覚情報でラベル付けされた特徴マップを生成します。これは、後続のノイズ除去モジュールで使用するのに便利です。 オーディオ:Loopyのオーディオモジュール。このモデルは、まずWav2Vecネットワークを用いてオーディオ特徴を抽出し、次に各レイヤーの特徴を結合してマルチスケールのオーディオ特徴を形成します。 次に、ビデオの各フレームについて、前の 2 フレームと次の 2 フレームのオーディオ特徴が連結され、5 フレームのオーディオ特徴を含むシーケンスが形成されます。これが現在のフレームのオーディオ情報として機能します。 最後に、各残差ブロックでは、「クロスアテンション」メカニズムを使用して、オーディオ機能と視覚機能を組み合わせて、対象のオーディオ機能を計算し、それを視覚機能に追加して新しい機能を生成します。 このモデルには Audio2Latent モジュールも含まれており、オーディオ情報を共有モーション潜在空間にマッピングできるため、モデルがオーディオとビデオ内の人物のアクションとの関係をさらに理解するのに役立ちます。 研究チームの実験結果は次のとおりです。 もう一つLoopy 以前にも、ByteDance と浙江大学がCyberHost と呼ばれる同様のプロジェクトを共同で開発していたことは注目に値します。 Loopy とは異なり、CyberHost はエンドツーエンドのオーディオ駆動型人間アニメーションモデルです。 |
バイトダンスのAI版レオナルド・ディカプリオが始まる:黄風嶺、八百里
関連するおすすめ記事
-
OpenAI は、Yao クラスのトップ学生であり、『Mind Tree』の著者であり、プリンストン大学の博士号を持ち、ラッパーでもある Yao Shunyu を歓迎します。
-
スマートテクノロジー分野に新たなプレーヤーが参入し、インテリジェンス、センシング、コントロールという3つの主要テクノロジーを同時に展開し、すでに韓国に製品を大量出荷している。
-
SearchGPT のオープンソース バージョンがリリースされました。3090 の画像 2 枚だけで問題を再現でき、Perplexity の有料バージョンを上回っています。
-
デュアルエンジンにアップグレード!大規模デバイス向けSenseTimeのDeepSeek Enterprise Editionがリリース+無料版が拡充。
-
「AI + バイオメディシン」の絶好の機会を捉え、2024 年の最も注目すべき破壊的な成果を振り返ります。
-
賞金3万元!Moda AIGCテキスト画像変換アプリケーションコンテスト