|
視覚的自己回帰モデルにおけるスケーリングは、言語モデルの場合ほど効果的ではないことがよくあります。 Google と MIT の Kaiming He チームのコラボレーションは、この行き詰まりを打破し、自己回帰テキストベースのグラフ モデルを拡張する方向性を示す可能性を秘めています。
これらの発見にヒントを得て、研究チームは連続ラベルに基づく確率的自己回帰モデルである Fluid をトレーニングしました。 数百億のパラメータに拡張された Fluid は、MS-COCO 30K のゼロショット条件下で FID スコア 6.16 を達成し、GenEval ベンチマークで総合スコア 0.69 を獲得しました。 研究チームは、これらの発見と結果が、視覚モデルと言語モデル間のスケールギャップを埋めるためのさらなる取り組みを促進することを期待しています。 100億パラメータの自己回帰テキストグラフモデル振り返ってみると、自己回帰画像生成モデルのパフォーマンスを制限していた主な設計要因は次の 2 つです。
Fluid は、6 月に行われた「ベクトル量子化を使用しない自己回帰画像生成」に関する研究でのチームのアプローチを踏襲しており、離散トークンを放棄して連続トークンを採用しています。 これは拡散モデルを借用したもので、小さなノイズ除去ネットワークを使用して各トークンの連続分布を近似します。 具体的には、このモデルは各トークンの位置を条件としてベクトルzを生成し、これを小規模なノイズ除去ネットワークに入力します。このノイズ除去ネットワークは、トークンxの条件付き分布p(x|z)を、トークンzが与えられた場合に定義します。学習中、このネットワークは自己回帰モデルと共同で最適化され、推論中はp(x|z)からサンプリングすることでトークンが取得されます。このプロセス全体で離散化は不要であるため、量子化損失を回避できます。 トークンが生成される順序を見てみましょう。固定されたラスター順序に従ってトークンを1つずつ生成することで、キーバリューキャッシュを用いた推論を高速化できますが、因果関係の制限は生成品質にも影響を与えます。 Fluid は異なるアプローチを採用しており、生成するトークンをランダムに選択し、 BERT の双方向アテンションに類似したメカニズムを使用してグローバル情報を取得します。 推論プロセスでは完全にランダムな順序が使用されるため、学習と推論の間のシーケンス分布の一貫性が向上します。また、GPTと同様に、トークンごとに温度サンプリングを行うことも可能で、これにより生成の多様性がさらに高まります。 拡散損失と MAR パラダイムの利点を組み合わせることで、著者らはモデルパラメータの数を 100 億以上に拡張し、MS-COCO および GenEval データセットで優れた結果を達成しました。 さらに重要なのは、パラメータ数と学習エポック数の増加に伴い、モデルは検証損失、FID、GenEvalスコアなどの指標において良好なスケーラビリティを示し、さらなるスケーリングを理論的に裏付けていることです。これは言語モデルにおけるスケーリング現象と非常に類似しており、大規模視覚モデルの潜在能力がまだ十分に探求されていないことを示しています。 Fuld モデルによって生成されたその他の選択された画像: 論文の宛先: |
GoogleとMIT Kaiming Heのチーム:視覚的な大規模モデルはLLMと同じくらい効率的に拡張可能
関連するおすすめ記事
-
Volcano Engineの「飛連」プラットフォームは、Doubao大型モデルをベースとして、初の大型モデルITエンパワーメントプラットフォームを立ち上げました。
-
テレンス・タオ氏とユフェイ・チャオ氏の学生たちは、組み合わせ論における難問を共同で解き、23年ぶりの画期的な成果を達成した。
-
cURL は、1 人の人物によって 28 年間にわたって開発および保守されてきたソフトウェアです。
-
マルチドメイン地球科学アプリケーション: 浙江大学のチームは、地理学、海洋学、地質学、大気の分野における時空間モデリングと予測を支援する GeoAI シリーズの手法を提案しました。
-
9.9 < 9.11 の本当の理由を見つけよう: 聖書! 神経介入により、反復トレーニングなしで修復が可能。
-
フェリックス・ヒルの最後の手紙が明らかに:18か月かけて書かれた、AIの天才の苦悩と別れ。