|
市場に出回っている多くの音声モデルは、既に十分に自然な合成性能を保証していますが、音質、リズム、感情表現、そして複数のキャラクターの描写といった点では、まだ探求の余地があります。特に小説のナレーションにおいては、トップクラスのナレーターに匹敵する繊細な表現力を実現するには、ナレーションとキャラクター描写を区別し、登場人物の感情を正確に表現し、それぞれのキャラクターの個性を際立たせることが不可欠です。 小説の音声合成(TTS)を生成する従来の方法では、会話、ナレーション、感情、登場人物などを事前にラベル付けする必要がありました。しかし、 Doubao音声モデルは、追加のラベル付けを必要とせずに、エンドツーエンドの合成を実現します。 △ 従来の音声モデルと豆型音声モデルの合成チェーンの違い 改良された Seed-TTS テクノロジーにより、合成音声の品質は実際の人間の音声に匹敵します。オリジナルのSeed-TTS (技術レポート: https://arxiv.org/pdf/2406.02430) は、主に Speech Tokenizer、Autoregressive Transformer、Diffusion Model、Acoustic Vocoder の 4 つのモジュールに分かれた自己回帰テキスト音声変換モデルです。 Speech Tokenizer は参照オーディオ情報を解析し、合成オーディオの音色とグローバル スタイルを決定します。Autoregressive Transformer は入力ターゲット テキストと Speech Tokenizer の出力を受け取り、セマンティック情報を含むセマンティック トークンを生成します。Diffusion Model はセマンティック トークンに基づいて音声情報を含む Acoustic Token をモデル化します。Acoustic Vocoder は Acoustic Token から最終的なオーディオを再構築します。 △オリジナルSeed-TTSアーキテクチャ 小説のナレーション中の音声パフォーマンスと長いテキストの理解をさらに向上させるために、 Doubao テクノロジーチームは Seed-TTS を改良しました。
専門家による評価の結果、最適化された Doubao 音声モデルは、CMOS (比較平均オピニオン スコア、実際の人のスコアと比較する主観的な採点方法) によると、斬新なナレーション シナリオにおいてトップクラスの放送局のパフォーマンスの 90% 以上を達成しました。 △最適化された豆语音声モデル構造 この技術は Tomato Novels に実装されており、オーディオブックのユーザーにメリットをもたらします。Doubao音声モデルチームは、著名なアナウンサーである王明軍氏と李曼超氏の声をベースに、最新技術を駆使して数千冊ものオーディオブックを制作してきました。これらのオーディオブックは現在、Tomato Novelsで配信されており、歴史小説、サスペンス、超自然小説、都市小説、空想小説、SF小説といった人気ジャンルを網羅しています。 今後もDoubaoの音声モデルは最先端技術とビジネスシナリオの組み合わせを模索し続け、より究極の「リスニング」体験を追求していくとみられる。 |
AIによるストーリーテリングは、まるで人間の話術に匹敵します!Doubaoの音声モデルは、コンテキスト理解能力が強化され、さらに進化しました。
関連するおすすめ記事
-
ControlNet作者の新作:AI照明がさらに進化!ディテール保持はSD1.5をはるかに上回ります。
-
知性の世界を実現する | 学習リソースを全面的にアップグレードし、共に技術成長への道を築く
-
脳には、レム睡眠中に作動する内部の「世界モデル」があります。
-
オンラインチュートリアル | LivePortrait で超リアルな表情転送を実現し、バーチャルアイドルに命を吹き込む!
-
AI が論文が受理されるかどうかを予測、8B モデルが 70B モデルを上回る、HKU がグラフとテキストを融合するマルチエージェント モデル GraphAgent をリリース。
-
2024 OSCAR | 企業オープンソースガバナンス実装ガイドと「OSGMM2.0-2024 中国企業におけるオープンソースガバナンスの全体像」を徹底公開!