著者 | 凌敏
最近の TTS(Text-To-Speech、テキスト音声合成)モデル分野を表現するのに、「群星が輝く」ほど適切な言葉はありません。
年の初め以来、テクノロジー大手からスタートアップ、研究機関まで、皆が TTS モデルに注力しています。2月には、ByteDanceの海外ラボが軽量なTTSモデルMegaTTS3-Globalを発表しました。3月には、Mobvoiが香港科技大学、上海交通大学、南洋理工大学、西北工業大学などのトップ学術機関と共同で、次世代音声生成モデルSpark-TTSをオープンソース化しました。同じ月には、OpenAIがGPT-4o-miniアーキテクチャに基づくTTSモデルを発表しました。
AI分野の他の人気技術に比べ、TTSは控えめに見えるかもしれませんが、スマートハードウェアやデジタルヒューマンなどのシナリオにおける「見えない基盤」です。幅広い応用分野と明るい商業的な展望により、TTSはこの1年間で目覚ましい進歩を遂げ、静かに業界のルールを変えています。
最近、TTSモデルに待望の「新製品」が登場しました。Speech-02音声モデルは、登場するやいなやOpenAI、ElevenLabsを置き去りにし、Arenaランキングの頂点に立ち、世界一となりました。
Arenaランキングの頂点に立った
Speech-02モデルの独自性とは?
Arenaランキングの頂点に立ったのは、MiniMaxが最新で発表したSpeech-02モデルです。
Artificial Analysis Speech Arena Leaderboardで、Speech-02モデルはELO評価1161に達し、OpenAI、ElevenLabs傘下の多くのモデルを凌駕しました。ArenaランキングのELO評価は、異なるモデルの音声サンプルを聞き比べてユーザーが行った主観的な好みの判断に基づいて算出されます。これは、他の業界をリードする音声モデルと比較して、ユーザーが明らかにSpeech-02をより好むことを意味します。
ユーザーの好みの深層的な理由を探求すると、具体的な技術指標から答えが見つかるかもしれません。文字誤り率(WER)という重要な次元で、Speech-02とElevenLabsは互角ですが、類似度(SIM、音声クローンシナリオ)においては、Speech-02が全面的に圧倒しています。
その中で、文字誤り率は音声認識システムの性能を測る重要な指標であり、音声認識システムが出力したテキストを人工的に注釈された参照テキストと比較し、認識結果の誤りの単語数が参照テキストの総単語数に占める割合を計算します。文字誤り率が低いほど、音声認識システムの性能が良く、認識精度が高いことを意味します。
文字誤り率の面では、Speech-02は英語、アラビア語、スペイン語、トルコ語などの多様な言語処理において、ElevenLabsと互角に渡り合っており、差は大きくありません。しかし、中国語、広東語、日本語、韓国語においては、明らかにElevenLabsより優れています。特に中国語環境では、ローカライズの利点を活かし、Speech-02の中国語と広東語の文字誤り率はそれぞれわずか2.252%、34.111%であるのに対し、ElevenLabsのこれら2項目における文字誤り率はそれぞれ16.026%、51.513%です。
類似度は、音声クローンシナリオにおける重要な指標であり、音声クローン結果と目標音声との類似度を測るために使用されます。値が1に近いほど、類似度が高く、クローン効果が優れており、目標音声の特徴をより正確に再現できます。
類似度の面では、Speech-02はElevenLabsを全面的に凌駕しています。つまり、Speech-02モデルは、評価された24の言語において、生成されたクローン音声が実際の人間音声により近いということです。
これらの技術的優位性は、モデルの実用における表現に、より直接的な効果をもたらします。全体として、Speech-02は3つの特徴を持っています。
超人間的:エラー率が低く安定しており、感情、音色、アクセント、ポーズ、リズムなどの面で真人 indistinguishable (区別できない);
個別化:音声参照とテキスト音声合成をサポートし、業界で初めて「任意の音色、柔軟な制御」を実現したモデル;
多様性:32言語をサポートし、同じ音声セグメント内で複数の言語を自在に切り替えることが可能。
筆者もSpeech-02を実際にテストし、いくつかの音色を選んで同じテキストを朗読させてみました。
日差しが暖かくバルコニーに降り注ぎ、ティーカップからはほのかに湯気が立ち上る。籐椅子にもたれかかり、手にとった古書をめくると、紙の間に淡い墨の香りが漂った。窓の外では、数羽の雀が枝から枝へと飛び回り、時折チチッと鳴いている、何か大切なことを話し合っているかのようだ。風がカーテンをそっと揺らし、キンモクセイの香りを運んできて、子供の頃におばあちゃんが作ってくれたキンモクセイの餅を思い出す。こうして静かに座って、雲が湧き上がり消えていくのを眺め、風の声に耳を傾ける、これこそが最高の時間だ。
同じ文章でも、3つの音色は全く異なる感覚でした。最初の音声の女性の声は、はっきりとしていて、まるで朗読しているかのようで、穏やかで落ち着いています。2番目の音声(広東語)は、より生活感があり、隣の家の妹が優しくささやいているかのようです。3番目の音声は、おばあちゃんが耳元で物語を語っているかのようで、ゆっくりと語りかけてきます。
多言語の評価では、Speech-02はさらに素晴らしい実力を見せ、複数の言語間を自在に切り替えました。
今回の東京への出張は本当にクレイジーだった!成田空港を出たとたん、サラリーマンがスマホに向かって「やばい!deadlineに間に合わない!」と叫んでいるのに遭遇した。それでプリンターを探すのを手伝ったら、彼がまさか中国語で「感恩!」と言って、おまけにクッキーを一箱無理やり押し付けてきた…この展開、マンガすぎない?でも、あのクッキーは本当に美味しいかった、パッケージには「一期一会」と書いてあった。
Speech-02シリーズが内部テスト期間中から、多くのクリエイターが先行体験していました。
中国伝媒大学演劇映画テレビ学部監督科の張净雨教授は、Speech-02を使ってラジオドラマ脚本の三人対話を作成しました。対話では、三人の人物像の差が明確で、人物の感情も比較的適切に表現されており、対話のテンポもつながっていて全体的に自然でした。「現在のSpeech-02の生成効果は非常に良いです。特にニュース放送やドキュメンタリーナレーションのような客観的な情報作品においてです。難易度の高いストーリー作品でも、感情があり抑揚のある音声表現が可能で、編集と組み合わせれば、ラジオドラマ、オーディオブック、さらにはストーリー性の高い映像作品の吹き替え作品を制作するポテンシャルを既に備えています。」
星賢文化の創設者であり、ヘリックスAIのスーパークリエイターである陳坤氏は、「Runwayの先物と比較して、MiniMaxの音声はさらに驚きだと私は思います。AIの吹き替えに人間らしさが少し出てきました。」と述べています。
モデルの性能に加えて、Speech-02は100万文字テキストあたり50ドルの価格で、費用対効果の面で非常に優位です。 これに対し、ElevenLabsの最も安価なFlash v2.5でも100万文字テキストあたり103ドルが必要で、Speech-02の倍以上です。
学習可能なスピーカーエンコーダー、ゼロショットゼロコスト複製を実現
TTSモデルにおいて、モデル性能と費用対効果を両立させることは容易ではありません。Speech-02の革新性は、データの多様性、アーキテクチャの汎化能力を通じて、モデルにすべての音声を同時に学習させ、モデル性能とコストのバランスをより良く取っている点にあります。
体系構造として、Speech-02は主に3つのコンポーネントで構成されています:トークナイザー、自己回帰型Transformer、および潜在フローマッチングモデルです。事前学習済みの話者エンコーダーを使用する他の音声合成モデルとは異なり、Speech-02の話者エンコーダーは自己回帰型Transformerと共同で訓練されます。この共同最適化により、話者エンコーダーは音声合成タスクに特化してカスタマイズすることができ、より豊富で関連性の高い話者固有の情報を提供することで、モデルの合成品質を向上させます。
さらに、話者エンコーダーは学習可能であるため、訓練データセット内のすべての言語で訓練することができます。同じ多様な言語に接触していない可能性のある事前学習済みの話者エンコーダーと比較して、この学習可能な話者エンコーダーはより広い言語カバレッジを確保し、モデルの汎化能力を向上させる可能性があります。
これはまた、Speech-02が強力なゼロショット学習能力を備えていることを意味します。転写されていない単一のオーディオ断片からのみ、目標話者の独特な音色とスタイルを模倣した音声を合成することができます。今回のArenaランキングでのトップ獲得は、Speech-02モデルの基盤となるアーキテクチャがより先進的な次世代のアプローチを代表していることを示しています。おそらく、これこそがTTSモデルが卓越した性能と費用対効果を追求する新しい解決策なのです。
革新的なFlow-VAEアーキテクチャ、
TTSモデルに新しい解決策を提供
Speech-02以前、多くのTTS手法には一定の限界がありました。特にゼロショット音声クローンや高忠実度合成などのコアシナリオでは、オーディオ品質と人声の類似度を最適に実現することが困難でした。例えば、従来のTTS手法は転写された参照オーディオに過度に依存しており、モデルの多言語能力の発揮を制限するだけでなく、音声合成の表現力にも影響を与えていました。さらに、生成コンポーネントの限界により、多くのモデルはオーディオ品質と話者類似度のバランスを取ることが困難でした。これが、多くのTTSモデルが「AIっぽい」音になる理由であり、Speech-02の人声類似度が99%に達することができる理由です。
アーキテクチャレベルでは、Speech-02はVAE(Variational Autoencoder、変分オートエンコーダー)に基づいて、革新的にFlow-VAEアーキテクチャを提案しました。このアーキテクチャはVAEを大幅に上回ります。その独特な点は、フローマッチングモデルを導入したことで、一連の可逆マッピングを通じて潜在空間を柔軟に変換できることです。この融合ソリューションはまさに「強力な連携」と言えます。VAEの初期データモデリング能力を十分に活用するだけでなく、フローモデルの複雑な分布に対する正確なフィッティング能力も利用することで、モデルがデータ内の複雑な構造と分布特性をより良く捉えることができるようになります。
紹介によると、このフローマッチングモデルはTransformerアーキテクチャを採用しており、KLダイバージェンスを制約として、エンコーダー - デコーダーモジュールを最適化することで、潜在分布をよりコンパクトで予測しやすくしています。これに対し、従来のフローマッチングモデルはほとんどが「回り道」をしています:まずメルスペクトログラムを予測し、次にボコーダーでそれをオーディオ波形に変換します。この過程で、メルスペクトログラムが情報ボトルネックとなり、最終的な音声品質を制限する可能性が非常に高いです。一方、Speech-02のフローマッチングモデルは、オーディオ訓練されたエンコーダー - デコーダーモジュールから抽出された連続的な音声特徴(潜在特徴)分布を直接モデル化するため、「近道」をするのと似ており、情報ボトルネックの問題を回避しています。
いくつかのテストセットの評価では、Flow-VAEはVAEと比較して、全面的にリードを実現しました。
ボコーダー再合成次元のテストを例にとると、Flow-VAEとVAEの波形再構築能力を比較し、複数の次元で合成されたオーディオと元のオーディオを比較することで、評価指標を計算しました。最終結果は、すべての評価指標において、Flow-VAEモデルがVAEモデルと比較して顕著な優位性を示していることを示しています。
また、TTS合成の面では、Seed-TTSの文字誤り率(WER)と類似度(SIM)評価方法に従い、技術チームはゼロショットとワンショットの2つの推論設定でテストデータを生成しました。最終的なテストデータは、VAEモデルと比較して、Flow-VAEが文字誤り率、類似度指標の両方で顕著な優位性を持っていることを示しています。
これもまた、なぜSpeech-02モデルがArenaランキングの頂点に立つことができ、複数の技術指標で海外のトップモデルを置き去りにしたのかを説明しています。より長期的な視点で見れば、Speech-02モデルの意義は単にランキングを席巻するだけでなく、革新的なアーキテクチャを通じて既存のTTS手法の痛点を解決し、技術境界を再定義することにあります。
「より人間らしい」AI吹き替え、
その旅路は星辰大海
MegaTTS3-GlobalからSpark-TTS、そしてSpeech-02へと、TTSモデルはまさに「神仙たちの戦い」であり、それぞれが独自の技を発揮しています。この健全な競争は、TTS技術の迅速なイテレーションを促進するだけでなく、AIアプリケーションのインタラクションエコシステムをさらに繁栄させています。現在、TTSモデルはますます多くの分野で広く応用されており、複数の側面からユーザー体験を向上させています。
教育分野を例にとると、TTSモデルは難解な書面教材を生き生きとしたオーディオブックに変換できるだけでなく、音色複製を通じて、24時間練習相手となる有名人AIアシスタントをユーザーに提供できます。例えば、最近市場で英語学習ブームを巻き起こしている「呉彦祖があなたを連れて話す英語を学ぶ」コースは、音色複製を通じて、24時間カスタマイズ可能なAI言語練習システム——「AI阿祖」を実現しました。MiniMaxの音声大規模モデルとマルチモーダルインタラクションシステムを活用して、「AI阿祖」は呉彦祖の音声を完璧に複製し、ユーザーの発音や文法を訂正するだけでなく、状況対話でリアルかつ感情豊かなフィードバックを提供できます。
スマートハードウェア分野では、TTSモデルは「より人間らしい」AI吹き替えで、様々な製品に生命を吹き込みます。おもちゃを例にとると、多くのぬいぐるみは音声機能を備えていません。TTSモデルを通じて、AIペンダントがおもちゃを「喋らせる」ことができます。小紅書ユーザーにAIおもちゃのTop1と評価されたBubble Palは、この種の対話型インタラクティブペンダントおもちゃの代表製品です。MiniMaxの音声モデル能力を統合することで、Bubble Palは子供が好きなカートゥーンキャラクターの音色を複製し、キャラクターの音色を高度に再現することで、おもちゃを「生き生きと」させることができます。
スマートカー分野では、TTSモデルは結合された深層推論モデルを通じて、ユーザーに千人千面の個別化体験を提供できます。極狐自動車を例にとると、DeepSeekを使用してユーザーの意図を正確に理解し、MiniMax音声モデルを使用してユーザーの質問に即座に応答することで、冷たいコックピットをより温かくし、ユーザーと直接言葉で交流できるようにし、それによってより個別化された体験を実現しています。
特筆すべきは、MiniMaxが3年以上前からTTS分野に注力し、ユーザーに個別化され、自然で心地よい音声サービスを提供してきたことです。2023年11月には、MiniMaxは初代音声大規模モデルabab-speechシリーズを発表し、多キャラクター音声生成、テキストキャラクター分類などの機能をサポートしました。音声技術を外部に開放することで、MiniMaxは国内で最も早く大規模モデルアーキテクチャを採用して音声サービスを提供した企業の一つとなりました。現在、MiniMaxは阅文起点有声書、高途教育などの著名企業を含む、全世界で5万以上の企業ユーザーと個人開発者にサービスを提供することに成功しています。
TTS技術が絶えず進歩するにつれて、それがより多くのシナリオで応用され、ユーザーにより多くの便利さをもたらすと信じるに足る理由があります。さらに、それが未来のAIアプリケーションインタラクションパラダイムを書き換える可能性も否定できません。
今日の推薦文