Autor | Ling Min
Nichts beschreibt den jüngsten Bereich der TTS-Modelle (Text-To-Speech, Text-zu-Sprache) besser als „ein Sternenmeer leuchtet“.
Seit Jahresbeginn konzentrieren sich alle, von Tech-Giganten über Startups bis hin zu Forschungseinrichtungen, auf TTS-Modelle. Im Februar stellte das Überseelabor von ByteDance ein leichtgewichtiges TTS-Modell, MegaTTS3-Global, vor; im März veröffentlichte Mobvoi in Zusammenarbeit mit führenden akademischen Institutionen wie der Hong Kong University of Science and Technology, der Shanghai Jiao Tong University, der Nanyang Technological University und der Northwestern Polytechnical University das Sprachgenerierungsmodell der nächsten Generation, Spark-TTS, als Open Source; im selben Monat stellte OpenAI ein TTS-Modell vor, das auf der GPT-4o-mini-Architektur basiert.
Verglichen mit anderen beliebten Technologien im Bereich der KI scheint TTS besonders unauffällig zu sein, doch es ist das „unsichtbare Fundament“ für Szenarien wie intelligente Hardware und digitale Menschen. Dank breiter Anwendungsbereiche und offener Geschäftsaussichten hat TTS im letzten Jahr erhebliche Fortschritte erzielt und verändert leise die Branchenregeln.
Kürzlich gibt es eine bedeutende „Neuerung“ bei den TTS-Modellen: Das Speech-02-Sprachmodell hat mit seinem Debüt OpenAI und ElevenLabs hinter sich gelassen, die Arena-Rangliste angeführt und ist weltweit die Nummer eins geworden.
Spitze der Arena-Rangliste,
Was ist einzigartig am Speech-02-Modell?
Die Spitze der Arena-Rangliste wird vom neuesten Speech-02-Modell von MiniMax eingenommen.
Auf der Artificial Analysis Speech Arena Leaderboard erreichte das Speech-02-Modell eine ELO-Bewertung von 1161 und übertraf damit eine Reihe von Modellen von OpenAI und ElevenLabs. Die ELO-Bewertung der Arena-Rangliste ergibt sich aus den subjektiven Präferenzurteilen der Benutzer beim Anhören und Vergleichen von Sprachproben verschiedener Modelle. Dies bedeutet, dass die Benutzer Speech-02 im Vergleich zu anderen branchenführenden Sprachmodellen eindeutig bevorzugen.
Um die tieferen Gründe für die Benutzerpräferenz zu erforschen, können wir vielleicht Antworten in spezifischen technischen Indikatoren finden. Bei der wichtigen Kennzahl Wortfehlerrate (WER) liegen Speech-02 und ElevenLabs Kopf an Kopf, während bei der Ähnlichkeit (SIM, für Szenarien der Sprachklonierung) Speech-02 eine vollständige Überlegenheit erzielt.
Die Wortfehlerrate ist eine wichtige Kennzahl zur Messung der Leistung von Spracherkennungssystemen. Sie wird berechnet, indem der Textausgabe des Spracherkennungssystems mit dem manuell annotierten Referenztext verglichen wird und der Anteil der fehlerhaften Wörter im Erkennungsergebnis im Verhältnis zur Gesamtzahl der Wörter im Referenztext ermittelt wird. Je niedriger die Wortfehlerrate, desto besser die Leistung des Spracherkennungssystems und desto höher die Erkennungsgenauigkeit.
In Bezug auf die Wortfehlerrate zeigte Speech-02 in der Verarbeitung verschiedener Sprachen wie Englisch, Arabisch, Spanisch und Türkisch eine vergleichbare Leistung wie ElevenLabs, mit geringen Unterschieden. In Chinesisch, Kantonesisch, Japanisch und Koreanisch ist es jedoch deutlich besser als ElevenLabs. Besonders im chinesischen Sprachraum, dank seines Lokalisierungsvorteils, beträgt die Wortfehlerrate von Speech-02 für Chinesisch und Kantonesisch nur 2,252 % bzw. 34,111 %, während die Wortfehlerraten von ElevenLabs für diese beiden Sprachen 16,026 % und 51,513 % betragen.
Die Ähnlichkeit hingegen ist eine wichtige Kennzahl in Szenarien der Sprachklonierung und wird verwendet, um den Grad der Ähnlichkeit zwischen dem Ergebnis der Sprachklonierung und der Zielstimme zu messen. Ein Wert, der näher an 1 liegt, weist auf eine höhere Ähnlichkeit und einen besseren Klonierungseffekt hin und kann die Merkmale der Zielstimme genauer wiederherstellen.
In Bezug auf die Ähnlichkeit ist Speech-02 ElevenLabs umfassend überlegen. Das bedeutet, dass das Speech-02-Modell in diesen 24 evaluierten Sprachen geklonte Stimmen generiert, die näher an echten menschlichen Stimmen liegen.
Diese technischen Vorteile bringen intuitivere Ergebnisse mit sich, die sich in der Leistung des Modells in praktischen Anwendungen widerspiegeln. Insgesamt weist Speech-02 drei Hauptmerkmale auf:
Super menschlich: Niedrige und stabile Fehlerrate, mit Leistung in Emotion, Timbre, Akzent, Pausen und Rhythmus, die von echten Menschen nicht zu unterscheiden ist;
Personalisiert: Unterstützt Sprachreferenzierung und Text-zu-Sprache-Generierung und ist das erste Modell in der Branche, das "beliebige Timbre, flexible Steuerung" erreicht;
Vielfalt: Unterstützt 32 Sprachen und kann nahtlos zwischen mehreren Sprachen innerhalb desselben Sprachsegments wechseln.
Der Autor führte auch einen Test mit Speech-02 durch und wählte mehrere Timbre, um denselben Text vorzulesen:
Die Sonne schien träge auf den Balkon, und aus der Teetasse stieg sanfter, heißer Dampf auf. Ich lehnte mich in den Rattan-Sessel und öffnete beiläufig ein altes Buch; ein schwacher Geruch nach Tinte wehte zwischen den Seiten. Draußen vor dem Fenster hüpften ein paar Spatzen auf den Zweigen und zwitscherten gelegentlich, als ob sie etwas Wichtiges diskutierten. Der Wind bewegte sanft die Vorhänge und brachte einen Hauch von Osmanthus-Duft mit sich, der mich an den Osmanthus-Kuchen erinnerte, den meine Großmutter machte, als ich ein Kind war. Einfach so ruhig dasitzen, die Wolken kommen und gehen sehen, dem Flüstern des Windes lauschen, das ist die beste Zeit.
Bei demselben Text erzeugten die drei Timbre völlig unterschiedliche Gefühle: Der erste Audio, eine weibliche Stimme, war klar und deutlich, wie beim Rezitieren, sanft und erhaben; der zweite Audio (Kantonesisch) hatte mehr eine lebhafte Atmosphäre, wie eine jüngere Nachbarin, die leise spricht; der dritte Audio klang, als würde eine Großmutter am Ohr eine Geschichte erzählen, langsam und bedächtig.
Bei der mehrsprachigen Evaluierung zeigte Speech-02 beeindruckende Fähigkeiten und wechselte nahtlos zwischen mehreren Sprachen:
Diese Geschäftsreise nach Tokio war wirklich verrückt! Kaum am Flughafen Narita angekommen, traf ich einen サラリーマン (Angestellten), der in sein Handy schrie 『やばい! deadlineに間に合わない!』 (Oh nein! Ich schaffe die Deadline nicht!). Dann half ich ihm, einen printer (Drucker) zu finden, und er sagte tatsächlich auf Chinesisch 『感恩!』 (Danke!) und drückte mir sogar eine Schachtel クッキー (Kekse) in die Hand... Diese Handlung ist zu sehr マンガ (Manga), oder? Aber diese cookies (Kekse) waren wirklich 美味しい (lecker), und auf der Verpackung stand sogar 『一期一会』(Ichigo ichie - einmal im Leben).
Schon während der internen Testphase der Speech-02-Serie hatten viele Kreative die Möglichkeit, sie vorab zu erleben.
Professor Zhang Jingyu vom Fachbereich Regie der Fakultät für Schauspiel, Film und Fernsehen an der Communication University of China, nutzte Speech-02, um ein Dialogskript für drei Personen für ein Hörspiel zu erstellen. Im Dialog waren die Persönlichkeiten der drei Charaktere recht unterschiedlich, ihre Emotionen wurden recht gut erfasst und der Dialogrhythmus floss zusammen, was sich insgesamt natürlich anfühlte. "Derzeit ist der Generationseffekt von Speech-02 sehr gut, insbesondere bei objektbezogenen Informationswerken wie Nachrichtenmeldungen und Dokumentar-Erzählungen. Selbst bei anspruchsvolleren dramatischen Werken kann es emotionale und nuancierte Stimmäusserungen erzielen, und in Kombination mit dem Schnitt verfügt es bereits über das Potenzial, Hörspiele, Hörbücher und sogar Synchronisationen für dramatische Filme und Fernsehserien zu produzieren."
Chen Kun, Gründer von Xingxian Culture und ein Super-Kreativer von Spiral AI, sagte: "Im Vergleich zu Runways Futures finde ich die Stimme von MiniMax überraschender. Die KI-Synchronisation hat ein bisschen menschlichen Touch."
Neben der Modellleistung bietet Speech-02 zu einem Preis von 50 US-Dollar pro Million Zeichen Text einen erheblichen Kostenvorteil. Im Vergleich dazu kostet das günstigste Flash v2.5 von ElevenLabs 103 US-Dollar pro Million Zeichen Text, mehr als doppelt so viel wie Speech-02.
Erlernerbarer Sprecher-Encoder ermöglicht Zero-Shot-Replizierung ohne Kosten
Bei TTS-Modellen ist es nicht einfach, Modellleistung und Kosteneffizienz in Einklang zu bringen. Die Innovation von Speech-02 liegt in seiner Fähigkeit, durch Datenvielfalt und architektonische Generalisierungsfähigkeit alle Stimmen gleichzeitig zu lernen und so die Balance zwischen Modellleistung und Kosten besser herzustellen.
In Bezug auf die Architektur besteht Speech-02 hauptsächlich aus drei Komponenten: einem Tokenizer, einem autoregressiven Transformer und einem latenten Flow-Matching-Modell. Im Gegensatz zu anderen Sprachsynthesemodellen, die vorab trainierte Sprecher-Encoder verwenden, wird der Sprecher-Encoder in Speech-02 gemeinsam mit dem autoregressiven Transformer trainiert. Diese gemeinsame Optimierung ermöglicht es dem Sprecher-Encoder, speziell auf die Sprachsyntheseaufgabe zugeschnitten zu werden, was die Synthesequalität des Modells durch die Bereitstellung reichhaltigerer und relevanterer sprecherspezifischer Informationen verbessert.
Darüber hinaus kann der Sprecher-Encoder, da er erlernbar ist, in allen Sprachen des Trainingsdatensatzes trainiert werden. Im Vergleich zu vorab trainierten Sprecher-Encodern, die möglicherweise nicht derselben Vielfalt an Sprachen ausgesetzt waren, gewährleistet dieser erlernbare Sprecher-Encoder eine breitere Sprachabdeckung und verbessert potenziell die Generalisierungsfähigkeit des Modells.
Dies bedeutet auch, dass Speech-02 über leistungsstarke Zero-Shot-Lernfähigkeiten verfügt und in der Lage ist, Sprache zu synthetisieren, die das einzigartige Timbre und den Stil eines Zielsprechers aus einem einzigen, nicht transkribierten Audioclip nachahmt. Dass es diesmal die Spitze der Arena-Rangliste erreicht hat, deutet auch darauf hin, dass die zugrunde liegende Architektur des Speech-02-Modells einen fortschrittlicheren Ansatz der nächsten Generation darstellt. Vielleicht ist dies die neue Lösung für TTS-Modelle, die exzellente Leistung und Kosteneffizienz anstreben.
Innovative Flow-VAE-Architektur,
Bietet eine neue Lösung für TTS-Modelle
Vor Speech-02 wiesen viele TTS-Methoden bestimmte Einschränkungen auf, insbesondere in Kernszenarien wie Zero-Shot-Sprachklonierung und High-Fidelity-Synthese, bei denen die Audioqualität und die Ähnlichkeit mit der menschlichen Stimme schwer optimal zu erreichen waren. Zum Beispiel basieren traditionelle TTS-Methoden übermäßig auf transkribiertem Referenz-Audio, was nicht nur die Mehrsprachigkeit des Modells einschränkt, sondern auch die Ausdruckskraft der Sprachsynthese beeinflusst. Darüber hinaus kämpfen viele Modelle aufgrund der Einschränkungen in der Generierungskomponente damit, ein Gleichgewicht zwischen Audioqualität und Sprecherähnlichkeit zu finden. Deshalb klingen viele TTS-Modelle sehr "KI-artig", während Speech-02 eine Ähnlichkeit mit der menschlichen Stimme von bis zu 99% erreichen kann.
Auf architektonischer Ebene schlägt Speech-02 innovativ die Flow-VAE-Architektur vor, die auf VAE (Variational Autoencoder) basiert. Diese Architektur ist VAE deutlich überlegen. Ihr einzigartiges Merkmal ist die Einführung eines Flow-Matching-Modells, das den latenten Raum durch eine Reihe umkehrbarer Abbildungen flexibel transformieren kann. Diese Fusionslösung kann als "kraftvolle Kombination" beschrieben werden – sie nutzt nicht nur die anfängliche Datenmodellierungsfähigkeit von VAE voll aus, sondern nutzt auch die genaue Anpassungsfähigkeit des Flow-Modells für komplexe Verteilungen, wodurch das Modell komplexe Strukturen und Verteilungseigenschaften in den Daten besser erfassen kann.
Berichten zufolge verwendet dieses Flow-Matching-Modell eine Transformer-Architektur und optimiert das Encoder-Decoder-Modul durch KL-Divergenz als Beschränkung, wodurch die latente Verteilung kompakter und leichter vorherzusagen wird. Im Gegensatz dazu nehmen traditionelle Flow-Matching-Modelle meist einen "Umweg": Zuerst wird das Mel-Spektrogramm vorhergesagt und dann mit einem Vocoder in Audio-Wellenformen umgewandelt. In diesem Prozess kann das Mel-Spektrogramm leicht zu einem Informationsengpass werden, der die endgültige Sprachqualität begrenzt. Das Flow-Matching-Modell in Speech-02 modelliert jedoch direkt die Verteilung der kontinuierlichen Sprachmerkmale (latente Merkmale), die aus dem Audio-trainierten Encoder-Decoder-Modul extrahiert wurden, ähnlich wie beim "Abkürzen", wodurch das Problem des Informationsengpasses vermieden wird.
In den Bewertungen auf einigen Testdatensätzen erzielte Flow-VAE eine umfassende Überlegenheit im Vergleich zu VAE.
Am Beispiel des Tests der Vocoder-Resynthese-Dimension: Durch den Vergleich der Wellenform-Rekonstruktionsfähigkeiten von Flow-VAE und VAE und den Vergleich des synthetisierten Audios mit dem Original-Audio in mehreren Dimensionen wurden Bewertungskennzahlen berechnet. Die Endergebnisse zeigen, dass das Flow-VAE-Modell bei allen Bewertungskennzahlen signifikante Vorteile gegenüber dem VAE-Modell aufweist.
In Bezug auf die TTS-Synthese generierte das technische Team gemäß der Seed-TTS-Bewertungsmethode für Wortfehlerrate (WER) und Ähnlichkeit (SIM) Testdaten unter zwei Inferenz-Einstellungen: Zero-Shot und One-Shot. Die finalen Testdaten zeigen, dass Flow-VAE im Vergleich zum VAE-Modell signifikante Vorteile bei den Kennzahlen Wortfehlerrate und Ähnlichkeit aufweist.
Dies erklärt auch, warum das Speech-02-Modell die Spitze der Arena-Rangliste erreichen und bei mehreren technischen Indikatoren führende ausländische Modelle hinter sich lassen konnte. Aus längerfristiger Perspektive betrachtet geht die Bedeutung des Speech-02-Modells weit über das Abräumen der Ranglisten hinaus; es löst die Schwachstellen bestehender TTS-Methoden durch innovative Architektur und definiert die technische Grenze neu.
KI-Synchronisation mit "Mehr Menschlichkeit",
Die Reise ist das Meer der Sterne
Von MegaTTS3-Global über Spark-TTS bis hin zu Speech-02 – die TTS-Modelle befinden sich in einem "göttlichen Wettstreit", bei dem jeder seine einzigartigen Stärken zeigt. Dieser gesunde Wettbewerb fördert nicht nur die schnelle Iteration der TTS-Technologie, sondern belebt auch das Interaktionsökosystem von KI-Anwendungen weiter. Derzeit werden TTS-Modelle in immer mehr Bereichen weit verbreitet eingesetzt und verbessern die Benutzererfahrung aus mehreren Dimensionen.
Am Beispiel des Bildungsbereichs können TTS-Modelle nicht nur schwer lesbare schriftliche Lehrbücher in lebendige Hörbücher umwandeln, sondern den Benutzern durch Stimmklonierung auch rund um die Uhr Übungspartner in Form von Prominenten-KI-Assistenten zur Verfügung stellen. Zum Beispiel nutzt der Kurs "Daniel Wu bringt dir gesprochenes Englisch bei", der kürzlich auf dem Markt für Aufsehen sorgte, Stimmklonierung, um ein rund um die Uhr anpassbares KI-Sprachlernsystem – "AI A Zu" – zu schaffen. Mithilfe des großen Sprachmodells und des multimodalen Interaktionssystems von MiniMax repliziert "AI A Zu" perfekt die Stimme von Daniel Wu und kann nicht nur die Aussprache und Grammatik der Benutzer korrigieren, sondern auch in Situationsdialogen realistisches und emotionales Feedback geben.
Im Bereich der intelligenten Hardware verleihen TTS-Modelle verschiedenen Produkten mit „menschlicherer“ KI-Synchronisation Leben. Nehmen Sie Spielzeug als Beispiel: Viele Puppen haben keine Sprachfunktionen. Durch TTS-Modelle können KI-Anhänger die Puppen „sprechen“ lassen. Bubble Pal, von Xiaohongshu-Benutzern als Top 1 KI-Spielzeug bewertet, ist ein repräsentatives Produkt dieser Art von konversationsbasiertem interaktivem Anhänger. Durch die Integration der Sprachmodellfähigkeiten von MiniMax kann Bubble Pal die Stimmen von Zeichentrickfiguren, die Kinder mögen, replizieren und die Stimmfarben der Charaktere hochgradig wiederherstellen, wodurch das Spielzeug „lebendig“ wird.
Im Bereich der intelligenten Autos können TTS-Modelle auch personalisierte Erlebnisse für Benutzer durch gemeinsame tiefe Inferenzmodelle bieten. Am Beispiel von Jihu (Arcfox)-Fahrzeugen nutzen sie DeepSeek, um die Benutzerabsicht präzise zu verstehen, und das Sprachmodell von MiniMax, um sofort auf Benutzerfragen zu antworten, wodurch das kalte Cockpit wärmer wird und eine direkte Sprachkommunikation mit den Benutzern ermöglicht wird, wodurch ein personalisiertes Erlebnis erreicht wird.
Es sei erwähnt, dass MiniMax bereits vor 3 Jahren begann, sich auf den TTS-Bereich zu konzentrieren und Benutzern personalisierte, natürliche und angenehme Sprachdienste anzubieten. Im November 2023 stellte MiniMax seine erste Generation eines großen Sprachmodells vor, die abab-speech-Serie, die Funktionen wie die Generierung von Audio für mehrere Charaktere und die Klassifizierung von Textcharakteren unterstützt. Durch die Öffnung seiner Sprachtechnologie wurde MiniMax zu einem der ersten Unternehmen in China, das Sprachdienste mithilfe einer großen Modellarchitektur anbietet. Derzeit hat MiniMax erfolgreich über 50.000 Unternehmensbenutzer und individuelle Entwickler weltweit bedient, darunter bekannte Unternehmen wie China Literature's Qidian Audiobook und Gaotu Techedu.
Mit dem Fortschritt der TTS-Technologie haben wir Grund zu der Annahme, dass sie in mehr Szenarien angewendet wird und den Benutzern mehr Komfort bringen wird. Es ist sogar denkbar, dass sie das zukünftige Interaktionsparadigma von KI-Anwendungen neu schreiben wird.
Heute empfohlene Artikel