Encabezando la Arena! El Último Modelo Speech-02 de MiniMax Arrasa en las Listas: Superando a OpenAI, ElevenLabs, 99% de Similitud de Voz Humana

Autor | Ling Min

Nada es más adecuado que "constelación brillante" para describir el campo reciente de los modelos TTS (Text-To-Speech, Texto a Voz).

Desde el comienzo del año, desde gigantes tecnológicos hasta startups e instituciones de investigación, todos han estado impulsando los modelos TTS. En febrero, el laboratorio overseas de ByteDance lanzó un modelo TTS ligero, MegaTTS3-Global; en marzo, Mobvoi, en colaboración con las principales instituciones académicas como la Universidad de Ciencia y Tecnología de Hong Kong, la Universidad Jiao Tong de Shanghái, la Universidad Tecnológica de Nanyang y la Universidad Politécnica del Noroeste, lanzó en código abierto el modelo de generación de voz de nueva generación Spark-TTS; en el mismo mes, OpenAI lanzó un modelo TTS basado en la arquitectura GPT-4o-mini.

Comparado con otras tecnologías populares en el campo de la IA, el TTS parece particularmente discreto, pero es la "piedra angular invisible" para escenarios como hardware inteligente y humanos digitales. Con un amplio rango de áreas de aplicación y amplias perspectivas comerciales, el TTS ha logrado un progreso considerable en el último año y está cambiando silenciosamente las reglas de la industria.

Recientemente, ha habido una importante "nueva llegada" en los modelos TTS, el modelo de voz Speech-02, que con su debut ha superado a OpenAI y ElevenLabs, encabezando la lista de Arena y convirtiéndose en el número uno a nivel mundial.

Encabezando la lista de Arena,

¿Qué hace único al modelo Speech-02?

El modelo Speech-02, el último lanzamiento de MiniMax, es precisamente el que ha encabezado la lista de Arena.

En la clasificación de Artificial Analysis Speech Arena Leaderboard, el modelo Speech-02 alcanzó una puntuación ELO de 1161, superando a una serie de modelos de OpenAI y ElevenLabs. La puntuación ELO de la lista de Arena se obtiene a partir de los juicios de preferencia subjetiva de los usuarios al escuchar y comparar muestras de voz de diferentes modelos. Esto significa que, en comparación con otros modelos de voz líderes en la industria, los usuarios prefieren claramente Speech-02.

Para explorar las razones más profundas de la preferencia del usuario, quizás podamos encontrar respuestas en los indicadores técnicos específicos. En la dimensión clave de la Tasa de Error de Palabra (WER), Speech-02 y ElevenLabs están codo a codo, mientras que en Similitud (SIM, para escenarios de clonación de voz), Speech-02 logra un aplastamiento completo.

图片

Entre ellos, la Tasa de Error de Palabra es un indicador importante para medir el rendimiento de los sistemas de reconocimiento de voz, calculando la proporción de palabras incorrectas en el resultado del reconocimiento en comparación con el número total de palabras en el texto de referencia, al contrastar el texto de salida del sistema de reconocimiento de voz con el texto de referencia anotado manualmente. Cuanto menor sea la Tasa de Error de Palabra, mejor será el rendimiento del sistema de reconocimiento de voz y mayor será la precisión del reconocimiento.

En cuanto a la Tasa de Error de Palabra, Speech-02 se desempeña de manera comparable con ElevenLabs en el procesamiento de diversos idiomas como inglés, árabe, español y turco, con poca diferencia. Sin embargo, en chino, cantonés, japonés y coreano, es significativamente mejor que ElevenLabs. Especialmente en el entorno del idioma chino, aprovechando su ventaja de localización, la Tasa de Error de Palabra de Speech-02 para chino y cantonés es solo 2.252% y 34.111%, respectivamente, mientras que las Tasas de Error de Palabra de ElevenLabs para estos dos idiomas son 16.026% y 51.513%.

La similitud, por otro lado, es un indicador importante en los escenarios de clonación de voz, utilizado para medir el grado de similitud entre el resultado de la clonación de voz y la voz objetivo. Un valor más cercano a 1 indica mayor similitud y mejor efecto de clonación, pudiendo restaurar con mayor precisión las características de la voz objetivo.

En cuanto a la similitud, Speech-02 es integralmente mejor que ElevenLabs. Es decir, el modelo Speech-02 genera voces clonadas que están más cerca de las voces humanas reales en los 24 idiomas evaluados.

Estas ventajas técnicas aportan efectos más intuitivos, reflejados en el rendimiento del modelo en aplicaciones prácticas. En general, Speech-02 tiene tres características principales:

Super humano: Baja y estable tasa de error, con rendimiento en emoción, timbre, acento, pausas y ritmo indistinguible de un humano real;

Personalizado: Soporta referencia de voz y generación de texto a voz, siendo el primer modelo en la industria en lograr "timbre arbitrario, control flexible";

Diversidad: Soporta 32 idiomas y puede cambiar sin problemas entre múltiples idiomas dentro del mismo segmento de voz.

El autor también realizó una prueba de Speech-02, seleccionando varios timbres para narrar el mismo fragmento de texto:

El sol brillaba perezosamente en el balcón, y del la taza de té se elevaba un suave vaho caliente. Me recosté en la silla de ratán y abrí casualmente un libro viejo; un ligero aroma a tinta flotaba entre las páginas. Fuera de la ventana, algunos gorriones saltaban de rama en rama, emitiendo ocasionalmente un chirrido, como si discutieran algo importante. El viento movió suavemente las cortinas, trayendo un aroma a osmanto, recordándome el pastel de osmanto que hacía mi abuela cuando era niño. Simplemente sentado tranquilamente así, viendo las nubes ir y venir, escuchando el susurro del viento, es el mejor momento.

Con el mismo fragmento de texto, los tres timbres produjeron sensaciones completamente diferentes: el primer audio, una voz femenina, era clara y articulada, como si estuviera recitando, suave y grandiosa; el segundo audio (cantonés) tenía más ambiente de vida, como una hermana menor vecina hablando suavemente; el tercer audio sonaba como si una abuela estuviera contando una historia al oído, relatándola lentamente.

En la evaluación multi-idioma, Speech-02 demostró capacidades impresionantes, cambiando sin problemas entre múltiples idiomas:

¡Este viaje de negocios a Tokio fue realmente una locura! Nada más salir del aeropuerto de Narita, me encontré con un サラリーマン (asalariado) gritando a su teléfono 『やばい! deadlineに間に合わない!』 (¡Ay no! ¡No llego a la fecha límite!) Luego le ayudé a encontrar una printer (impresora), y ¡resulta que me dijo『感恩!』(¡Gracias!) en chino y hasta me obligó a aceptar una caja de クッキー (galletas)... Esta trama es demasiado マンガ (manga), ¿no? Pero esas cookies (galletas) estaban realmente 美味しい (deliciosas), y en el empaque incluso decía『一期一会』(Ichigo ichie - un encuentro para toda la vida).

Incluso durante la fase de prueba interna de la serie Speech-02, muchos creadores tuvieron la oportunidad de experimentarlo de primera mano.

La Profesora Zhang Jingyu del Departamento de Dirección de la Escuela de Drama, Cine y Televisión de la Communication University of China, utilizó Speech-02 para producir un guion de diálogo para tres personas de una obra de radio. En el diálogo, las personalidades de los tres personajes eran bastante distintas, sus emociones estaban bastante bien capturadas, y el ritmo del diálogo se unía, sintiéndose natural en general. "Actualmente, el efecto de generación de Speech-02 es muy bueno, especialmente para obras de información objetiva como noticiarios y narraciones de documentales. Incluso para obras dramáticas más desafiantes, puede lograr expresiones de voz emocionales y matizadas, y cuando se combina con la edición, ya tiene el potencial para producir obras de radio, audiolibros e incluso doblajes para películas y televisión dramáticas."

Chen Kun, fundador de Xingxian Culture y super creador de Spiral AI, dijo: "Comparado con los futuros de Runway, creo que la voz de MiniMax es más sorprendente. El doblaje con IA tiene un poco de toque humano."

Más allá del rendimiento del modelo, Speech-02 ofrece una ventaja significativa en cuanto a costo-beneficio a un precio de $50 por millón de caracteres de texto. En comparación, el Flash v2.5 más económico de ElevenLabs cuesta $103 por millón de caracteres de texto, más del doble que Speech-02.

图片

El codificador de hablante aprendible permite la replicación zero-shot sin costo

En los modelos TTS, equilibrar el rendimiento del modelo y la rentabilidad no es fácil. La innovación de Speech-02 radica en su capacidad para aprender todas las voces simultáneamente a través de la diversidad de datos y la capacidad de generalización de la arquitectura, equilibrando mejor el rendimiento del modelo y el costo.

En cuanto a la arquitectura, Speech-02 se compone principalmente de tres componentes: un tokenizador, un Transformer autorregresivo y un modelo de coincidencia de flujo latente. A diferencia de otros modelos de síntesis de voz que utilizan codificadores de hablante pre-entrenados, el codificador de hablante en Speech-02 se entrena conjuntamente con el Transformer autorregresivo. Esta optimización conjunta permite que el codificador de hablante se adapte específicamente a la tarea de síntesis de voz, mejorando la calidad de síntesis del modelo al proporcionar información más rica y relevante específica del hablante.

Además, debido a que el codificador de hablante es aprendible, puede ser entrenado en todos los idiomas del conjunto de datos de entrenamiento. Comparado con los codificadores de hablante pre-entrenados que pueden no haber estado expuestos a la misma diversidad de idiomas, este codificador de hablante aprendible asegura una cobertura de idiomas más amplia y potencialmente mejora la capacidad de generalización del modelo.

Esto también significa que Speech-02 posee poderosas capacidades de aprendizaje de cero disparo (zero-shot), pudiendo sintetizar voz que imita el timbre y estilo únicos de un hablante objetivo a partir de un solo fragmento de audio no transcrito. Haber encabezado la lista de Arena esta vez también indica que la arquitectura subyacente del modelo Speech-02 representa un enfoque de próxima generación más avanzado. Quizás esta sea la nueva solución para que los modelos TTS busquen un rendimiento excelente y rentabilidad.

Arquitectura Flow-VAE innovadora,

ofrece una nueva solución para modelos TTS

Antes de Speech-02, muchos métodos TTS tenían ciertas limitaciones, especialmente en escenarios centrales como la clonación de voz zero-shot y la síntesis de alta fidelidad, donde la calidad del audio y la similitud de la voz humana eran difíciles de optimizar. Por ejemplo, los métodos TTS tradicionales dependen excesivamente del audio de referencia transcrito, lo que no solo limita la capacidad multilingüe del modelo, sino que también afecta la expresividad de la síntesis de voz. Además, debido a las limitaciones en el componente de generación, muchos modelos luchan por equilibrar la calidad del audio y la similitud del hablante. Esta es la razón por la cual muchos modelos TTS suenan muy "a IA", mientras que Speech-02 puede alcanzar una similitud de voz humana de hasta el 99%.

A nivel arquitectónico, Speech-02 propone de manera innovadora la arquitectura Flow-VAE basada en VAE (Variational Autoencoder, Autoencoder Variacional). Esta arquitectura es significativamente superior a VAE. Su característica única es la introducción de un modelo de coincidencia de flujo, que puede transformar de manera flexible el espacio latente a través de una serie de mapeos invertibles. Esta solución de fusión puede describirse como una "combinación poderosa" – no solo utiliza plenamente la capacidad de modelado de datos inicial de VAE, sino que también aprovecha la capacidad de ajuste preciso del modelo de flujo para distribuciones complejas, lo que permite al modelo capturar mejor las estructuras complejas y las características de distribución en los datos.

图片

Según se informa, este modelo de coincidencia de flujo adopta una arquitectura Transformer y optimiza el módulo codificador-decodificador a través de la divergencia KL como restricción, haciendo que la distribución latente sea más compacta y fácil de predecir. En contraste, los modelos de coincidencia de flujo tradicionales en su mayoría toman un "desvío": primero predicen el espectrograma Mel y luego lo convierten en formas de onda de audio utilizando un vocoder. En este proceso, el espectrograma Mel puede convertirse fácilmente en un cuello de botella de información, limitando la calidad del audio final. El modelo de coincidencia de flujo en Speech-02, sin embargo, modela directamente la distribución de características de voz continuas (características latentes) extraídas del módulo codificador-decodificador entrenado con audio, similar a "tomar un atajo", evitando el problema del cuello de botella de información.

En las evaluaciones de algunos conjuntos de prueba, Flow-VAE logró una superioridad integral en comparación con VAE.

图片

Tomando como ejemplo la prueba de dimensión de resíntesis del vocoder, al comparar las capacidades de reconstrucción de forma de onda de Flow-VAE y VAE y comparar el audio sintetizado con el audio original en múltiples dimensiones, se calcularon las métricas de evaluación. Los resultados finales muestran que en todas las métricas de evaluación, el modelo Flow-VAE demuestra ventajas significativas en comparación con el modelo VAE.

图片

En cuanto a la síntesis TTS, según el método de evaluación de Tasa de Error de Palabra (WER) y Similitud (SIM) de Seed-TTS, el equipo técnico generó datos de prueba bajo dos configuraciones de inferencia: zero-shot y one-shot. Los datos de prueba finales muestran que, en comparación con el modelo VAE, Flow-VAE tiene ventajas significativas tanto en la Tasa de Error de Palabra como en los indicadores de Similitud.

Esto también explica por qué el modelo Speech-02 pudo encabezar la lista de Arena y dejar atrás a los mejores modelos internacionales en múltiples indicadores técnicos. Desde una perspectiva a más largo plazo, la importancia del modelo Speech-02 va mucho más allá de arrasar en las listas; resuelve los puntos débiles de los métodos TTS existentes a través de una arquitectura innovadora y redefine el límite técnico.

Doblaje con IA "Más Humano",

El Viaje es el Mar de Estrellas

Desde MegaTTS3-Global hasta Spark-TTS, y ahora Speech-02, los modelos TTS están en una "batalla divina", cada uno mostrando sus puntos fuertes únicos. Esta competencia saludable no solo promueve la rápida iteración de la tecnología TTS, sino que también impulsa aún más el ecosistema de interacción de aplicaciones de IA. Actualmente, los modelos TTS se están aplicando ampliamente en cada vez más campos, mejorando la experiencia del usuario desde múltiples dimensiones.

Tomando el campo de la educación como ejemplo, los modelos TTS no solo pueden transformar libros de texto escritos difíciles de leer en audiolibros vívidos, sino que también pueden proporcionar a los usuarios compañeros de práctica las 24 horas en forma de asistentes de IA de celebridades a través de la clonación de voz. Por ejemplo, el curso "Daniel Wu Te enseña inglés hablado", que recientemente ha causado furor en el mercado, utiliza la clonación de voz para crear un sistema de tutoría de lenguaje de IA personalizable las 24 horas – "AI A Zu". Con la ayuda del gran modelo de voz de MiniMax y el sistema de interacción multimodal, "AI A Zu" replica perfectamente la voz de Daniel Wu y no solo puede corregir la pronunciación y gramática de los usuarios, sino que también puede proporcionar retroalimentación realista y emocional en conversaciones situacionales.

图片

En el campo del hardware inteligente, los modelos TTS también dan vida a diversos productos con doblaje con IA "más humano". Tomando los juguetes como ejemplo, muchos muñecos no tienen funciones de voz. A través de los modelos TTS, los colgantes de IA pueden hacer que los muñecos "hablen". Bubble Pal, calificado como el Top1 juguete de IA por los usuarios de Xiaohongshu, es un producto representativo de este tipo de colgante interactivo conversacional. Al integrar las capacidades del modelo de voz de MiniMax, Bubble Pal puede replicar las voces de los personajes de dibujos animados que les gustan a los niños y restaurar altamente los timbres de los personajes, haciendo que los juguetes "cobren vida".

图片

En el campo de los automóviles inteligentes, los modelos TTS también pueden proporcionar experiencias personalizadas para los usuarios a través de modelos de inferencia profunda conjunta. Tomando como ejemplo los vehículos Jihu (Arcfox), utilizan DeepSeek para comprender con precisión la intención del usuario y el modelo de voz de MiniMax para responder instantáneamente a las preguntas del usuario, haciendo que la fría cabina sea más cálida y permitiendo la comunicación directa por voz con los usuarios, logrando así una experiencia más personalizada.

Cabe mencionar que hace ya 3 años, MiniMax comenzó a enfocarse en la pista de TTS, proporcionando a los usuarios servicios de voz personalizados, naturales y agradables. En noviembre de 2023, MiniMax lanzó su primera generación de modelo de voz grande, la serie abab-speech, que soporta funciones como la generación de audio de múltiples personajes y la clasificación de personajes de texto. Al abrir su tecnología de voz, MiniMax se convirtió en una de las primeras empresas en China en proporcionar servicios de voz utilizando una arquitectura de modelo grande. Actualmente, MiniMax ha servido con éxito a más de 50.000 usuarios empresariales y desarrolladores individuales a nivel mundial, incluyendo empresas conocidas como Qidian Audiobook de China Literature y Gaotu Techedu.

A medida que la tecnología TTS continúa avanzando, tenemos razones para creer que se aplicará en más escenarios, brindando más comodidad a los usuarios. Incluso, puede que reescriba el paradigma de interacción de aplicaciones de IA del futuro.

Artículos Recomendados Hoy

Etiqueta Principal:Texto a Voz

Etiquetas Secundarias:Voz AIModelos de IAMiniMaxSpeech-02


Anterior:AM-Thinking-v1: Avanzando la Frontera del Razonamiento a Escala 32B

Siguiente:CTO de Thoughtworks: La IA Significa Que Necesitamos Desarrolladores Más Que Nunca

Compartir URL Corta