ICML 2025 | Alineación instantánea de preferencias de modelos grandes sin entrenamiento

TPO: Un nuevo enfoque para la alineación de preferencias sobre la marcha durante la inferencia

Para que los modelos de lenguaje grandes (LLM) se comporten más acorde con las expectativas humanas, una serie de métodos de alineación en tiempo de entrenamiento (p. ej., RLHF y DPO) logran la optimización de preferencias mediante el ajuste fino de los parámetros del modelo. Sin embargo, este modo de 'alineación en tiempo de entrenamiento' no solo consume mucho tiempo y esfuerzo, sino que, una vez que las preferencias cambian (p. ej., actualización de los estándares de seguridad), hay que volver a entrenar desde cero. Este enfoque resulta muy pasivo a la hora de responder a las demandas cambiantes.

¿Existe algún método que pueda omitir el tedioso reentrenamiento y permitir que el modelo se alinee rápidamente con las preferencias humanas durante la inferencia? Recientemente, el Laboratorio de IA de Shanghái propuso la Optimización de Preferencias en Tiempo de Prueba (TPO). En resumen: TPO permite que los LLM ajusten su propia salida a través de retroalimentación textual iterativa en cada respuesta, logrando una alineación 'plug-and-play' sin actualizar los pesos del modelo. A diferencia de RLHF y DPO, que requieren entrenamiento fuera de línea para optimizar los parámetros, TPO completa la optimización de preferencias completamente durante el proceso de inferencia, manteniendo los parámetros del modelo sin cambios. La investigación muestra que TPO, como una alternativa práctica y ligera, puede alinear dinámicamente las salidas del modelo con las preferencias humanas durante la inferencia.

Imagen

Título del Artículo: Test-Time Preference Optimization: On-the-Fly Alignment via Iterative Textual FeedbackDirección del Artículo: arxiv.org/abs/2501.12895Dirección de Huggingface: https://huggingface.co/papers/2501.12895Dirección de Github: https://github.com/yafuly/TPO

TPO = Descenso de Gradiente en Formato Textual

La intuición central de TPO es permitir que el modelo genere respuestas mientras mejora continuamente en función de la retroalimentación, lo que esencialmente equivale a realizar una optimización de 'descenso de gradiente' en el espacio textual. En pocas palabras, el modelo utiliza sus capacidades de comprensión de instrucciones y razonamiento para traducir las señales de recompensa numeradas en sugerencias textuales legibles, ajustando así la dirección de las respuestas posteriores. Todo el proceso no requiere un cálculo explícito de gradientes o actualizaciones de pesos, sino que completa la optimización de la salida a través de la interacción en lenguaje natural.

El Gráfico 1 ilustra los tres pasos clave de TPO, simulando un proceso de 'descenso de gradiente' basado en el lenguaje.

Como se muestra en la Figura 1, el proceso de alineación de TPO consta de varios pasos similares a la optimización de gradiente: el modelo primero genera una respuesta preliminar, luego obtiene señales de retroalimentación, genera sugerencias de mejora y finalmente actualiza la respuesta en consecuencia, repitiendo iteraciones según sea necesario. El proceso específico es el siguiente:

Generación de respuestas candidatas: Dada una consulta de usuario, el modelo de lenguaje primero generará múltiples respuestas iniciales y las calificará mediante un modelo de recompensa preentrenado. Seleccionamos la respuesta con la puntuación más alta como 'elegida' y la respuesta con la puntuación más baja como 'rechazada'.

Cálculo de la pérdida textual: A continuación, el LLM comparará la respuesta elegida y la respuesta rechazada. Mediante un prompt cuidadosamente diseñado, el modelo producirá un comentario, señalando por qué la respuesta elegida es mejor que la rechazada y qué deficiencias tiene esta última. Esto equivale a calcular una 'pérdida textual': describiendo en lenguaje natural el grado y las razones por las que la respuesta actual se desvía de las preferencias humanas.

Cálculo del gradiente textual: Luego, a través de un nuevo prompt, se le pide al modelo que proponga sugerencias de mejora basándose en el comentario anterior. Estas sugerencias pueden considerarse como el 'gradiente textual' para la respuesta, indicando cómo ajustar la respuesta para satisfacer mejor las preferencias.

Actualizar respuesta: Finalmente, el modelo, basándose en estas sugerencias textuales, genera una o varias respuestas nuevas y mejoradas. Las nuevas respuestas suelen fortalecerse en los aspectos previamente débiles, lo que equivale a dar un paso a lo largo del gradiente textual para completar la actualización de la salida.

A través del ciclo anterior, la salida del modelo se 'pulirá' gradualmente para que se ajuste mejor a los requisitos del modelo de recompensa (es decir, el proxy de preferencias humanas). Se puede ver que este proceso corresponde a los 'tres pasos' del descenso de gradiente tradicional: calcular la pérdida → calcular el gradiente → actualizar los parámetros, solo que en TPO, estos tres pasos los realiza el modelo a nivel textual. A diferencia de los métodos de optimización numérica que modifican directamente los pesos del modelo, TPO optimiza el contenido de salida manteniendo los parámetros del modelo fijos, lo que lo hace más seguro y controlable. Desde cierta perspectiva, TPO permite que el modelo realice un 'autoentrenamiento a pequeña escala' durante la fase de inferencia, aprovechando la retroalimentación en lenguaje natural para explotar el potencial inherente del modelo preentrenado.

Efecto de Alineación y Rendimiento

Los autores evaluaron TPO en múltiples conjuntos de datos de referencia, cubriendo diversas tareas, desde el seguimiento de instrucciones (como AlpacaEval, Arena), la alineación de preferencias (como el conjunto de datos HH-RLHF), la seguridad (como BeaverTails y XSTest) hasta las matemáticas (MATH-500). Los resultados muestran que con solo unos pocos pasos de iteración (por ejemplo, dos rondas de optimización TPO), tanto los modelos de base originalmente no alineados como los modelos ya alineados con RLHF pueden lograr mejoras significativas en el rendimiento.

El Gráfico 2 muestra el efecto de mejora de TPO en la calidad de la salida del modelo durante la inferencia (el eje vertical es la puntuación del modelo de recompensa, el eje horizontal es el número de pasos de iteración de TPO).

Como se muestra en la Figura 2, durante el proceso de iteración de TPO, la curva de puntuación de recompensa del modelo no alineado (SFT) aumenta gradualmente y supera el nivel del modelo alineado (Instruct) (la línea discontinua en la figura corresponde a la línea base de puntuación fija del modelo sin TPO). Al mismo tiempo, incluso para los modelos que ya han sido alineados (modelos Instruct), TPO puede mejorar aún más la calidad de su salida.

Gráfico 3: Rendimiento de TPO en modelos no alineados (SFT) sin entrenamiento.

Es particularmente destacable que un modelo base Llama-3.1-70B-SFT, que originalmente no había sido sometido a ningún entrenamiento de preferencias, superó a su contraparte alineada por aprendizaje por refuerzo, Llama-3.1-70B-Instruct, en las puntuaciones de preferencia en casi todos los puntos de referencia de evaluación después de solo dos pasos de optimización TPO.

Gráfico 4: Rendimiento de TPO en modelos ya alineados.

Además, en modelos que ya han sido alineados, TPO también puede mejorar aún más el rendimiento del modelo en diversas tareas, sin necesidad de entrenamiento adicional.

Paradigma de Expansión en Tiempo de Prueba 'Amplitud y Profundidad Combinadas'

Una de las ventajas principales de TPO es que no solo puede lograr una alineación instantánea durante la inferencia, sino que también ofrece una estrategia de expansión flexible y ajustable de 'amplitud + profundidad' en tiempo de prueba (test-time scaling). Esto significa que al controlar el número de generaciones candidatas por ronda (amplitud) y el número de rondas de optimización iterativa (profundidad), se puede mejorar significativamente la calidad de la salida y la consistencia de las preferencias.

Esto es especialmente crucial en la práctica: muchas veces, no queremos o no podemos generar decenas o cientos de candidatos desde el principio (como BoN-60), por ejemplo, si la memoria de video no lo soporta; pero si se puede lograr un efecto de optimización gradual con un costo de recursos menor, sin duda es más práctico.

El artículo analiza sistemáticamente el papel de la amplitud y la profundidad:

La amplitud de muestreo (N) determina la diversidad de respuestas disponibles para la selección antes de cada ronda de optimización. Cuanto mayor sea la amplitud, más ricos serán los candidatos iniciales y más fácil será obtener versiones base de alta calidad, aunque esto requiere un mayor espacio de memoria de video;

La profundidad de optimización (D) controla el número de rondas en las que TPO puede refinar repetidamente la salida. Un aumento de la profundidad significa que el modelo tiene más oportunidades de asimilar la retroalimentación y mejorar la generación, aunque requiere más tiempo de iteración;

La amplitud y la profundidad son complementarias: la amplitud acelera la convergencia y la profundidad mejora la fineza. La combinación de ambas permite obtener mejores resultados manteniendo los costos controlables.

Gráfico 5: Izquierda: Impacto de la amplitud de búsqueda en TPO; Derecha: Tasa de victorias de TPO frente a BoN.

Como se muestra en la Figura 5, la gráfica de la izquierda muestra la curva de entrenamiento de TPO en el conjunto de datos HH-RLHF con diferentes configuraciones de amplitud. Se puede observar que, de N=5 a N=20, el rendimiento de TPO mejora continuamente y supera con creces el método de optimización secuencial ('Revisión Secuencial', que solo modifica). Lo que es aún más impresionante: solo dos rondas de TPO, generando 5 respuestas por ronda (D2-N5), fueron suficientes para superar la estrategia Best-of-N (BoN-60), que requiere muestrear 60 ejemplos.

Esto indica que, en lugar de generar exhaustivamente múltiples candidatos desde el principio, es mejor realizar una 'iteración inteligente' guiada por la retroalimentación. El mecanismo de 'amplitud y profundidad combinadas' de TPO es, en esencia, una forma eficiente de optimización de la inferencia en tiempo de prueba, que proporciona una nueva vía para que los LLM liberen su rendimiento en entornos con recursos limitados.

Resumen y Perspectivas: La inferencia también puede ser el punto de partida de la alineación

TPO presenta un nuevo paradigma ligero, flexible e interpretable: sin ajustar parámetros y utilizando solo la retroalimentación en lenguaje natural, puede lograr la optimización de preferencias en la fase de inferencia. En comparación con los métodos de alineación en tiempo de entrenamiento, TPO requiere muy pocos recursos computacionales. Al mejorar continuamente los modelos ya alineados y lograr una evolución rápida 'plug-and-play' en los modelos no alineados, TPO no solo reduce la barrera de alineación, sino que también expande los límites de las capacidades de inferencia de los LLM.

Más importante aún, la idea detrás de TPO tiene una alta escalabilidad: 'linguistificar' el proceso de optimización y luego permitir que el modelo lo entienda y ejecute de forma autónoma. Esto proporciona un camino general para la controlabilidad, seguridad e incluso personalización futura de los LLM.

De cara al futuro, creemos que TPO es solo el comienzo. La optimización, depuración y mecanismos de retroalimentación en la fase de inferencia todavía tienen un gran potencial, y la capacidad de los modelos de lenguaje grandes para 'entender la retroalimentación y revisar la salida' se estimulará aún más en este proceso.

La alineación no es necesariamente el punto final del entrenamiento; también puede ser el punto de partida de la inferencia.

Nota: Apodo - Escuela/Compañía - Área/Conferencia (ej. ACL), únete al grupo técnico/de envío

Imagen

ID: DLNLPer, recuerda añadir una nota

ICML 2025 | Alineación instantánea de preferencias de modelos grandes sin entrenamiento

Compartir URL Corta