ZeroSearch: <Tecnología de Alibaba> Los Modelos de Lenguaje Grandes Aprenden por Recompensa Propia Sin Navegador

Aquí viene otra tecnología para aprender. Esta vez es una tecnología de framework desarrollada por Alibaba, que se enfoca en construir capacidades AGI generales. Si se puede lograr el autoaprendizaje, es cierto que los modelos de lenguaje grandes pueden unificar todos los dominios de conocimiento sin problema. Así que el equipo de Alibaba propuso ZeroSearch para incentivar las capacidades de búsqueda de los LLM sin interactuar con motores de búsqueda reales, transformando el LLM en un módulo de recuperación capaz de generar documentos relevantes y ruidosos basándose en consultas.

El aprendizaje por refuerzo (RL) es actualmente la mejor solución para entrenar modelos grandes y una estrategia prometedora. Mejora aún más el rendimiento de los LLM al potenciar sus habilidades de razonamiento y toma de decisiones. Cabe destacar que modelos basados en RL como OpenAI-o1 y DeepSeek-R1 han logrado avances significativos en el razonamiento lógico e iterativo (DeepSeek-R1: Análisis en profundidad, el primer paso para la AGI doméstica), logrados puramente a través del aprendizaje dirigido por recompensas sin depender de una supervisión explícita paso a paso.

Bajo este paradigma, algunas investigaciones exploran el uso del aprendizaje por refuerzo para entrenar modelos de política capaces de buscar información relevante de manera más efectiva. DeepResearcher introdujo la interacción en tiempo real con motores de búsqueda comerciales como Google, permitiendo entrenar modelos en un entorno muy similar a la búsqueda web del mundo real (Magentic-One: Implementación de búsqueda en red con IA, una solución multiagente general). A pesar de estos avances, combinar RL con escenarios de búsqueda del mundo real aún enfrenta desafíos significativos:

Calidad de documentos incontrolada: La calidad de los documentos recuperados de los motores de búsqueda en tiempo real a menudo es impredecible, introduciendo ruido e inestabilidad en el proceso de entrenamiento.

Costos de API excesivos: El entrenamiento de RL requiere despliegues frecuentes y un etiquetado manual extenso, potencialmente involucrando cientos de miles de llamadas a la API, lo que incurre en enormes costos financieros y limita severamente la escalabilidad.

Puntos clave de este artículo:

Comprensión de la Arquitectura y Principios Técnicos de ZeroSearch

Comprensión del Conocimiento de IA

ZeroSearch

ZeroSearch es un framework de aprendizaje por refuerzo que permite a los LLM aprender estrategias de búsqueda sin interactuar con motores de búsqueda reales. En esencia, los LLM adquieren un amplio conocimiento del mundo durante el pre-entrenamiento a gran escala, lo que les permite generar documentos relevantes basándose en consultas de búsqueda (básicamente haciendo su propia hoja de trucos a partir del libro de texto, ¿eh?).

La principal diferencia entre un motor de búsqueda y un LLM simulado radica en el estilo de texto del contenido devuelto. A través de un ajuste fino supervisado ligero o una limitación de prompt, el comportamiento de un motor de búsqueda real puede simularse eficazmente. Además de eliminar los costos de API, una ventaja significativa de usar LLM para la generación de documentos es la capacidad de controlar la calidad de los documentos.

¿Cómo decirlo?, durante el ajuste fino supervisado, se utiliza el diseño de prompt para distinguir entre documentos que conducen a respuestas correctas o incorrectas, permitiendo al LLM simulado aprender a generar documentos relevantes o ruidosos ajustando algunas palabras en el prompt. Basándose en esto, se introduce un mecanismo de despliegue curricular durante el entrenamiento, donde la calidad de los documentos generados disminuye gradualmente con el tiempo para simular escenarios de recuperación cada vez más desafiantes. Esto permite al modelo de política aprender primero los formatos de salida y los requisitos de la tarea básicos, y luego adaptarse progresivamente a escenarios de recuperación más desafiantes y ruidosos.

En cuanto a la escalabilidad de ZeroSearch, aumentar el número de GPU puede acelerar el rendimiento de generación del LLM simulado, permitiendo un despliegue eficiente a gran escala. El uso de un LLM de 3B como motor de búsqueda simulado también incentiva eficazmente las capacidades de búsqueda del modelo de política. Un módulo de recuperación de 7B logró un rendimiento comparable al de Google Search, mientras que un módulo de recuperación de 14B incluso superó a Google Search.

ZeroSearch es compatible con modelos base y modelos ajustados por instrucciones de diversos tamaños de parámetros, sin requerir una fase de calentamiento supervisada separada (¿tampoco requiere precarga? El autor cree que Alibaba está presumiendo un poco). Además, se integra perfectamente con algoritmos de aprendizaje por refuerzo ampliamente utilizados, incluyendo Optimización de Política Próxima (PPO), Optimización de Política Relativa de Grupo (GRPO) y Reinforce++.

Arquitectura y Principios Subyacentes

Antes de introducir los puntos técnicos clave, entendamos qué es la recuperación de LLM. Todo el mundo sabe que la inferencia de LLM también es un proceso de recuperación, similar a llamar a un sistema experto (navegador) para encontrar el valor de probabilidad de distribución normal más grande predicho (softmax) para predecir y resumir. Por supuesto, la recuperación también cuenta con complementos más completos (RAG) y formas de cadena de pensamiento reforzada.

RAG mejora el rendimiento de generación al integrar conocimiento externo relevante en el flujo de generación. Guía al LLM a través de procesos como la generación de consultas, la descomposición de consultas y la recuperación de información multiturno. Aunque estos métodos son efectivos, a menudo requieren una ingeniería de prompt compleja y exigen mucho de las capacidades de razonamiento del modelo. Para mejorar la eficiencia y reducir la dependencia de LLM potentes de caja negra, investigaciones posteriores propusieron estrategias de ajuste fino supervisado para LLM más pequeños. Sin embargo, estas mejoras conllevan simultáneamente costos de rendimiento y tiempo durante el despliegue.

Self-RAG emplea un mecanismo de auto-reflexión para refinar iterativamente la salida del modelo a través de tokens de reflexión predichos.

RetroLLM integra capacidades de recuperación y generación al permitir que el modelo genere evidencia de grano fino directamente del corpus a través de la decodificación restringida.

RAG-star integra la información recuperada en el proceso de razonamiento basado en la Búsqueda en Árbol de Monte Carlo (MCTS), expandiendo dinámicamente el espacio de búsqueda durante la inferencia.

AirRAG adopta la Búsqueda en Árbol de Monte Carlo (MCTS) para activar capacidades de razonamiento intrínsecas y expandir el espacio de solución.

La cadena de pensamiento reforzada es muy simple; utiliza un framework similar a DeepResearcher para configurar un agente que recupere el conocimiento necesario.

Recuperación Cero

Volviendo a la definición de recuperación cero en el texto principal, el equipo de Alibaba la describe como la utilización de LLM para simular motores de búsqueda, eliminando así la necesidad de motores de búsqueda reales. Como se muestra a continuación,

El equipo demuestra el proceso de aplicación de dos algoritmos de aprendizaje por refuerzo (PPO y GRPO) dentro del framework ZeroSearch. La secuencia de rollout incluye tokens generados por el modelo de política y tokens de documento devueltos por el LLM simulado.

Aquí hay un problema: aplicar el mismo procedimiento de optimización de manera uniforme a dos tipos de tokens puede llevar a la inestabilidad del entrenamiento, porque el contenido recuperado se genera externamente y no está bajo el control directo del modelo de política.

Para mitigar este problema, el equipo introdujo un mecanismo de enmascaramiento de pérdida para los tokens recuperados, asegurando que los gradientes se calculen solo para la salida propia del modelo. Esta estrategia logra estabilizar el proceso de entrenamiento de aprendizaje por refuerzo, manteniendo la efectividad de la generación aumentada por recuperación.

La interacción general se divide en tres etapas distintas: Primero, el modelo articula explícitamente su razonamiento interno dentro de las etiquetas .... Segundo, si se necesita más evidencia, emite una consulta de búsqueda dentro de las etiquetas

.... Finalmente, una vez que se recupera suficiente información, el modelo proporciona la respuesta dentro de las etiquetas ....

(Imagen del apéndice)

Veamos PPO primero. Es un algoritmo de gradiente de política cuyo objetivo es maximizar la recompensa esperada, al tiempo que garantiza la estabilidad del entrenamiento limitando la magnitud de las actualizaciones de política. Su idea central es: las actualizaciones del modelo de política no deben ser excesivamente agresivas para evitar el colapso del rendimiento debido a una única actualización. Comenzando desde el modelo de política, π(θ), que es esencialmente un modelo de valor, genera trayectorias basadas en la pregunta de entrada. Es necesario considerar varios problemas relacionados con etiquetas, como el razonamiento (), analizar si se necesita buscar información, buscar (

) para generar prompts de búsqueda, recuperar () mediante el motor de búsqueda simulado para devolver documentos relevantes o ruidosos, y finalmente responder () para generar la respuesta final. Luego, basándose en la recompensa r obtenida del modelo de recompensa y el modelo de referencia, se calcula A usando la fórmula a continuación, y se actualiza el modelo de política.

Por otro lado, RPO optimiza la política a través de comparaciones de recompensas relativas dentro de grupos, reduciendo la dependencia de los valores de recompensa absolutos, lo que mejora la eficiencia y estabilidad del entrenamiento. El modelo de política genera múltiples trayectorias (O(1)...O(g)). Cada conjunto de trayectorias corresponde a diferentes intentos de consulta de búsqueda y generación de respuesta. Luego, basándose en el conjunto de resultados r, las probabilidades de la política se ajustan según la clasificación de la recompensa, fomentando comportamientos de alta recompensa y suprimiendo comportamientos de baja recompensa. Finalmente, la retroalimentación actualiza el modelo de política.

PPO es como un "entrenador estricto": exige a los estudiantes mejorar sus puntuaciones en cada examen, pero prohíbe cambios repentinos en los métodos de estudio (como pasar de la memorización de memoria al pensamiento divergente).

GRPO es como una "votación popular competitiva": los estudiantes aprenden qué métodos son más efectivos a través de clasificaciones dentro del grupo (por ejemplo, el Método A obtiene una puntuación más alta que el Método B), ajustando así su estrategia de forma autónoma.

Un poco confuso, ¿eh?Resumamos el caso anterior en términos sencillos. Supongamos que un modelo de política recibe la pregunta "¿Quién es el autor? ¿Dónde vive?". El modelo simula "pensar en voz alta", analizando la pregunta dentro de , por ejemplo, "Primero necesito encontrar al autor de este artículo, luego buscar la ciudad donde vive". Luego genera una consulta de búsqueda dentro de

, por ejemplo, "ciudad donde vive el autor". El motor de búsqueda simulado (el modelo de política actualizado, que está desruidificado) devuelve documentos basados en la consulta y obtiene . Finalmente, genera la respuesta, por ejemplo, "Changsha, Hunan".

Para lograr esto, Alibaba propuso una fórmula para maximizar la recompensa (precisión de la respuesta) al mismo tiempo que restringe la diferencia entre el modelo de política π(θ) y el modelo de referencia π(ref) a través de la divergencia KL, asegurando actualizaciones de política estables y controlables.

Aquí, π(θ）representa el modelo de política a optimizar, responsable de generar consultas de búsqueda y la respuesta final. Por el contrario, π(ref) es el modelo de referencia (generalmente el modelo de política inicial), utilizado para restringir las actualizaciones de política y prevenir desviaciones excesivas. r(ϕ) es claramente una función de recompensa, que proporciona retroalimentación basada en la precisión de la respuesta. Su propósito principal es encontrar la solución óptima y basada en π(ref) y π(θ）. π(ψ) representa el LLM del motor de búsqueda simulado, con parámetros fijos, que genera documentos basados en consultas. β representa el coeficiente de ponderación para la divergencia KL, equilibrando la maximización de la recompensa y la estabilidad de la política.

Otro punto clave es el diseño de la función de recompensa. Esta función de recompensa es un mecanismo central. Primero, la función de recompensa guía la dirección de aprendizaje del modelo. Basándose en la coincidencia entre la respuesta generada y y la respuesta estándar, la función de recompensa cuantifica la corrección del modelo. Por ejemplo, si la respuesta es completamente correcta, el valor de la recompensa es alto; de lo contrario, es bajo. Segundo, previene el reward hacking (engañar a la recompensa). El uso de Coincidencia Exacta (Exact Match, EM) aquí evita que el modelo genere respuestas excesivamente largas para "tener suerte" e incluir la respuesta correcta. En cambio, la puntuación considera tanto la precisión (la proporción de partes correctas en la respuesta predicha) como la exhaustividad (la proporción de la respuesta estándar cubierta), lo que impulsa al modelo a generar respuestas concisas y precisas. Finalmente, hay un ajuste dinámico. El nivel de la recompensa influye directamente en la dirección de actualización de los parámetros del modelo de política π(θ), haciendo que se incline gradualmente hacia la recuperación o el razonamiento que produzca altas recompensas.

Ajuste Fino

El equipo propuso un procedimiento ligero de Ajuste Fino Supervisado (SFT). Específicamente, se recopilaron trayectorias de interacción instando al LLM a interactuar con un motor de búsqueda real en un diálogo de varias vueltas hasta que se alcanzó una respuesta final. Las trayectorias que produjeron respuestas correctas se etiquetaron como positivas, indicando documentos recuperados útiles. Por el contrario, las trayectorias que llevaron a respuestas incorrectas se etiquetaron como negativas, indicando resultados de recuperación ruidosos.

Luego, el equipo extrajo pares consulta-documento de las trayectorias positivas y negativas y realizó un SFT ligero para mejorar la capacidad del LLM de simular un motor de búsqueda real. Como se muestra a continuación, ajustando algunas palabras en el prompt, se puede distinguir entre recuperación útil y recuperación ruidosa. Además, la pregunta de entrada y su respuesta correspondiente se incorporaron al prompt para ampliar el límite de conocimiento del LLM. Después del ajuste fino, el LLM es capaz de generar documentos útiles y ruidosos, lo que permite un control dinámico de la calidad de los documentos durante el proceso de despliegue.

(Imagen del apéndice)

Mecanismo de Aprendizaje Automatizado

A través del diseño del modelo de política y el prompt mencionados, el equipo desplegó un agente completamente automatizado para lograr el autoaprendizaje. En este proceso, el modelo de política realiza un razonamiento interactivo y genera consultas de búsqueda, que se introducen en el LLM simulado para generar los documentos correspondientes. Para aumentar gradualmente la dificultad del entrenamiento, se introduce un mecanismo de despliegue basado en el currículo, donde la calidad de los documentos generados disminuye gradualmente con el tiempo. Esto está controlado por una función de probabilidad.

Aquí, p(s) y p(e) representan las probabilidades de ruido inicial y final, i y m representan el paso de entrenamiento actual y el total de pasos de entrenamiento, y b es la base del exponente, con un valor predeterminado de 4. A medida que avanza el entrenamiento, la relación i/m aumenta, resultando en un valor de p(i) más alto; es decir, la probabilidad de generar documentos ruidosos es inicialmente mayor. Pero esto permite que el modelo de política aprenda primero las estructuras de salida básicas y los requisitos de la tarea, y luego se adapte progresivamente a escenarios de recuperación más desafiantes y ruidosos.

La señal de recompensa actúa como la supervisión principal durante el proceso de aprendizaje por refuerzo. En este estudio, el equipo adoptó una función de recompensa basada en reglas que se centra únicamente en la precisión de la respuesta. En experimentos preliminares, el equipo observó que el uso de Coincidencia Exacta (EM) como métrica de recompensa a menudo llevaba al engaño de recompensa (reward cheating), donde el modelo de política tendía a generar respuestas excesivamente largas para aumentar la probabilidad de incluir la respuesta correcta (haciendo un montón de cosas sofisticadas para engañar, ¿verdad?). Para mitigar este problema, el equipo adoptó una función de recompensa basada en la puntuación F1, que equilibra precisión y exhaustividad. Se calcula de la siguiente manera:

Donde IN representa el número de palabras que se superponen entre el resultado predicho y el resultado verdadero, PN representa el número de palabras en el resultado predicho, y RN representa el número de palabras en el resultado verdadero.

Comparación de Rendimiento

Para evaluar la efectividad de ZeroSearch, el equipo comparó su método utilizando modelos abiertos (Qwen) de diferentes tamaños con las siguientes líneas de base.

Métodos de Prompt Original: Esta categoría incluye prompt directo, Cadena de Pensamiento (CoT) y Generación Aumentada por Recuperación (RAG) estándar.

Métodos RAG Avanzados: Considerando RAgent y Search-o1, que buscan información relevante de forma iterativa.

Métodos de Ajuste con Aprendizaje por Refuerzo: Esta categoría incluye R1 y Search-R1. En R1, el modelo de política se entrena basándose únicamente en su conocimiento interno para realizar un razonamiento profundo.

(Imagen del apéndice)

ZeroSearch consistentemente superó a todos los métodos de línea de base. Esta ventaja de rendimiento fue evidente tanto en conjuntos de datos del mismo dominio (por ejemplo, NQ y HotpotQA) como en conjuntos de datos de fuera del dominio (por ejemplo, TriviaQA, PopQA, 2WikiMultiHopQA, Musique y Bamboogle), demostrando plenamente la robustez del método del equipo.

Además, ZeroSearch superó a los métodos que dependen de motores de búsqueda reales. Comparado con Search-R1, que utiliza motores de búsqueda reales, ZeroSearch logró un mejor rendimiento, destacando su potencial como una alternativa efectiva a los motores de búsqueda reales en el aprendizaje por refuerzo a gran escala. ZeroSearch también demostró fuertes capacidades de generalización. A través de diferentes familias de modelos, tamaños de parámetros y tipos (por ejemplo, modelos base o modelos ajustados por instrucciones), ZeroSearch superó consistentemente a los modelos de referencia. Además, su rendimiento mejoró aún más con el aumento del tamaño del modelo, enfatizando su escalabilidad.

Conclusión

ZeroSearch es un framework de aprendizaje por refuerzo novedoso que mejora las capacidades de búsqueda de los LLM sin interactuar con motores de búsqueda reales. Mediante un ajuste fino supervisado, el LLM se transforma en un módulo de recuperación capaz de generar documentos relevantes y ruidosos. El diseño general emplea un mecanismo de despliegue curricular para mejorar progresivamente la capacidad de razonamiento exponiendo el modelo a escenarios de recuperación cada vez más desafiantes. Los resultados experimentales muestran que el rendimiento de ZeroSearch supera a los modelos basados en búsqueda real, exhibe una buena capacidad de generalización en LLM base y LLM ajustados por instrucciones de diferentes tamaños, y soporta varios algoritmos de aprendizaje por refuerzo.

Apéndices:

ZeroSearch: Incentivize the Search Capability of LLMs without Searching

https://arxiv.org/html/2505.04588v1

ZeroSearch: Incentivize the Search Capability of LLMs without Searching

https://github.com/Alibaba-NLP/ZeroSearch/blob/main/llm_agent/generation.py

ZeroSearch: <Tecnología de Alibaba> Los Modelos de Lenguaje Grandes Aprenden por Recompensa Propia Sin Navegador

Compartir URL Corta