Entrena un Modelo con Poder Computacional Global Inactivo, Rendimiento Comparable a R1, ¡El Cielo de Jensen Huang se Ha Derrumbado! Karpathy Una Vez Invirtió en Él

De la noche a la mañana, el cielo de Jensen Huang se ha derrumbado (doge).

Se ha lanzado el primer modelo de entrenamiento de RL distribuido del mundo, INTELLECT-2. Al integrar recursos informáticos globales inactivos o dispersos, completó el entrenamiento de aprendizaje por refuerzo del modelo, reduciendo enormemente los costos de entrenamiento.

¡Su rendimiento es comparable al de DeepSeek-R1!

Una vez que este paradigma se establezca, significará que el entrenamiento de RL se libera de la dependencia del poder computacional centralizado. Cualquier persona en el mundo puede participar en el entrenamiento de modelos, lo que podría poner fin a la era del monopolio del poder computacional por parte de las grandes empresas.

Just like this~ ¡poder computacional viene, poder computacional viene, poder computacional viene de todas direcciones.

Esta versión del modelo recibió soporte de recursos computacionales de 19 individuos/instituciones (obtenido de las respuestas del modelo, y se incluye a sí mismo)

Además de contribuir con poder computacional, muchos grandes nombres están dispuestos a invertir, incluyendo, entre otros, el gurú Karpathy, el autor de FlashAttention Tri Dao, el cofundador y CEO de HuggingFace Clem Delangue, etc.

Según los miembros del equipo, solo les tomó aproximadamente dos meses desde la escritura del framework de aprendizaje por refuerzo del modelo, prime-rl, hasta su lanzamiento hoy.

La infraestructura ya está en su lugar y ha sido verificada. Es solo cuestión de tiempo antes de que superen a esos laboratorios avanzados.

INTELLECT-2 actualmente soporta una experiencia basada en web; solo se requiere un registro simple para usarlo. Es similar a otras páginas de asistentes generales, pero la entrada solo soporta texto.

Comencemos con algunas preguntas básicas: ¿Cuáles son las características más importantes de INTELLECT-2?

Después de pensar durante unos segundos, dio la respuesta, enfatizando primero que es el primer modelo a gran escala entrenado con RL descentralizado, y luego destacando características como el entrenamiento de aprendizaje por refuerzo, el equilibrio entre la escala de parámetros y el rendimiento, la seguridad y privacidad de los datos, y el desarrollo impulsado por la comunidad.

La respuesta es básicamente correcta, probemos algo más difícil:

Después de que un extraterrestre llegó a la Tierra, el primer día tuvo la misma probabilidad de elegir completar una de las siguientes cuatro cosas: 1. Autodestruirse; 2. Dividirse en dos extraterrestres; 3. Dividirse en tres extraterrestres; 4. No hacer nada.

Después de eso, cada día, cada extraterrestre tomará una decisión, independientemente de los demás. Pregunta: ¿Cuál es la probabilidad de que finalmente no haya extraterrestres en la Tierra?

Después de pensar un rato, la respuesta fue así.

Aunque el formato está un poco desordenado, la respuesta final es correcta y es una solución analítica. (o゜▽

Etiqueta Principal:Entrenamiento de IA Distribuida

Etiquetas Secundarias:Computación DescentralizadaPrime IntellectPotencia de Cómputo InactivaAprendizaje por Refuerzo


Anterior:Despidos Globales de más de 6000 Personas. Esta Vez, Incluso un Veterano de TypeScript de 10 Años y un Director de IA Fueron "Optimizados" por Microsoft

Siguiente:¿Son los Médicos Profesionales Muy Inferiores a los Modelos de IA? OpenAI Lanza el Benchmark Médico de Código Abierto HealthBench, o3 Obtiene el Mejor Rendimiento

Compartir URL Corta