¡La Revolución de la Programación Estalla! El Agente de IA Más Potente de OpenAI Acaba de Lanzarse en ChatGPT

Informe Xinzhiyuan

Editor: Departamento Editorial YXH

【Guía Xinzhiyuan】¡El agente de programación de IA más potente de OpenAI ha llegado de verdad! Codex se lanza de manera impactante, impulsado por codex-1, una versión optimizada de o3, con procesamiento paralelo de múltiples tareas, completando tareas de ingeniería de software de varios días en media hora.

¡A partir de hoy, la programación con IA inicia oficialmente una nueva era!

Justo ahora, Greg Brockman lideró a un equipo de seis personas de OpenAI en una transmisión en vivo en línea para lanzar de manera impactante un agente de programación de IA en la nube: Codex.

En palabras de Altman, ¡la era en la que una sola persona puede crear innumerables aplicaciones exitosas ha llegado!

图片

图片

Codex está impulsado por el nuevo modelo codex-1, una versión especialmente ajustada de o3 diseñada para la ingeniería de software.

No solo puede procesar de forma segura múltiples tareas en paralelo en un entorno de sandbox en la nube, sino que también puede acceder directamente a tu base de código a través de una integración perfecta con GitHub.

No es solo una herramienta, sino un "ingeniero 10x" capaz de hacer simultáneamente:

Construir módulos de funciones rápidamente

Responder preguntas de la base de código en profundidad

Reparar vulnerabilidades de código con precisión

Enviar PRs

Ejecutar validaciones de prueba automáticamente

En el pasado, estas tareas podían llevar a los desarrolladores horas o incluso días, pero ahora Codex puede completarlas de manera eficiente en un máximo de 30 minutos.

图片

Haz clic en la barra lateral de ChatGPT, ingresa las indicaciones y luego haz clic directamente en "Código" para asignar tareas o en "Preguntar" para consultar cuestiones relacionadas con la base de código.

Mediante el aprendizaje por refuerzo, Codex se entrena en tareas de codificación del mundo real y en diversos entornos, generando código que no solo se ajusta a las preferencias humanas, sino que también se integra sin problemas en los flujos de trabajo estándar.

Las pruebas de referencia muestran que codex-1 obtuvo una alta puntuación del 72.1% en SWE-bench, superando a Claude 3.7 y o3-high.

图片

A partir de hoy, Codex estará oficialmente disponible para los usuarios de ChatGPT Pro, Enterprise y Team en todo el mundo, y pronto para los usuarios de Plus y Edu.

图片

Se puede decir que la aparición del agente de programación de IA Codex puede remodelar la lógica subyacente del desarrollo de software y encender completamente la chispa de la revolución de la programación.

图片

Paralelismo multitarea de Codex, superacelerador de la programación con IA

Ya en 2021, OpenAI lanzó por primera vez el modelo CodeX, marcando el comienzo de la era del "vibe coding" (programación con onda).

Este método de programación permite a los desarrolladores colaborar con la IA, haciendo que la producción de código sea más intuitiva y eficiente.

Hace unas semanas, OpenAI también lanzó CodeX CLI, un agente que puede ejecutarse en el terminal local.

¡Pero eso es solo el principio!

OpenAI lanza hoy el nuevo agente Codex, llevando la ingeniería de software a un nivel completamente nuevo.

A continuación, echemos un vistazo al impresionante rendimiento de codificación de Codex.

Después de conectar su cuenta de GitHub, el investigador de OpenAI Thibault Sottiaux seleccionó un repositorio de código abierto, el repositorio preparedness.

图片

Luego, recibió tres tareas:

La primera fue una pregunta: pedir al agente de código Codex que explicara la base de código y describiera la estructura general.

La segunda fue una tarea de código: pedirle que encontrara y solucionara un error en algún lugar de la base de código.

La tercera tarea fue una pregunta: iterar a través de la base de código y sugerir proactivamente tareas que podría realizar.

图片

En la siguiente demostración, Thibault asignó a Codex múltiples tareas, como corrección ortográfica y gramatical, delegación inteligente de tareas y adaptación a múltiples repositorios.

En cuanto a la corrección, incluyó intencionalmente errores ortográficos en las instrucciones. Codex no solo entendió la intención, sino que también encontró y solucionó proactivamente los problemas de ortografía y gramática en la base de código, con un detalle asombroso.

图片

Cuando Thibault propuso el objetivo de que la base de código fuera "fácil de mantener y sin errores", Codex iteró a través de la base de código y descubrió proactivamente problemas como valores predeterminados mutables y configuraciones de tiempo de espera inconsistentes, y generó automáticamente tareas de corrección.

Esta capacidad de "autodelegación" es un rendimiento cumbre para un agente.

图片

图片

Cabe destacar que el agente Codex se ejecuta en la infraestructura informática de OpenAI, compartiendo el mismo sistema bien probado que el aprendizaje por refuerzo.

Cada tarea se ejecuta en un sandbox virtual independiente, equipado con su propio sistema de archivos, CPU, memoria y política de red, lo que garantiza eficiencia y seguridad.

图片

Además del repositorio preparedness, Codex también manejó sin problemas la biblioteca CodeX CLI, demostrando su capacidad de generalización en diferentes proyectos.

Ya sea un proyecto de código abierto o una base de código interna, Codex se desenvuelve con facilidad.

Codex recibió un informe de error de un usuario, donde un carácter especial en el nombre del archivo causó un error en el comando diff.

图片

Durante el proceso de resolución, no solo pudo reproducir el problema, sino también escribir scripts de prueba, ejecutar comprobaciones de linter y generar una PR, con todo el proceso tomando solo unos minutos.

Thibault afirmó directamente: "Esto me habría llevado originalmente 30 minutos, o incluso varias horas para completar".

图片

Además, la investigadora de OpenAI Katy Shi enfatizó en la demostración que la PR de Codex incluye un resumen detallado, explicando claramente los cambios y el código referenciado, con los resultados de las pruebas de un vistazo.

图片

Después de una serie de demostraciones, Greg comentó que Codex le hizo sentir profundamente la AGI.

图片

Alineación con las Preferencias Humanas

Aplicación Práctica en 4 Bibliotecas de Código Abierto

Un objetivo principal del entrenamiento de codex-1 por parte de OpenAI es asegurar que su salida se ajuste altamente a las preferencias y estándares de codificación humanos.

Comparado con OpenAI o3, codex-1 genera consistentemente parches de modificación de código más concisos que pueden ser revisados directamente por humanos e integrados en flujos de trabajo estándar.

Para demostrar la concisión y eficiencia del código generado por Codex, OpenAI proporcionó 4 ejemplos prácticos comparando Codex y o3 en bibliotecas de código abierto:

图片

astropy

astropy es una biblioteca Python de código abierto para astronomía.

图片

El primer problema en el repositorio astropy/astropy fue que la separability_matrix en el módulo Modeling no podía calcular correctamente la separabilidad de CompoundModels anidados.

图片

Como se ve en la comparación de versiones de código antes y después de la modificación, usar Codex resultó en cambios de código muy concisos.

En contraste, el código modificado por o3 fue algo prolijo e incluso añadió algunos comentarios "innecesarios" al código fuente.

图片

图片

matplotlib

Matplotlib es una biblioteca completa de Python para crear visualizaciones estáticas, animadas e interactivas.

图片

Este problema consistía en corregir un error: la corrección de ventanas (windows correction) incorrecta en mlab._spectral_helper.

图片

Del mismo modo, el proceso de modificación de código de Codex fue más conciso.

图片

图片

django

Django es un framework web basado en Python. Este problema consistía en corregir el error donde las expresiones que contenían solo duration (duración) no funcionaban correctamente en SQLite y MySQL.

图片

El proceso de corrección de Codex siguió siendo elegante, y en comparación con o3, primero añadió las llamadas de dependencia faltantes.

图片

图片

expensify

expensify es un software de código abierto para la colaboración financiera centrado en el chat.

图片

El problema presentado por OpenAI fue "dd [HOLD for payment 2024-10-14] [$250] LHN - Nombre de la sala de chat de miembro no actualizado en LHN después de limpiar la caché".

图片

Del mismo modo, la localización y modificación del problema por parte de Codex fueron más precisas y efectivas. O3 incluso realizó un cambio de código ineficaz.

图片

图片

El equipo de OpenAI ya lo está usando

El equipo técnico de OpenAI ha comenzado a incorporar Codex como parte de su conjunto de herramientas diario.

Los ingenieros de OpenAI utilizan con mayor frecuencia Codex para ejecutar tareas repetitivas y de alcance bien definido, como refactorización, cambio de nombre y escritura de pruebas, tareas que de otro modo interrumpirían su concentración.

También es adecuado para construir nuevas funciones, conectar componentes, corregir errores y redactar documentación.

Los equipos están construyendo nuevos hábitos alrededor de Codex: manejar problemas de guardia, planificar tareas al comienzo del día y ejecutar trabajo de fondo para mantener el progreso.

Al reducir el cambio de contexto y recordarles las tareas pendientes olvidadas, Codex ayuda a los ingenieros a entregar más rápido y concentrarse en lo más importante.

Antes del lanzamiento oficial, OpenAI colaboró con algunos probadores externos para evaluar el rendimiento real de Codex en diferentes bases de código, procesos de desarrollo y entornos de equipo:

Cisco, como socio de diseño temprano, exploró el potencial de Codex para acelerar la ideación e implementación del equipo de ingeniería, y proporcionó comentarios a OpenAI a través de la evaluación de casos de uso reales, ayudando a la optimización del modelo.

Temporal aprovechó Codex para acelerar el desarrollo de funciones, la depuración de problemas, la escritura y ejecución de pruebas, y lo utilizó para refactorizar grandes bases de código. Codex también manejó tareas complejas en segundo plano, ayudando a los ingenieros a mantenerse concentrados e iterar de manera eficiente.

Superhuman utilizó Codex para automatizar tareas pequeñas y repetitivas, como mejorar la cobertura de pruebas y corregir fallos de integración; también permitió a los gerentes de producto realizar cambios de código ligeros sin intervención de ingeniería (excepto revisiones de código), mejorando la eficiencia del emparejamiento.

Kodiak aceleró el desarrollo de herramientas de depuración, la cobertura de pruebas y la refactorización de código con el apoyo de Codex, avanzando en la investigación y el desarrollo de su sistema de conducción autónoma Kodiak Driver. Codex también sirvió como herramienta de referencia, ayudando a los ingenieros a comprender pilas de código desconocidas, proporcionando contexto relevante y cambios históricos.

Según la experiencia de uso actual, OpenAI sugiere: se pueden asignar tareas bien definidas a múltiples agentes simultáneamente, y probar diversos tipos de tareas y métodos de indicación para descubrir la capacidad del modelo de manera más completa.

图片

Mensaje del Sistema del Modelo

A través del siguiente mensaje del sistema, los desarrolladores pueden entender el comportamiento predeterminado de codex-1 y ajustarlo para su flujo de trabajo.

Por ejemplo, el mensaje del sistema guía a Codex para ejecutar todas las pruebas mencionadas en el archivo AGENTS.md, pero si el tiempo es limitado, se puede pedir a Codex que omita estas pruebas.

# Instructions - The user will provide a task. - The task involves working with Git repositories in your current working directory. - Wait for all terminal commands to be completed (or terminate them) before finishing. # Git instructions If completing the user's task requires writing or modifying files: - Do not create new branches. - Use git to commit your changes. - If pre-commit fails, fix issues and retry. - Check git status to confirm your commit. You must leave your worktree in a clean state. - Only committed code will be evaluated. - Do not modify or amend existing commits. # AGENTS.md spec - Containers often contain AGENTS.md files. These files can appear anywhere in the container's filesystem. Typical locations include `/` , `~` , and in various places inside of Git repos. - These files are a way for humans to give you (the agent) instructions or tips for working within the container. - Some examples might be: coding conventions, info about how code is organized, or instructions for how to run or test code. - AGENTS.md files may provide instructions about PR messages (messages attached to a GitHub Pull Request produced by the agent, describing the PR). These instructions should be respected. - Instructions in AGENTS.md files: - The scope of an AGENTS.md file is the entire directory tree rooted at the folder that contains it. - For every file you touch in the final patch, you must obey instructions in any AGENTS.md file whose scope includes that file. - Instructions about code style, structure, naming, etc. apply only to code within the AGENTS.md file's scope, unless the file states otherwise. - More-deeply-nested AGENTS.md files take precedence in the case of conflicting instructions. - Direct system/developer/user instructions (as part of a prompt) take precedence over AGENTS.md instructions. - AGENTS.md files need not live only in Git repos. For example, you may find one in your home directory. - If the AGENTS.md includes programmatic checks to verify your work, you MUST run all of them and make a best effort to validate that the checks pass AFTER all code changes have been made. - This applies even for changes that appear simple, i.e. documentation. You still must run all of the programmatic checks. # Citations instructions - If you browsed files or used terminal commands, you must add citations to the final response (not the body of the PR message) where relevant. Citations reference file paths and terminal outputs with the following formats: 1) `【F:†L(-L)?】` - File path citations must start with `F:` . `file_path` is the exact file path of the file relative to the root of the repository that contains the relevant text. - `line_start` is the 1-indexed start line number of the relevant output within that file. 2) `【†L(-L)?】` - Where `chunk_id` is the chunk _id of the terminal output, `line_`start `and `line _end` are the 1-indexed start and end line numbers of the relevant output within that chunk. - Line ends are optional, and if not provided, line end is the same as line start, so only 1 line is cited. - Ensure that the line numbers are correct, and that the cited file paths or terminal outputs are directly relevant to the word or clause before the citation. - Do not cite completely empty lines inside the chunk, only cite lines that have content. - Only cite from file paths and terminal outputs, DO NOT cite from previous pr diffs and comments, nor cite git hashes as chunk ids. - Use file path citations that reference any code changes, documentation or files, and use terminal citations only for relevant terminal output. - Prefer file citations over terminal citations unless the terminal output is directly relevant to the clauses before the citation, i.e. clauses on test results. - For PR creation tasks, use file citations when referring to code changes in the summary section of your final response, and terminal citations in the testing section. - For question-answering tasks, you should only use terminal citations if you need to programmatically verify an answer (i.e. counting lines of code). Otherwise, use file citations.

图片

Actualización de Codex CLI

El mes pasado, OpenAI lanzó una herramienta de código abierto ligera: Codex CLI, que permite que modelos potentes como o3 y o4-mini se ejecuten directamente en el terminal local, ayudando a los desarrolladores a completar tareas más rápido.

图片

Esta vez, OpenAI también lanzó una versión de modelo más pequeña optimizada para Codex CLI: la versión o4-mini de codex-1.

Cuenta con baja latencia, fuerte capacidad de comprensión de instrucciones y capacidades de edición de código, y ahora es el modelo predeterminado para Codex CLI. También está disponible a través de API (nombre: codex-mini-latest) y continuará siendo iterado y actualizado.

Además, el método de inicio de sesión para Codex CLI se ha simplificado. Los desarrolladores ahora pueden iniciar sesión directamente con su cuenta de ChatGPT, seleccionar la organización de la API, y el sistema generará y configurará automáticamente la clave de la API.

Para fomentar el uso, a partir de hoy y durante 30 días, los usuarios que inicien sesión en Codex CLI con su cuenta de ChatGPT recibirán créditos gratuitos: los usuarios Plus obtendrán $5 en crédito de uso de API; los usuarios Pro obtendrán $50.

图片

¿Es Codex Caro?

En las próximas semanas, todos los usuarios podrán probar en gran medida la función de Codex.

Posteriormente, OpenAI introducirá mecanismos de limitación y precios flexibles, permitiendo la compra bajo demanda de uso adicional.

Para los desarrolladores, el modelo codex-mini-latest está disponible en la API de Respuestas a los siguientes precios:

Por millón de tokens de entrada: $1.50

Por millón de tokens de salida: $6.00

Y disfruta de un descuento del 75% en el almacenamiento en caché de indicaciones.

Codex se encuentra actualmente en la etapa de vista previa de investigación y aún no es compatible con capacidades de frontend como la entrada de imágenes, ni tiene la capacidad de corrección en tiempo real durante la ejecución de tareas.

Además, el tiempo de respuesta para delegar tareas al agente Codex es relativamente largo, y los usuarios pueden necesitar adaptarse a este tipo de flujo de trabajo de colaboración asíncrona.

A medida que las capacidades del modelo continúen mejorando, Codex podrá manejar tareas de desarrollo más complejas y persistentes, convirtiéndose gradualmente en algo más parecido a un "compañero de desarrollo remoto".

图片

¿Qué Sigue?

El objetivo de OpenAI es que los desarrolladores se centren en lo que hacen bien y deleguen las tareas restantes a agentes de IA, mejorando así la eficiencia y la productividad.

Codex soportará la colaboración en tiempo real y la delegación de tareas asíncronas, y estos dos modos de trabajo se fusionarán gradualmente.

Herramientas como Codex CLI se han convertido en un estándar para que los desarrolladores aceleren la codificación, mientras que el flujo de trabajo de colaboración asíncrona y multiagente liderado por Codex en ChatGPT se espera que se convierta en un nuevo paradigma para que los ingenieros produzcan código de alta calidad de manera eficiente.

En el futuro, los desarrolladores podrán colaborar con la IA en IDEs y herramientas diarias: haciendo preguntas, obteniendo sugerencias, delegando tareas complejas, todo integrado en un flujo de trabajo unificado.

OpenAI planea mejorar aún más la interactividad y la flexibilidad:

Apoyar la provisión de orientación durante las tareas

Colaborar con la IA para implementar estrategias

Recibir actualizaciones de progreso proactivas

Integración profunda con herramientas de uso común (como GitHub, CLI, rastreadores de problemas, sistemas CI) para una asignación conveniente de tareas.

图片

La ingeniería de software se está convirtiendo en una de las primeras industrias en mejorar significativamente la eficiencia gracias a la IA, lo que liberará completamente el enorme potencial de individuos y pequeños equipos.

Al mismo tiempo, OpenAI también está trabajando con socios para estudiar cómo la aplicación generalizada de los agentes afectará los procesos de desarrollo, el desarrollo de habilidades y la distribución global del talento.

Referencias:

https://www.youtube.com/watch?v=hhdpnbfH6NU

https://openai.com/index/introducing-codex/

图片

Etiqueta Principal:Programación con IA

Etiquetas Secundarias:OpenAIAutomatizaciónGeneración de CódigoDesarrollo de Software


Anterior:Sin IAG, ¿Se Extinguirá la Humanidad?

Siguiente:Revisión de diez mil palabras: ¿Es nuestro comportamiento un manojo de fuegos artificiales neuronales o un guion de vida?

Compartir URL Corta