El nuevo modelo de código de ByteDance supera a Claude y GPT‑5 en los benchmarks, generando inquietudes en Anthropic.
El nuevo modelo de código de ByteDance supera a Claude y GPT‑5 en los benchmarks, generando inquietudes en Anthropic.
Introducción
Un lanzamiento reciente de ByteDance, el gigante tecnológico detrás de TikTok, ha sorprendido a la comunidad de IA para programación. Su nuevo modelo —a menudo llamado Dubau Seed Code— supera a competidores líderes como Claude de Anthropic y al aún no lanzado GPT‑5 en varios puntos de referencia de codificación, todo ello a una fracción del precio. El rápido ascenso de este modelo podría explicar por qué Anthropic habría restringido el acceso al editor de código Trey, un producto de ByteDance que antes utilizaba Claude.
ByteDance y su ecosistema de IA
ByteDance no es solo una potencia de redes sociales; ha estado construyendo discretamente una suite de herramientas de IA, entre las que se incluyen:
- Trey – un editor de código asistido por IA elogiado por su interfaz intuitiva y su flujo de trabajo de “modo solo”.
- Volcano API – una plataforma que expone los modelos de lenguaje de ByteDance a los desarrolladores, aunque actualmente está limitada a usuarios chinos.
- Dubau Seed Code – el último modelo de gran tamaño (LLM) centrado en tareas de ingeniería de software.
Estas ofertas ilustran la ambición de ByteDance de competir directamente con jugadores consolidados como OpenAI, Anthropic y Google.
El editor de código Trey y su relación con Anthropic
Trey ganó popularidad por sus robustas capacidades de autocompletado y por la posibilidad de ejecutar una variedad de modelos, algunos de los cuales eran inicialmente gratuitos. Sin embargo, Anthropic cortó abruptamente el acceso de Trey a los modelos Claude, una medida que recuerda decisiones controvertidas anteriores de Anthropic contra otros servicios de terceros. Aunque los motivos exactos siguen siendo opacos, pruebas internas sugieren que Anthropic podría sentirse amenazado por el modelo de codificación emergente de ByteDance.
Rendimiento en benchmarks: SWE‑Bench Verified
Una de las evaluaciones más respetadas para los modelos de generación de código es el benchmark SWE‑Bench Verified. Anthropic ha destacado históricamente su desempeño en esta prueba, lo que hace que cualquier desafío a su posición sea particularmente sensible.
Resumen de resultados
- Dubau Seed Code encabezó la tabla de clasificación, superando a Claude‑Sonnet de Anthropic en aproximadamente un 8 %.
- El modelo también superó a las líneas base al estilo GPT‑5 y a otros sistemas líderes como los checkpoints de Gemini 3.
- En conjunto, Dubau Seed Code obtuvo la posición 15 entre todos los participantes, con los cuatro primeros lugares ocupados por variantes de Gemini.
Estos resultados demuestran que un modelo relativamente económico puede competir con, e incluso superar, a ofertas premium en un benchmark crítico de codificación.
Ventajas de costo y velocidad
Más allá del rendimiento puro, Dubau Seed Code destaca por su precio asequible y su rápida inferencia:
- Precio: 17‑12 USD por millón de tokens (aproximadamente 15 × más barato que Claude‑Sonnet).
- Rendimiento: alrededor de 80 tokens por segundo, lo que permite respuestas casi en tiempo real para sesiones interactivas de codificación.
- Soporte multimodal: el modelo puede procesar imágenes y video, ampliando su utilidad más allá de la generación de texto puro.
Estas características hacen que el modelo sea atractivo para desarrolladores y empresas que buscan asistencia de IA rentable.
Acceso al modelo fuera de China
Aunque la Volcano API requiere un número de móvil chino, los desarrolladores de todo el mundo pueden experimentar con Dubau Seed Code a través de ZenMox (una plataforma estilo open‑router). ZenMox ofrece:
- Créditos de prueba gratuitos para usuarios nuevos.
- Un endpoint API compatible con Anthropic, que permite que flujos de trabajo basados en Claude se cambien a Dubau Seed Code con mínimos cambios de código.
Esta accesibilidad ha facilitado pruebas más amplias por parte de la comunidad y ha contribuido a la rápida adopción del modelo.
Evaluación en el mundo real
El autor realizó una serie de pruebas prácticas para medir las capacidades del modelo en diferentes dominios.
Tareas de codificación y gráficos
- Generación de planos de planta: Produjo código correcto, aunque la calidad visual fue modesta.
- Panda SVG con hamburguesa: Gráficos reconocibles; la interacción entre elementos podría mejorar.
- Pokéball 3‑JS: Colores y formas precisos; faltó el botón interactivo.
- Tablero de ajedrez autoplay: No funcionó como se esperaba.
- Mapa estilo Minecraft (influencia Kandinsky): Generó efectos de profundidad impresionantes y terreno aleatorio, superando a Sonnet en riqueza visual.
- Animación de mariposa: Animación de vuelo fluida y entorno atractivo, pese a un modelo de mariposa menos detallado.
- Herramienta CLI en Rust: Funcionó correctamente.
- Script de Blender: No se ejecutó con éxito.
En conjunto, el modelo alcanzó un respetable 15.º lugar en la tabla de clasificación de SWE‑Bench, especialmente notable dado su bajo costo.
Benchmarks de agentes (integración Claw‑Code)
Al combinarlo con Claw‑Code, un conjunto de herramientas para evaluar agentes de IA, los resultados fueron mixtos:
- Aplicación de seguimiento de películas: No funcional, plagada de errores.
- Simulación de juego de dioses: Numerosos fallos impidieron la ejecución exitosa.
- Calculadora TUI en Go: Rendimiento sobresaliente; generó una UI totalmente funcional y estéticamente agradable.
- Aplicación Spelt, aplicación Nux, consulta al repositorio Open‑Code: Todas fallaron en producir resultados utilizables.
Estos resultados colocaron al modelo en el 12.º lugar global, superando a algunos agentes comerciales como Cursor Composer, pero quedando detrás de sistemas especializados como Kimmy y Quen Code. El autor señala que el modelo parece optimizado para el flujo de trabajo de Trey, y la dependencia de comandos de terminal en lugar de operaciones de edición‑diff pudo haber limitado su desempeño.
Implicaciones para Anthropic y el mercado en general
La aparición de un modelo de codificación de alto rendimiento y bajo costo proveniente de un proveedor chino desafía la narrativa dominante de que los precios premium garantizan capacidades superiores. La decisión de Anthropic de restringir el acceso de Trey a Claude podría interpretarse como una maniobra defensiva para proteger su cuota de mercado.
Para los desarrolladores, la conclusión clave es que existen alternativas asequibles sin sacrificar mucho en calidad. Este cambio podría impulsar una adopción más amplia de herramientas de desarrollo asistidas por IA, especialmente entre startups y empresas conscientes del presupuesto.
Conclusión
El modelo Dubau Seed Code de ByteDance ofrece una combinación convincente de rendimiento líder en benchmarks, capacidades multimodales y un precio excepcionalmente bajo. Su éxito en SWE‑Bench Verified y sus resultados competitivos en tareas de agentes demuestran que un modelo bien afinado y de menor tamaño puede rivalizar con los pesos pesados de la industria como Claude‑Sonnet y el próximo GPT‑5.
La disponibilidad del modelo a través de plataformas como ZenMox garantiza que desarrolladores de todo el mundo puedan experimentarlo, potencialmente redefiniendo el panorama de la ingeniería de software impulsada por IA. A medida que el mercado reacciona, podríamos ver una mayor presión sobre los proveedores establecidos para reconsiderar sus estructuras de precios y accesibilidad, lo que, en última instancia, beneficiaría a la comunidad de desarrolladores en general.