spdup.net

Noticias tecnológicas

Reseña de Anthropic Claude Opus 4.5 - Rendimiento, Precios y Benchmarks del Mundo Real


Reseña de Anthropic Claude Opus 4.5 - Rendimiento, Precios y Benchmarks del Mundo Real

Introducción

Anthropic acaba de lanzar Claude Opus 4.5, su nuevo modelo insignia dirigido a la programación, agentes autónomos y el uso de computadoras en el mundo real. Posicionado como competidor directo de Gemini 3 Pro de Google, Opus 4.5 promete no solo un mayor rendimiento en tareas técnicas, sino también un precio considerablemente más bajo. En este artículo desglosamos la tarificación del modelo, los resultados de los benchmarks y las pruebas en entornos reales para ver si Opus 4.5 está a la altura del bombo.

Precio y eficiencia de costos

Uno de los cambios más notables con Opus 4.5 es la reducción drástica del costo por token:

  • Tokens de entrada: 5 $ por millón (antes 15 $)
  • Tokens de salida: 25 $ por millón (antes 75 $)

Este ajuste hace que el modelo sea mucho más accesible para cargas de trabajo diarias, sobre todo para desarrolladores que necesitan mantener el uso de la API a un precio razonable. Anthropic también ofrece recomendaciones para reducir la longitud del contexto y así recortar aún más los costos, subrayando un enfoque práctico y consciente del presupuesto.

Rendimiento en benchmarks

Benchmarks de programación

Opus 4.5 muestra ganancias impresionantes en una variedad de evaluaciones de código:

  • Ader Polyglot: 89,4 % de éxito vs. 78,8 % de Sonnet 4.5
  • Aentic Coding SBench: 80,9 % vs. 77,2 % de Sonnet 4.5 y 74,5 % de Opus 4.1
  • Terminal Bench 2.0: 59,3 % (subiendo desde 46,5 % de Opus 4.1)
  • Programación multilingüe (C, Go, Java, JS/TS, PHP, Ruby, Rust): Opus 4.5 lidera a Sonnet 4.5 y Opus 4.1 con tasas de aprobación más altas y márgenes de error más estrechos.

Benchmarks de agentes y coherencia a largo plazo

  • Vending Bench (coherencia a largo plazo): El costo sube de 3.849,74 $ (Sonnet 4.5) a 4.967,6 $ para Opus 4.5, lo que indica un rendimiento estable en ejecuciones prolongadas.
  • Browse‑Comp‑Plus: 72,9 % de éxito vs. 67,2 % de Sonnet 4.5 cuando se combina con borrado de resultados de herramientas, memoria y reinicio de contexto.

Seguridad y robustez

Los métricos de seguridad también mejoran:

  • Comportamiento problemático: cae a ~10 % con Opus 4.5, por debajo de Sonnet 4.5 y de los modelos competidores de Frontier.
  • Susceptibilidad a inyección de prompts (K=1): 4,7 % para Opus 4.5 frente a 7,3 % para Sonnet 4.5; sigue siendo la más baja entre los modelos evaluados.

Razonamiento e inteligencia general

Más allá de la programación pura, Opus 4.5 se mantiene competitivo en tareas de razonamiento intensivo:

  • ARC‑AI2: 37,6 % (un gran salto frente al 13,6 % de Sonnet)
  • GPQA‑Diamond: 87,0 %
  • Razonamiento visual (MMU‑Val): 80,7 %

Pruebas en el mundo real

Tareas no agentes

Se pidió al modelo generar varios resultados creativos:

  • Plano de planta: funcional pero no óptimo.
  • SVG de un panda con una hamburguesa: salida de baja calidad.
  • Pokéball en Three.js: aceptable, aunque el fondo podría mejorarse.
  • Tablero de ajedrez con autoplay: no funcionó.
  • Escena estilo Minecraft en estilo Kandinsky: muy alta calidad, una de las mejores generaciones observadas.
  • Simulación de mariposa: física realista e impresionante fidelidad visual.
  • Herramienta CI en Rust y script para Blender: ambos produjeron código sólido y utilizable.
  • Preguntas de matemáticas y acertijos: respondidas correctamente, contribuyendo a un 74 % en pruebas de razonamiento general, todavía por debajo de los puntos de referencia de Gemini 3 Pro.

Benchmarks agentes

Usando la interfaz Kilo Code (que integra los modelos Claude sin problemas), Opus 4.5 sobresalió en varias tareas de desarrollo de extremo a extremo:

  • Aplicación de seguimiento de películas (Expo, API TMDB): generó una UI totalmente funcional con navegación y manejo de datos.
  • Calculadora de terminal en Go (Bubble Tea): produjo código limpio y operativo.
  • Prototipo del juego “Godo”: funcional, pero los elementos UI (barra de salud, contador de pasos) estaban mal ubicados.
  • Modificación de repositorio open‑source: añadió un comando SVG en una única edición precisa.
  • Aplicación de gestión de tareas Spelt: implementó login, creación de tableros, almacenamiento SQLite y funcionalidad CRUD completa.
  • Aplicaciones Next.js y Tari: ambas se ejecutaron sin problemas mayores.

Estos resultados colocaron a Opus 4.5 en la cima de la tabla de clasificación de agentes.

Comparación con Gemini 3

Aunque Opus 4.5 ofrece capacidades superiores de backend y depuración, su salida de frontend sigue quedando atrás de Gemini 3, que produce de forma constante diseños UI más limpios (p. ej., menos artefactos “morado”). Un flujo de trabajo práctico podría ser:

  1. Usar Opus 4.5 para lógica de backend, integración de APIs y trabajo algorítmico complejo.
  2. Cambiar a Gemini 3 para pulir componentes de frontend y diseño visual.

Las consideraciones de costo también son relevantes. Gemini 3 alcanza un 71,4 % por alrededor de 8 $, mientras que Opus 4.5 llega al 77,1 % por aproximadamente 48 $. El aumento de rendimiento viene con un precio mayor, lo que hace que Opus 4.5 sea más adecuado para escenarios donde el presupuesto es menos restrictivo y se requieren resultados de primer nivel.

Fortalezas y limitaciones

Fortalezas

  • Precisión excepcional en codificación en múltiples lenguajes.
  • Fuerte desempeño agente para tareas de desarrollo de extremo a extremo.
  • Métricas de seguridad y robustez mejoradas.
  • Precio por token más bajo respecto a versiones anteriores de Opus.

Limitaciones

  • La generación de frontend sigue produciendo estética UI subóptima.
  • Costo total más alto en comparación con modelos competidores como Gemini 3.
  • Algunos resultados creativos (p. ej., gráficos SVG) continúan siendo inconsistentes.

Conclusión

Claude Opus 4.5 representa un salto sustancial para Anthropic, ofreciendo una competencia de codificación de última generación, capacidades agente sólidas y mayor seguridad, todo a un precio de token más accesible que sus predecesores. Aunque su salida de frontend y la relación costo‑rendimiento siguen quedando detrás de Gemini 3, Opus 4.5 sobresale en desarrollo backend y tareas de razonamiento complejo. Para desarrolladores y organizaciones que priorizan una generación robusta de backend y están dispuestos a invertir en rendimiento de alto nivel, Opus 4.5 es una opción muy atractiva. Combinarlo con un modelo enfocado en frontend como Gemini 3 podría proporcionar un flujo de trabajo equilibrado y rentable para el desarrollo full‑stack.

Ver Video Original