spdup.net

Noticias tecnológicas

Desenmascarando a Cheetah – Dentro del misterioso modelo de IA de Cursor y su rendimiento


Desenmascarando a Cheetah – Dentro del misterioso modelo de IA de Cursor y su rendimiento

Introducción

Ha aparecido un nuevo modelo de IA llamado Cheetah exclusivamente en la plataforma Cursor, despertando la curiosidad de desarrolladores y entusiastas de la IA. Comercializado como un modelo “stealth” con una estructura de precios por token, las capacidades y la arquitectura subyacente de Cheetah no están claras de inmediato. En este artículo analizamos el precio del modelo, evaluamos su rendimiento en una serie de tareas agentivas, lo comparamos con competidores conocidos como Claude, Sonnet 4.5 y GPT‑5 CodeX, y presentamos las hipótesis más plausibles sobre su verdadera identidad.


¿Qué es Cheetah?

Cheetah se ofrece solo a través de Cursor, un entorno de desarrollo potenciado por IA. El modelo se describe como una oferta “stealth”, lo que significa que no aparece entre los modelos públicos habituales. El acceso requiere una suscripción a Cursor, tras lo cual el uso se factura a 125 USD más 10 USD por millón de tokens tanto de entrada como de salida.

Puntos clave sobre Cheetah:

  • Exclusivo de Cursor – no está disponible mediante ninguna otra API o plataforma.
  • Precio de pago por uso – una tarifa fija más cargos por token, similar a la de Gemini 2.5 Pro y GPT‑5 CodeX.
  • Documentación limitada – Cursor proporciona solo información mínima, dejando los internos del modelo opacos.

Contexto de precios

La estructura de costos de Cheetah refleja la de varios modelos de alta gama en el mercado:

  • Gemini 2.5 Pro – tarifas por token idénticas.
  • GPT‑5 CodeX – niveles de precios comparables.
  • Claude Sonnet 4.5 – suscripciones similares para usuarios intensivos.

Esta coincidencia de precios sugiere que Cheetah podría ser una versión reempaquetada de un modelo existente en lugar de una arquitectura completamente nueva.


Metodología de pruebas

Para evaluar a Cheetah se ejecutó una serie de pruebas agentivas. Estas pruebas simulan tareas de desarrollo realistas, tales como:

  1. Construir una aplicación de seguimiento de películas que use componentes de Radix UI.
  2. Crear un tablero Kanban con autenticación y base de datos.
  3. Desarrollar un sitio de preguntas y respuestas al estilo Stack Overflow.
  4. Implementar una herramienta de recorte de imágenes.

Para cada tarea, la salida del modelo se comparó con los resultados de Claude Code, Sonnet 4.5 y GPT‑5 CodeX. El éxito se midió por la completitud funcional, la corrección del código y la capacidad de resolver errores de forma autónoma.


Comparación de rendimiento

Aplicación de seguimiento de películas (Radix UI)

  • Claude Code produjo una implementación correcta con errores mínimos.
  • Sonnet 4.5 generó una respuesta similar pero mostró un patrón de error conocido de “Radix UI”.
  • Cheetah entregó una solución comparable, pero con deficiencias más notorias, sin resolver de forma fiable el problema de Radix UI.

Tablero Kanban con autenticación y base de datos

  • Claude Code entregó un prototipo completamente funcional.
  • Cheetah se acercó, pero dejó varios bugs que no pudo corregir automáticamente.
  • GPT‑5 CodeX también tuvo dificultades, produciendo código incompleto.

Sitio estilo Stack Overflow

  • Tanto Claude Code como Cheetah fallaron en producir una versión funcional, lo que indica la dificultad de la tarea para los modelos agentivos actuales.

Recortador de imágenes

  • La tarea resultó un fracaso para Cheetah, Sonnet 4.5 y GPT‑5 CodeX, cada uno devolviendo fragmentos no funcionales.

En conjunto, el rendimiento de Cheetah se sitúa entre Claude Code y Sonnet 4.5, a menudo por detrás de Claude Code pero ocasionalmente igualando a Sonnet en prompts más simples.


Indagando la identidad del modelo

Se realizaron una serie de experimentos con system‑prompts para obligar a Cheetah a revelar su nombre interno. Los resultados fueron intrigantes:

  • Cuando se le preguntó directamente, Cheetah se identificó repetidamente como Claude.
  • Las instrucciones del sistema mostraron una descripción genérica: “Eres el modelo de lenguaje misterioso Cheetah de un proveedor desconocido.”

Estas observaciones implican que Cheetah podría estar fuertemente ajustado (fine‑tuned) con salidas al estilo Claude. Surgieron varias hipótesis:

1. Variante basada en Grok

  • Grok Code muestra un comportamiento similar: puede ser inducido a romper restricciones de rol y luego admite ser “tipo Claude” debido a un amplio entrenamiento con datos de Claude.
  • Registros de API de otros servicios muestran modelos Grok apareciendo junto a entradas de GPT‑5, lo que respalda la idea de que Cheetah podría ser un modelo derivado de Grok reempaquetado para Cursor.

2. Sonnet 4.5 Fast‑Edit

  • Históricamente, Anthropic lanzó un modelo Sonnet 3.5 Fast‑Edit a un grupo limitado de usuarios Zed. Se destacó por su alta velocidad y calidad de salida casi idéntica a la de Sonnet estándar.
  • La velocidad y el precio de Cheetah se asemejan a esta línea, pero sus brechas funcionales sugieren que no es un verdadero Sonnet 4.5 Fast‑Edit.

3. Modelo entrenado internamente por Cursor

  • Cursor podría haber entrenado un modelo propio con conjuntos de datos derivados de Claude, similar a enfoques de otros proveedores (p. ej., WindSurf).
  • Sin embargo, lograr una similitud tan matizada con Claude sin una licencia directa sería complicado, lo que hace menos probable esta hipótesis.

4. Variante rápida de GPT‑5 CodeX

  • Algunos registros de API listan modelos GPT‑5 cerca de la entrada de Cheetah, insinuando una posible versión en modo rápido.
  • Las discrepancias de rendimiento, especialmente en una identidad directa con GPT‑5.

La conclusión más plausible es que Cheetah es un modelo derivado de Grok (posiblemente un sucesor de Grok Code Fast) que ha sido afinado con datos al estilo Claude, lo que explica tanto la similitud de precios como su tendencia a afirmar que es Claude.


Implicaciones para los desarrolladores

  • Transparencia de costos – El precio por token se alinea con modelos premium, por lo que los desarrolladores deben presupuestar en consecuencia para usos intensivos.
  • Compensaciones de rendimiento – Aunque Cheetah ofrece respuestas rápidas, su fiabilidad en tareas agentivas complejas queda por detrás de modelos de primera línea como Claude Code.
  • Bloqueo del proveedor – Al ser exclusivo de Cursor, cambiar a otra plataforma implicaría reevaluar las opciones de modelo.

Conclusión

Cheetah representa una adición intrigante al conjunto de herramientas de IA de Cursor: un modelo rápido y “stealth” con precios similares a otras ofertas premium, pero que entrega resultados inconsistentes en tareas de desarrollo exigentes. A través de pruebas sistemáticas y de indagación, la evidencia apunta a que Cheetah es un modelo basado en Grok, fuertemente afinado con salidas de Claude, más que un verdadero Sonnet 4.5 Fast‑Edit o una variante pura de GPT‑5.

Para los desarrolladores que ponderan sus opciones de modelo de IA, Cheetah puede ser útil para generación de código rápida y de baja complejidad, pero para flujos de trabajo agentivos críticos o intrincados, los modelos consolidados como Claude Code o Gemini 2.5 Pro siguen siendo la apuesta más segura.

Ver Video Original