Deepseek V3.2 Speciale y Mistral Large 3 probados – Los modelos de código abierto vuelven al centro de atención
Deepseek V3.2 Speciale y Mistral Large 3 probados – Los modelos de código abierto vuelven al centro de atención
Introducción
El ecosistema de modelos de lenguaje grande (LLM) de código abierto ha experimentado un resurgimiento con el lanzamiento de dos modelos de alto perfil: Deepseek V3.2 Speciale y Mistral Large 3. Ambos proyectos provienen de desarrolladores veteranos de código abierto: Deepseek, conocido por sus series V3 y R1, y Mistral, una de las primeras compañías occidentales en ofrecer modelos competitivos con licencias permisivas. Este artículo examina las innovaciones arquitectónicas, el rendimiento en benchmarks y las implicaciones prácticas de estos nuevos lanzamientos.
Antecedentes: La evolución de los LLM de código abierto
- Deepseek ganó notoriedad con la arquitectura V3, ofreciendo un rendimiento sólido en una variedad de tareas mientras seguía siendo accesible para la comunidad.
- Mistral causó un impacto notable con el modelo Mistral‑Nemo de 32 mil millones de parámetros, elogiado por su eficiencia en ejecución local. Sin embargo, versiones posteriores sufrieron por licencias restrictivas y falta de transparencia, lo que disminuyó su atractivo.
Ambas compañías han regresado ahora con modelos actualizados que prometen resultados de última generación (SOTA) sin abandonar las licencias abiertas.
Deepseek V3.2 Speciale – Arquitectura y atención dispersa
Diseño central
Deepseek V3.2 se basa en la arquitectura V3 original pero introduce DeepSeek Sparse Attention (DSA), un mecanismo de atención novedoso que mitiga el coste cuadrático de la atención tradicional de transformadores. DSA emplea un “indexador relámpago” para ordenar los tokens por relevancia y atender solo a los k más importantes, reduciendo efectivamente la complejidad computacional mientras conserva la calidad de un modelo denso.
Longitud de contexto y eficiencia
- Contexto máximo: 128 000 tokens
- Reducción de cómputo: significativa, lo que permite inferencia asequible incluso en hardware modesto o instancias en la nube.
Variante “Speciale”
Deepseek lanzó dos checkpoints:
- General V3.2 – el modelo estándar, sin razonamiento.
- Speciale – un modelo dedicado al razonamiento que relaja las penalizaciones de longitud durante el entrenamiento, permitiendo generar cadenas de razonamiento más largas y coherentes sin necesidad de ajustes en tiempo de inferencia.
Ambos checkpoints están disponibles públicamente en Hugging Face y se han integrado en servicios de enrutamiento como OpenRouter y Kylo Code.
Mistral Large 3 – Características y benchmarks
Portafolio de modelos
La última suite de Mistral incluye:
- Mistral Large 3 – un modelo de mezcla de expertos (MoE) de 45 mil millones de parámetros que activa aproximadamente 41 mil millones de parámetros por token.
- Variantes más pequeñas: Mistral 31‑4B, 8B y 3B.
El enfoque MoE refleja la arquitectura de Deepseek, ofreciendo un equilibrio entre número de parámetros y velocidad de inferencia.
Capacidad de razonamiento
Mistral Large 3 se comercializa como un modelo sin razonamiento; sobresale en generación de código y llamadas a herramientas, pero no está especializado en razonamiento tipo cadena de pensamiento. Esta distinción es importante al elegir un modelo para tareas específicas downstream.
Resultados comparativos de benchmarks
El autor evaluó ambos modelos en una suite personalizada que abarca generación de geometría, creación de SVG, renderizado 3D, arte estilo juego y tareas de programación. A continuación, un resumen del desempeño observado:
Deepseek V3.2 (General) – Hallazgos clave
- Generación de plano: texto incoherente, no entrega un diseño 3D.
- Panda SVG: mejor que Mistral pero todavía por detrás de los modelos de primer nivel.
- Pokéball en Three.js: mayormente correcto; falta un elemento UI menor (botón).
- Tablero de ajedrez con autoplay: renderizado preciso y secuencia lógica de movimientos.
- Clon de Minecraft estilo Kandinsky: salida inutilizable.
- Ilustración de mariposa majestuosa: baja fidelidad visual, reminiscentes de gráficos de principios de los 2000.
- Código de herramienta CLI en Rust: no funcional.
- Script de Blender: no se ejecuta.
- Acertijos matemáticos: mixtos; acertijos simples resueltos, problemas aritméticos a menudo incorrectos.
Mistral Large 3 – Hallazgos clave
- Plano (3D): generación deficiente, no cumple con los requisitos espaciales.
- Panda SVG: proporciones corporales inconsistentes.
- Pokéball en Three.js: objetos mal posicionados, dimensiones inexactas.
- Tablero de ajedrez autoplay: no funcional.
- Clon de Minecraft: carece de coherencia.
- Ilustración de mariposa: aceptable pero poco impresionante.
- Código de herramienta CLI en Rust: código no funciona.
- Script de Blender: no produce los resultados esperados.
- Problemas matemáticos: generalmente no resueltos.
Posición en el leaderboard
- Deepseek V3.2 (General): ubicado en el 11.º puesto del leaderboard público de LLM, superando a modelos como GPT‑5.1 CEX y GLM.
- Deepseek Speciale (Razonamiento): posición inferior debido a inestabilidad en las respuestas de la API y generación de código con errores.
- Mistral Large 3: ocupa el 27.º lugar, respetable pero por detrás de los principales competidores de código abierto.
Los resultados indican que, aunque ambos modelos son competitivos, aún quedan rezagados frente a alternativas de código abierto más pulidas como GLM, MiniMax y Kimmy.
Disponibilidad e integración
- Pesos del modelo: alojados en Hugging Face tanto para el checkpoint general como para Speciale.
- Servicios de enrutamiento: integrados con OpenRouter y Kylo Code, facilitando el acceso vía API.
- Llamadas a herramientas: ambos modelos demuestran un rendimiento sólido en escenarios de tool‑calling, lo que los hace aptos para automatización de flujos de trabajo.
Los desarrolladores interesados en experimentar con estos modelos pueden descargar los pesos directamente de Hugging Face y desplegarlos usando cualquier biblioteca estándar de transformadores (p. ej., 🤗 Transformers, vLLM).
Conclusión
El lanzamiento de Deepseek V3.2 Speciale y Mistral Large 3 representa un regreso notable para los veteranos desarrolladores de LLM de código abierto. La arquitectura de atención dispersa de Deepseek brinda una eficiencia impresionante en ventanas de contexto muy largas, mientras que el checkpoint Speciale intenta impulsar las capacidades de razonamiento. El modelo MoE de Mistral, Large 3, ofrece un rendimiento fuerte en generación de código pero se queda corto en tareas de razonamiento.
Las comparaciones de benchmarks revelan que ambos modelos son competitivos pero aún no dominantes en el panorama de código abierto. Ocupan posiciones respetables en los leaderboards públicos y proporcionan alternativas valiosas para desarrolladores que buscan modelos con licencias permisivas y buenas habilidades de tool‑calling.
A medida que la comunidad de código abierto sigue iterando, estos lanzamientos subrayan la importancia de la innovación arquitectónica (atención dispersa, mezcla de expertos) y la licencia transparente para definir la próxima generación de modelos de IA accesibles.