05/12/2025

Deepseek V3.2 Speciale e Mistral Large 3 testados – Modelos de código aberto voltam ao destaque

Introdução

O ecossistema de grandes modelos de linguagem (LLM) de código aberto vivenciou um renascimento com o lançamento de dois modelos de alto perfil: Deepseek V3.2 Speciale e Mistral Large 3. Ambos os projetos surgem de desenvolvedores veteranos de código aberto — Deepseek, conhecida por suas séries V3 e R1, e Mistral, uma das primeiras empresas ocidentais a disponibilizar modelos competitivos sob licença permissiva. Este artigo examina as inovações arquiteturais, o desempenho em benchmarks e as implicações práticas desses novos lançamentos.

Contexto: A Evolução dos LLMs de Código Aberto

Deepseek ganhou destaque com a arquitetura V3, oferecendo desempenho sólido em diversas tarefas enquanto permanecia acessível à comunidade.
Mistral causou impacto com o modelo Mistral‑Nemo de 32 bilhões de parâmetros, elogiado por sua eficiência em execução local. Contudo, lançamentos posteriores sofreram com licenças restritivas e falta de transparência, diminuindo seu apelo.

Ambas as empresas retornaram agora com modelos atualizados que prometem resultados de estado‑da‑arte (SOTA) mantendo licenças abertas.

Deepseek V3.2 Speciale – Arquitetura e Atenção Esparsa

Design Central

O V3.2 da Deepseek baseia‑se na arquitetura V3 original, mas introduz a DeepSeek Sparse Attention (DSA), um mecanismo de atenção inovador que mitiga o custo quadrático da atenção tradicional de transformers. A DSA utiliza um “indexador relâmpago” para classificar tokens por relevância e atender apenas aos k mais importantes, reduzindo efetivamente a complexidade computacional enquanto preserva a qualidade de um modelo denso.

Comprimento de Contexto e Eficiência

Contexto máximo: 128 000 tokens
Redução de computação: Significativa, permitindo inferência acessível mesmo em hardware modesto ou instâncias de nuvem.

Variante “Speciale”

A Deepseek lançou dois checkpoints:

General V3.2 – o modelo padrão, sem foco em raciocínio.
Speciale – modelo dedicado ao raciocínio que relaxa penalidades de comprimento durante o treinamento, permitindo gerar cadeias de raciocínio mais longas e coerentes sem ajustes na inferência.

Ambos os checkpoints estão disponíveis publicamente no Hugging Face e foram integrados a serviços de roteamento como OpenRouter e Kylo Code.

Mistral Large 3 – Recursos e Benchmarks

Portfólio de Modelos

A última suíte da Mistral inclui:

Mistral Large 3 – modelo de 45 bilhões de parâmetros mixture‑of‑experts (MoE) que ativa cerca de 41 bilhões de parâmetros por token.
Variantes menores: Mistral 31‑4B, 8B e 3B.

A abordagem MoE espelha a arquitetura da Deepseek, oferecendo um equilíbrio entre número de parâmetros e velocidade de inferência.

Capacidade de Raciocínio

O Mistral Large 3 é comercializado como um modelo não‑raciocinador; destaca‑se em geração de código e chamada de ferramentas, mas não é especializado em raciocínio em cadeia de pensamento. Essa distinção é importante ao escolher um modelo para tarefas específicas.

Resultados Comparativos de Benchmark

O autor avaliou ambos os modelos em um conjunto personalizado que abrange geração de geometria, criação de SVG, renderização 3D, arte estilo game e tarefas de programação. A seguir, um resumo do desempenho observado:

Deepseek V3.2 (General) – Principais Constatações

Geração de planta baixa: Texto incoerente, falha ao entregar um layout 3D.
SVG de panda: Melhor que o Mistral, mas ainda atrás dos modelos de ponta.
Pokéball em Three.js: Principalmente correto; falta um pequeno elemento de UI (botão).
Tabuleiro de xadrez com autoplay: Renderização precisa e sequência lógica de movimentos.
Clone de Minecraft estilo Kandinsky: Saída inutilizável.
Ilustração de borboleta majestosa: Baixa fidelidade visual, lembrando gráficos de início dos anos 2000.
Código de ferramenta CLI em Rust: Não funcional.
Script para Blender: Falhou ao executar.
Enigmas matemáticos: Mistos; enigmas simples resolvidos, problemas aritméticos frequentemente incorretos.

Mistral Large 3 – Principais Constatações

Planta baixa (3D): Geração pobre, não atende aos requisitos espaciais.
SVG de panda: Proporções corporais inconsistentes.
Pokéball em Three.js: Objetos fora de lugar, dimensões imprecisas.
Tabuleiro de xadrez autoplay: Não funcional.
Clone de Minecraft: Falta coerência.
Ilustração de borboleta: Aceitável, mas nada impressionante.
Ferramenta CLI em Rust: Código não funciona.
Script para Blender: Não produziu os resultados esperados.
Problemas matemáticos: Geralmente não resolvidos.

Posicionamento no Leaderboard

Deepseek V3.2 (General): Classificado em 11º lugar no leaderboard público de LLMs, superando modelos como GPT‑5.1 CEX e GLM.
Deepseek Speciale (Raciocínio): Posicionado abaixo devido à instabilidade nas respostas da API e geração de código com bugs.
Mistral Large 3: Ocupa a 27ª posição, respeitável, porém atrás dos principais concorrentes de código aberto.

Os resultados indicam que, embora ambos os modelos sejam competitivos, ainda ficam atrás das alternativas de código aberto mais refinadas, como GLM, MiniMax e Kimmy.

Disponibilidade e Integração

Pesos do modelo: Hospedados no Hugging Face tanto para o checkpoint geral quanto para o Speciale.
Serviços de roteamento: Integrados ao OpenRouter e ao Kylo Code, facilitando o acesso via API.
Chamada de ferramentas: Ambos demonstram desempenho sólido em cenários de tool‑calling, tornando‑os adequados para automação de fluxos de trabalho.

Desenvolvedores interessados em experimentar esses modelos podem baixar os pesos diretamente do Hugging Face e implantá‑los usando qualquer biblioteca padrão de transformers (por exemplo, 🤗 Transformers, vLLM).

Conclusão

O lançamento do Deepseek V3.2 Speciale e do Mistral Large 3 marca um retorno significativo para desenvolvedores veteranos de LLMs de código aberto. A arquitetura de atenção esparsa da Deepseek oferece eficiência impressionante em janelas de contexto muito longas, enquanto o checkpoint Speciale tenta avançar nas capacidades de raciocínio. O modelo MoE‑based Large 3 da Mistral entrega forte desempenho em geração de código, mas fica aquém em tarefas de raciocínio.

Comparações de benchmark revelam que ambos os modelos são competitivos, porém ainda não dominantes no cenário de código aberto. Eles ocupam posições respeitáveis em leaderboards públicos e fornecem alternativas valiosas para desenvolvedores que buscam modelos permissivamente licenciados com boas habilidades de tool‑calling.

À medida que a comunidade de código aberto continua a iterar, esses lançamentos ressaltam a importância da inovação arquitetural (atenção esparsa, mixture‑of‑experts) e da licença transparente na definição da próxima geração de modelos de IA acessíveis.