Novo modelo de código da ByteDance supera Claude e GPT‑5 em benchmarks, levantando preocupações da Anthropic.
Novo modelo de código da ByteDance supera Claude e GPT‑5 em benchmarks, levantando preocupações da Anthropic.
Introdução
Um lançamento recente da ByteDance, a gigante de tecnologia por trás do TikTok, surpreendeu a comunidade de IA para programação. Seu novo modelo — frequentemente chamado de Dubau Seed Code — supera concorrentes líderes como Claude da Anthropic e o ainda não lançado GPT‑5 em vários benchmarks de codificação, tudo isso custando uma fração do preço. A ascensão rápida desse modelo pode explicar por que a Anthropic teria restringido o acesso ao editor de código Trey, um produto da ByteDance que antes utilizava o Claude.
ByteDance e seu Ecossistema de IA
A ByteDance não é apenas uma potência de redes sociais; tem construído silenciosamente um conjunto de ferramentas de IA, incluindo:
- Trey – um editor de código assistido por IA elogiado por sua interface intuitiva e fluxo de trabalho “modo solo”.
- Volcano API – uma plataforma que expõe os modelos de linguagem da ByteDance a desenvolvedores, embora atualmente limitada a usuários chineses.
- Dubau Seed Code – o mais recente modelo de linguagem grande (LLM) focado em tarefas de engenharia de software.
Essas ofertas ilustram a ambição da ByteDance de competir diretamente com players estabelecidos como OpenAI, Anthropic e Google.
O Editor de Código Trey e sua Relação com a Anthropic
O Trey ganhou popularidade por suas robustas capacidades de completamento de código e pela possibilidade de rodar uma variedade de modelos, alguns dos quais eram inicialmente gratuitos. Contudo, a Anthropic cortou abruptamente o acesso do Trey aos modelos Claude, movimento que lembra decisões controversas anteriores da Anthropic contra outros serviços de terceiros. Embora as motivações exatas permaneçam obscuras, testes internos sugerem que a Anthropic pode se sentir ameaçada pelo modelo de codificação emergente da ByteDance.
Desempenho em Benchmark: SWE‑Bench Verified
Um dos testes mais respeitados para modelos de geração de código é o benchmark SWE‑Bench Verified. A Anthropic historicamente destacou seu desempenho nesse teste, tornando qualquer desafio ao seu ranking particularmente sensível.
Visão Geral dos Resultados
- Dubau Seed Code liderou a tabela, superando o Claude‑Sonnet da Anthropic em cerca de 8 %.
- O modelo também ultrapassou as linhas de base no estilo GPT‑5 e outros sistemas de ponta como os checkpoints Gemini 3.
- No geral, o Dubau Seed Code ficou na 15ª posição entre todos os participantes, com os quatro primeiros lugares ocupados por variantes do Gemini.
Esses resultados demonstram que um modelo relativamente barato pode competir com, e até superar, ofertas premium em um benchmark crítico de codificação.
Vantagens de Custo e Velocidade
Além do desempenho bruto, o Dubau Seed Code destaca‑se por seu preço acessível e inferência rápida:
- Preço: US $17‑$12 por milhão de tokens (aproximadamente 15× mais barato que o Claude‑Sonnet).
- Taxa de processamento: Cerca de 80 tokens por segundo, permitindo respostas quase em tempo real para sessões interativas de codificação.
- Suporte multimodal: O modelo pode processar imagens e vídeo, ampliando sua utilidade além da geração pura de texto.
Esses atributos tornam o modelo atraente para desenvolvedores e empresas que buscam assistência de IA com custo‑efetivo.
Acessando o Modelo Fora da China
Embora a Volcano API exija um número de celular chinês, desenvolvedores ao redor do mundo ainda podem experimentar o Dubau Seed Code via ZenMox (uma plataforma estilo open‑router). O ZenMox oferece:
- Créditos de teste gratuitos para novos usuários.
- Um endpoint de API compatível com Anthropic, permitindo que fluxos de trabalho baseados em Claude migrem para o Dubau Seed Code com alterações mínimas de código.
Essa acessibilidade facilitou testes mais amplos pela comunidade e contribuiu para a rápida adoção do modelo.
Avaliação no Mundo Real
O autor realizou uma série de testes práticos para medir as capacidades do modelo em diferentes domínios.
Tarefas de Codificação e Gráficos
- Geração de planta baixa: Produziu código correto, embora a qualidade visual fosse modesta.
- Panda SVG com hambúrguer: Gráficos reconhecíveis; a interação entre os elementos poderia melhorar.
- Pokéball 3‑JS: Cores e formas precisas; faltou o botão interativo.
- Tabuleiro de xadrez autoplay: Não funcionou como esperado.
- Mapa estilo Minecraft (influência Kandinsky): Gerou efeitos de profundidade impressionantes e terreno aleatório, superando o Sonnet em riqueza visual.
- Animação de borboleta: Voo suave e ambiente atraente, apesar de um modelo de borboleta menos detalhado.
- Ferramenta CLI em Rust: Funcionou corretamente.
- Script para Blender: Não executou com sucesso.
No geral, o modelo alcançou um respeitável 15º lugar no ranking do SWE‑Bench, especialmente notável considerando seu baixo custo.
Benchmarks Agentes (Integração Claw‑Code)
Quando combinado com o Claw‑Code, um conjunto de ferramentas para avaliação de agentes de IA, os resultados foram mistos:
- Aplicativo de rastreamento de filmes: Não funcional, repleto de bugs.
- Simulação God‑game: Diversos erros impediram a execução bem‑sucedida.
- Calculadora TUI em Go: Desempenho excepcional; gerou uma UI totalmente funcional e esteticamente agradável.
- Aplicativo Spelt, app Nux, consulta ao repositório Open‑Code: Todos falharam em produzir resultados utilizáveis.
Esses resultados colocaram o modelo em 12º lugar geral, superando alguns agentes comerciais como o Cursor Composer, mas ficando atrás de sistemas especializados como Kimmy e Quen Code. O autor observa que o modelo parece otimizado para o fluxo de trabalho do Trey, e a dependência de comandos de terminal em vez de operações edit‑diff pode ter prejudicado o desempenho.
Implicações para a Anthropic e o Mercado Mais Amplo
O surgimento de um modelo de codificação de alto desempenho e baixo custo de um provedor chinês desafia a narrativa predominante de que preços premium garantem capacidades superiores. A decisão da Anthropic de restringir o acesso do Trey ao Claude pode ser interpretada como uma manobra defensiva para proteger sua fatia de mercado.
Para os desenvolvedores, a principal lição é que alternativas acessíveis agora existem sem sacrificar muito em termos de qualidade. Essa mudança pode impulsionar a adoção mais ampla de ferramentas de desenvolvimento assistidas por IA, especialmente entre startups e empresas sensíveis a custos.
Conclusão
O modelo Dubau Seed Code da ByteDance oferece uma combinação atraente de desempenho líder em benchmarks, capacidades multimodais e um preço excepcionalmente baixo. Seu sucesso no SWE‑Bench Verified e os resultados competitivos em tarefas agentes demonstram que um modelo menor, bem ajustado, pode rivalizar com pesos‑pesados da indústria como Claude‑Sonnet e o futuro GPT‑5.
A disponibilidade do modelo em plataformas como ZenMox garante que desenvolvedores ao redor do mundo possam experimentá‑lo, potencialmente remodelando o panorama da engenharia de software impulsionada por IA. À medida que o mercado reage, podemos ver uma pressão crescente sobre provedores estabelecidos para repensar estruturas de preços e acessibilidade, beneficiando, em última análise, a comunidade de desenvolvedores como um todo.