abr 13, 2026

A inteligência do Claude Code encolheu, mas o preço não.

Até que ponto a nossa dependência da qualidade do LLM pode comprometer a nossa, ainda embrionária, confiança na IA?

Quando uma executiva de IA da AMD publica uma análise com quase 7 mil sessões documentadas mostrando que o modelo que ela usa todo dia ficou pior, a reação natural é acreditar nos dados. Quando a empresa dona do modelo responde que mudou configurações padrão pra otimizar a experiência do usuário médio, a reação natural também é acreditar.

O problema é que as duas coisas são verdade ao mesmo tempo.

É o que está acontecendo com o Claude da Anthropic nas últimas semanas. Desenvolvedores, usuários enterprise e quem paga entre US$20 e US$200 por mês começaram a relatar que o Opus 4.6 ficou menos capaz em tarefas complexas de código, mais propenso a abandonar raciocínios no meio e menos confiável que semanas atrás.

O termo que grudou foi "AI shrinkflation": mesmo rótulo, mesmo preço, produto diferente por dentro.

A Anthropic não ficou em silêncio dessa vez. Funcionários responderam publicamente que o Claude Code passou a usar "effort médio" como padrão, que blocos de raciocínio interno passaram a ser resumidos na interface, e que essas mudanças estavam documentadas no changelog. Quem opera sabe que changelog não é a mesma coisa que comunicação. Já vi fornecedor documentar mudança de comportamento de API numa nota de rodapé de release notes e depois argumentar que "estava tudo lá". Estava. Ninguém leu. O impacto chegou antes do aviso.

Esse filme já passou. Em setembro de 2025, a Anthropic publicou um postmortem detalhado revelando três bugs de infraestrutura que degradaram respostas do Claude por semanas. Erros de roteamento mandavam requisições pra servidores errados. Uma misconfiguração de TPU gerava caracteres em tailandês e chinês no meio de respostas em inglês. Um bug de compilador fazia o modelo excluir o token mais provável durante a geração de texto. Em todos os casos, as métricas internas não capturaram o problema. Quem capturou foram os usuários.

O padrão se repete com uma precisão incômoda. Usuários percebem degradação. A empresa investiga. Descobre que o problema é real, mas diferente do que a narrativa viral sugere. Publica explicação técnica.

A confiança, que já tinha ido embora, demora pra voltar.

Mas o ponto que importa pra quem opera não é se a Anthropic "nerfou" o Claude de propósito. Essa é a pergunta errada. A pergunta certa é: o que acontece quando você constrói um fluxo de trabalho crítico em cima de um modelo que pode mudar de comportamento sem aviso prévio e sem que você tenha como auditar a mudança?

Você não tem SLA de inteligência.

Tem SLA de uptime, de latência, de throughput. Mas ninguém te garante que o modelo de terça vai raciocinar como o de segunda. Não existe contrato que cubra "o modelo ficou mais burro". E quando uma configuração padrão muda de "máximo esforço" pra "esforço médio" pra economizar tokens do usuário médio, quem paga o preço é o usuário que depende do esforço máximo pra tarefas complexas.

Uns acham que a empresa degrada modelos velhos pra forçar migração pros novos. Outros confiam no changelog e seguem em frente. Os dois lados estão olhando pro lugar errado.

O problema é estrutural: modelos de IA servidos como serviço não têm o mesmo contrato de estabilidade que software tradicional. Um banco de dados não muda o comportamento de uma query porque o fornecedor decidiu otimizar pra o caso de uso médio. Um modelo de linguagem pode.

Pra quem gerencia infraestrutura, a lição prática é uma só: trate modelos de IA como dependências voláteis. Monitore outputs, não só disponibilidade. Tenha fallback. E quando o fornecedor disser que nada mudou, confie nos seus testes antes de confiar no changelog.

O modelo que você contratou ontem pode não ser o modelo que te atende hoje. Não por malícia. Por arquitetura.

Inscreva-se na minha newsletter mensal

Sem spam, sem compartilhamento com terceiros. Apenas você e eu.