mai 03, 2026

Token mais barato, já a fatura de IA cada dia maior.

Este passou a ser o novo dilema do CTIO para defender o CAPEX de investimento em IA

Nos últimos dois anos, o custo por token caiu cerca de 10x. Pressão competitiva entre provedores, modelos mais eficientes, opções abertas como DeepSeek expandindo o leque. A expectativa lógica era de fatura menor. Foi o oposto: o consumo subiu mais de 100x no mesmo período.

Até aqui, o grande ganhador da corrida pela IA são os hyperscalers que operam os datacenters.

Capex de meio trilhão

O Google Cloud fechou o primeiro trimestre de 2026 com mais de 20 bilhões de dólares em receita, crescimento de 63% no ano. No mesmo trimestre, a Alphabet gastou 35,7 bilhões em capex. 60% em servidores, 40% em datacenter e rede.

Microsoft, Google e AWS juntos devem investir mais de meio trilhão de dólares em capex em 2026.

Esse capital está sendo derramado pra absorver a conta de IA que está saindo do bolso das empresas que adotaram a tecnologia. E ela está crescendo mais rápido que a eficiência por token.

O paradoxo na conta do cliente

A AT&T é o caso público mais limpo dessa conta. A operadora processa 27 bilhões de tokens por dia. Há poucos meses, eram 8 bilhões. Mais que triplicou. No meio do caminho, rearquitetaram a camada de orquestração com agentes pequenos coordenados por modelos maiores, e cortaram 90% do custo unitário. Mesmo assim, a fatura total subiu, porque o consumo cresceu mais rápido que a economia por unidade.

Quem leu economia industrial reconhece o padrão. Paradoxo de Jevons.

Quando um recurso fica mais barato de usar, o consumo cresce mais que o preço cai.

Foi assim com carvão, foi assim com banda. Está sendo assim com inferência.

Mudou o cargo

Pra quem está no orçamento de TI, é mudança estrutural.

O CTIO das safras 2023 e 2024 entrou em reunião de board pedindo verba pra começar a usar IA. O CTIO de 2026 entra na mesma reunião pra explicar por que o número absoluto continua subindo mesmo com cada chamada custando uma fração do que custava no ano passado.

Mudou o cargo.

A função antiga era ativar adoção. Convencer áreas de negócio, escolher pilotos, mostrar primeiro caso de uso. A função nova é arquitetar consumo. Decidir o que vale rodar em modelo grande e o que basta rodar em modelo pequeno. Definir quem tem direito a chamar quanto. Dimensionar a esteira de inferência sem capex que vira ativo encalhado em dois trimestres.

A métrica distorcida

O lado dos hyperscalers entendeu antes do lado dos clientes. A Anthropic anunciou recentemente que está migrando de cobrança flat enterprise pra cobrança por token. A justificativa pública foi alinhar receita com uso real. A justificativa operacional é mais direta: medir adoção em tokens consumidos virou métrica distorcida. Meta e Shopify rodam leaderboards internos do quanto cada funcionário gasta de inferência. A NVIDIA disse publicamente que ficaria alarmadase um engenheiro de 500 mil dólares anuais não consumisse pelo menos 250 mil em compute. Quando a empresa começa a medir IA por volume, o funcionário otimiza pelo volume, não pelo resultado.

E é aqui que o CTIO entra de novo. Porque a próxima conversa de board não vai ser sobre quanto a empresa está consumindo. Vai ser sobre quanto desse consumo está virando produto.

Essa pergunta não tem resposta arquitetural. Tem resposta política. Quem responde é quem opera, mas precisa traduzir pra quem assina o cheque.

Os hyperscalers continuam construindo. O Google Cloud sozinho contratou 800% mais receita em produtos com Gemini no ano. Microsoft e AWS estão na mesma curva. Datacenter é o ativo do momento, e nenhum dos três está parando.

A questão dentro de casa não é se a fatura vai parar de crescer. Não vai, pelo menos enquanto a curva de consumo seguir esse ritmo. A questão é se cada nova linha do extrato corresponde a uma decisão de arquitetura ou a um buraco que ninguém está olhando.

Token barato virou matéria-prima do crescimento da fatura.

Inscreva-se na minha newsletter mensal

Sem spam, sem compartilhamento com terceiros. Apenas você e eu.