Token mais barato, já a fatura de IA cada dia maior.
Nos últimos dois anos, o custo por token caiu cerca de 10x. Pressão competitiva entre provedores, modelos mais eficientes, opções abertas como DeepSeek expandindo o leque. A expectativa lógica era de fatura menor. Foi o oposto: o consumo subiu mais de 100x no mesmo período.
Até aqui, o grande ganhador da corrida pela IA são os hyperscalers que operam os datacenters.
Capex de meio trilhão
O Google Cloud fechou o primeiro trimestre de 2026 com mais de 20 bilhões de dólares em receita, crescimento de 63% no ano. No mesmo trimestre, a Alphabet gastou 35,7 bilhões em capex. 60% em servidores, 40% em datacenter e rede.
Microsoft, Google e AWS juntos devem investir mais de meio trilhão de dólares em capex em 2026.
Esse capital está sendo derramado pra absorver a conta de IA que está saindo do bolso das empresas que adotaram a tecnologia. E ela está crescendo mais rápido que a eficiência por token.
O paradoxo na conta do cliente
A AT&T é o caso público mais limpo dessa conta. A operadora processa 27 bilhões de tokens por dia. Há poucos meses, eram 8 bilhões. Mais que triplicou. No meio do caminho, rearquitetaram a camada de orquestração com agentes pequenos coordenados por modelos maiores, e cortaram 90% do custo unitário. Mesmo assim, a fatura total subiu, porque o consumo cresceu mais rápido que a economia por unidade.
Quem leu economia industrial reconhece o padrão. Paradoxo de Jevons.
Quando um recurso fica mais barato de usar, o consumo cresce mais que o preço cai.
Foi assim com carvão, foi assim com banda. Está sendo assim com inferência.
Mudou o cargo
Pra quem está no orçamento de TI, é mudança estrutural.
O CTIO das safras 2023 e 2024 entrou em reunião de board pedindo verba pra começar a usar IA. O CTIO de 2026 entra na mesma reunião pra explicar por que o número absoluto continua subindo mesmo com cada chamada custando uma fração do que custava no ano passado.
Mudou o cargo.
A função antiga era ativar adoção. Convencer áreas de negócio, escolher pilotos, mostrar primeiro caso de uso. A função nova é arquitetar consumo. Decidir o que vale rodar em modelo grande e o que basta rodar em modelo pequeno. Definir quem tem direito a chamar quanto. Dimensionar a esteira de inferência sem capex que vira ativo encalhado em dois trimestres.
A métrica distorcida
O lado dos hyperscalers entendeu antes do lado dos clientes. A Anthropic anunciou recentemente que está migrando de cobrança flat enterprise pra cobrança por token. A justificativa pública foi alinhar receita com uso real. A justificativa operacional é mais direta: medir adoção em tokens consumidos virou métrica distorcida. Meta e Shopify rodam leaderboards internos do quanto cada funcionário gasta de inferência. A NVIDIA disse publicamente que ficaria alarmadase um engenheiro de 500 mil dólares anuais não consumisse pelo menos 250 mil em compute. Quando a empresa começa a medir IA por volume, o funcionário otimiza pelo volume, não pelo resultado.
E é aqui que o CTIO entra de novo. Porque a próxima conversa de board não vai ser sobre quanto a empresa está consumindo. Vai ser sobre quanto desse consumo está virando produto.
Essa pergunta não tem resposta arquitetural. Tem resposta política. Quem responde é quem opera, mas precisa traduzir pra quem assina o cheque.
Os hyperscalers continuam construindo. O Google Cloud sozinho contratou 800% mais receita em produtos com Gemini no ano. Microsoft e AWS estão na mesma curva. Datacenter é o ativo do momento, e nenhum dos três está parando.
A questão dentro de casa não é se a fatura vai parar de crescer. Não vai, pelo menos enquanto a curva de consumo seguir esse ritmo. A questão é se cada nova linha do extrato corresponde a uma decisão de arquitetura ou a um buraco que ninguém está olhando.
Token barato virou matéria-prima do crescimento da fatura.
Sem spam, sem compartilhamento com terceiros. Apenas você e eu.