Tokenmaxxing saiu do controle: como o Token Tuner da Lanai ajuda a salvar orçamentos de IA

Tokenmaxxing — o hábito de confundir quantidade de tokens usados com produtividade — tem feito orçamentos estourarem e gerado desperdício; ferramentas como o Token Tuner da Lanai chegam para mapear onde os tokens são gastos, relacionar consumo a fluxos de trabalho e recomendar quando modelos mais baratos entregam o mesmo resultado, mudando o foco de uso por si só para resultados mensuráveis.

O tokenmaxxing virou um problema real nas empresas: uso desenfreado de tokens está fazendo orçamentos explodirem e confundindo consumo com produtividade.

Um caso recente na Uber deixou isso claro, quando a empresa percebeu que o orçamento previsto para uso do Anthropic Claude Code já tinha sido ultrapassado e a liderança precisou repensar prioridades.

Como chegou a dizer o COO Andrew Macdonald, “Everyone was like, ‘Oh, head-exploding moment,’” ao falar sobre a necessidade de discutir consumo de tokens versus headcount e justificar trocas como organização de engenharia.

Lexi Reese, cofundadora e CEO da Lanai, resume bem: “Tokenmaxxing is real, it’s expensive and it’s spreading beyond just a few engineers or companies.”

A resposta da Lanai a esse problema se chama Token Tuner, uma ferramenta que identifica onde gastos com tokens podem ser reduzidos ao substituir modelos caros por alternativas mais econômicas sem perder valor.

O software mapeia cada interação de IA até um resultado mensurável e gera uma pontuação de produtividade que mostra quão bem o uso de tokens e a escolha de modelos se alinham à tarefa.

Um exemplo prático citado é que usar um modelo pesado como Opus 4.7 para respostas de e-mail pode resultar em pontuação de eficiência menor do que optar por um modelo menor e mais adequado à tarefa.

Em vez de incentivar tokenmaxxing, a proposta é migrar para outcomemaxxing — analisar quais fluxos realmente melhoram a produtividade e onde faz sentido aplicar serviços mais potentes.

Em um caso na versão beta, um usuário do Token Tuner delegou 4,2% de todas as horas de alavancagem de IA com apenas 0,7% dos tokens, recebendo uma pontuação de eficiência de 6,0 enquanto outros queimavam dez vezes mais tokens por metade da eficiência.

Como explica o CPO Mohit Mehta, “Productivity is estimated by the complexity of work delegated to AI as observed through prompt and tool activity by Lanai’s proprietary models.”

Segundo Mehta, a plataforma agrega interações de prompt e atividade de ferramentas por sessão e roda modelos proprietários para calcular tipo de tarefa, ganho de produtividade e complexidade, o que permite conectar intenção a valor e custo no nível da interação sem necessidade de instrumentação customizada.

Ele também ressalta: “Rather than relying on synthetic evaluations, we utilize observed outcome data. Our recommendations are grounded in how actual users within an organization achieve comparable results across different models.”

Na prática, o Token Tuner entrega visibilidade do valor por fluxo de trabalho, compara gasto de tokens com alavancagem obtida por usuários e equipes, e oferece recomendações para otimizar gastos, identificando workflows fora de controle ou uso de modelos premium desnecessários.

O argumento final é que, além de funcionalidades sofisticadas, uma das próximas grandes demandas por serviços de IA pode ser justamente a eficiência: usar recursos caros apenas quando justificável e preferir soluções fit-for-purpose para o restante.