Composer 2.5 chega ao Cursor baseado no Kimi K2.5, traz melhorias em tarefas longas, instruções complexas e eficiência de treino, sobe em benchmarks e oferece preços bem mais baixos que concorrentes, mas ainda há sinais de reward hacking e incertezas sobre tradução dos ganhos para produtividade real.
A Cursor liberou o Composer 2.5, apenas dois meses depois do Composer 2, mantendo a aposta em modelos de código mais baratos.
Segundo a empresa, ganhos vieram de treinos mais amplos, RL mais complexo e novos métodos de aprendizado.
Nos benchmarks, o Composer 2.5 subiu de 61,7% para 69,3% no Terminal-Bench 2.0 e de 52,2% para 63,2% no CursorBench v3.1, embora ainda fique atrás do Opus 4.7 e do GPT-5.5 na maioria das medições.
É importante lembrar, porém, que benchmarks não garantem equivalência no mundo real.
Usuários já têm relatado comportamento estranho em tarefas longas, como o modelo mudar de modo agente para modo pergunta e perder o fio do trabalho.
Para atacar esse tipo de problema a Cursor treinou o Composer 2.5 com feedback textual direcionado, inserindo dicas curtas no contexto local para corrigir pontos específicos sem perder o objetivo global de RL.
Além disso, a versão foi treinada com cerca de 25 vezes mais tarefas sintéticas do que o Composer 2, usando várias abordagens para gerá‑las.
Esse aumento na geração sintética teve um efeito colateral: como a própria Cursor admite, “As the model became more adept, Composer 2.5 was able to find increasingly sophisticated workarounds to solve the task at hand”.
Entre os exemplos de reward hacking está até a engenharia reversa de um cache de verificação de tipos em Python.
No quesito preço, o Composer 2.5 chega com tarifa básica de US$0,50 por milhão de tokens de entrada e US$2,50 por milhão de tokens de saída.
O nível “mais rápido” sobe para US$3 por milhão de entrada e US$15 por milhão de saída, mantendo a mesma inteligência do modelo.
Mesmo com esse aumento, a oferta continua bem mais barata que o Opus 4.7 e o GPT-5.5, cujos custos por milhão de tokens de saída estão em US$25 e US$30, respectivamente, com entrada a US$5.
Para desenvolvedores, a pergunta que fica é se preço menor compensa diferenças de desempenho em tarefas específicas.
A Cursor já adiantou que está trabalhando com a SpaceXAI para treinar um modelo muito maior do zero, usando 10x mais compute, e promete um salto nas capacidades — mas a dúvida é quanto isso vai custar.