Kubernetes 1.35 “Timbernetes”: o que a release traz para times que rodem IA/ML

O Kubernetes v1.35, apelidado informalmente de “Timbernetes”, chegou com foco claro em tornar a plataforma mais amigável para cargas de trabalho de inteligência artificial e machine learning.

A versão foi anunciada em 2026-02-23.

Se você mantém infraestrutura para treinamento distribuído ou serviços de inferência, vale a pena entender as novidades da release.

Por que esta versão soa como uma release de infraestrutura para IA

Os sinais são claros: mudanças no agendamento, gestão de dispositivos e no ciclo de vida de Pods foram priorizadas.

Isso reflete como projetos de IA empurram necessidades operacionais que vão além do tradicional “container puro”.

Em resumo: Kubernetes está se posicionando como uma camada operacional compartilhada para workloads de IA.

O que mudou e por que importa

Aqui vão as mudanças que realmente impactam quem opera pipelines de ML ou serviços de inferência em produção.

Primeiro, o agendamento sensível ao tipo de workload recebeu atenção, incluindo suporte a gang scheduling em alpha para cenários de treinamento distribuído.

Gang scheduling facilita garantir que todas as réplicas de um job de treinamento iniciem juntas, reduzindo o tempo de espera e falhas por falta de recursos coordenados.

Segundo, o redimensionamento de recursos de um Pod in-place saiu de estágio instável para estável, o que reduz reinicializações desnecessárias em serviços de inferência.

Com o in-place resize estável, você pode ajustar CPU e memória sem provocar churn, o que é vital para serviços com latência sensível.

Terceiro, a alocação de dispositivos (GPUs, NPUs, etc.) continua evoluindo para se tornar uma capacidade básica do Kubernetes.

Isso significa avanços na forma como dispositivos são atribuídos e isolados, com impactos diretos na eficiência e previsibilidade de workloads de IA.

Quarto, o formato de saída kyaml passou a ser o padrão do kubectl, alterando a experiência de inspeção e edição de recursos no dia a dia.

O KYAML tende a oferecer saídas mais consistentes e previsíveis, beneficiando automações e equipes que manipulam YAML programaticamente.

Implicações para Platform Engineering

As mudanças tornam mais simples padronizar uma camada operacional compartilhada entre times de dados e desenvolvimento.

Plataformistas devem revisar políticas de agendamento, quotas e provisionamento de dispositivos para aproveitar gang scheduling e in-place resize.

Também é hora de revisar pipelines de CI/CD e ferramentas que geram/manipulam YAML, já que o kyaml muda a forma como o kubectl apresenta recursos.

Pequenas mudanças de formato podem quebrar scripts e templates — valide sua cadeia de ferramentas antes de adotar em produção.

Nota do ecossistema: cronograma de aposentadoria do Ingress NGINX

O ecossistema recebeu também um aviso sobre o cronograma de aposentadoria do Ingress NGINX, que impacta quem depende dessa implementação específica.

Times que usam Ingress NGINX precisam planejar migração ou ter uma rota de atualização para evitar surpresas no futuro.

Passos práticos para avaliar o v1.35

Recomendo alguns passos práticos para validar a adoção do v1.35 em ambientes de produção.

1) Teste o gang scheduling em clusters de desenvolvimento com jobs de treinamento distribuído representativos.

2) Valide o in-place Pod resize com serviços de inferência em cenários de carga variada para medir ganhos em estabilidade e latência.

3) Experimente a nova alocação de dispositivos em testes que reproduzam o padrão de uso real de GPUs/NPUs.

4) Atualize e execute suites de testes para suas ferramentas que consomem YAML, garantindo compatibilidade com o kyaml.

5) Avalie políticas de segurança, quotas e admission controllers à luz das novas capacidades para dispositivos e agendamento.

Considerações finais

Kubernetes v1.35 não é apenas mais uma atualização incremental; é uma versão que ajusta o projeto às demandas práticas de cargas de IA/ML.

Para equipes que já estão ou pretendem rodar modelos em escala, essa release traz capacidades que reduzem complexidade operacional e melhoram previsibilidade.

Como sempre: teste com cuidado, atualize suas ferramentas e alinhe times de plataforma e ML para extrair o máximo dessas mudanças.

Total
0
Shares
Artigo anterior

Hypercore levanta US$ 13,5 milhões para levar IA ao gerenciamento de empréstimos privados

Próximo artigo

Profound vira unicórnio: o que a rodada de US$96 milhões significa para quem cria produtos e integrações de IA



Artigos relacionados