Helios: o modelo open-source de vídeo da ByteDance que promete gerar vídeos em “tempo real”

ByteDance lançou oficialmente o Helios, um modelo de geração de vídeo de 14 bilhões de parâmetros, em parceria com pesquisadores da Peking University e da Canva.

O anúncio foi publicado em 9 de março de 2026 e traz o diferencial de ter sido liberado sob licença Apache 2.0, permitindo uso comercial, modificações e redistribuição.

O Helios foi projetado para atacar duas dores clássicas de vídeos gerados por IA: a lentidão na inferência e a perda de coerência visual em vídeos mais longos, o chamado “drifting”.

Uma das novidades mais comentadas é o foco em velocidade de inferência, com a versão destilada alcançando 19,5 frames por segundo em uma única GPU NVIDIA H100.

Esse ganho de desempenho vem de uma técnica de distilação chamada Adversarial Hierarchical Distillation, que reduz o número de passos de difusão de cerca de 50 para apenas 3 em cenários rápidos.

Segundo os responsáveis pelo projeto, essa aceleração não depende de artifícios comuns como KV-caching, quantização agressiva ou atenção esparsa, mantendo a fidelidade visual.

Além da velocidade, o Helios também foca em geração de vídeos de escala de minutos com mínima degradação visual.

Para isso, a arquitetura usa estratégias como RoPE relativo e ancoragem no primeiro frame para preservar consistência ao longo de milhares de frames.

Os autores afirmam que o modelo mantém coerência por longos trechos, suportando vídeos contínuos de até 60 segundos com drift reduzido.

Na parte de infraestrutura, há otimizações que permitem hospedar múltiplas instâncias do modelo em uma única GPU de 80 GB, o que facilita testes e inferência em ambientes limitados.

O Helios foi concebido como uma arquitetura unificada capaz de lidar nativamente com Text-to-Video, Image-to-Video e Video-to-Video, simplificando fluxos de trabalho de pesquisa e produto.

Foram disponibilizadas três variantes do modelo para diferentes necessidades: uma versão Base para máxima qualidade, uma Mid que equilibra velocidade e fidelidade usando um esquema predictor-corrector, e a Distilled, otimizada para velocidade com apenas 3 passos.

Os pesos da versão destilada estão hospedados no Hugging Face no repositório multimodalart/Helios-Distilled, e o código-fonte está disponível no GitHub em PKU-YuanGroup/Helios.

Também há integração “Day 0” com ferramentas populares da comunidade como ComfyUI, Diffusers e vLLM-Omni, facilitando a experimentação imediata.

O projeto inclui demonstrações de vídeo e exemplos de saída, como o arquivo Helios_Features_720P, que ajudam a avaliar qualidade e performance na prática.

Para desenvolvedores, a licença Apache 2.0 é um convite para experimentar o Helios em produtos comerciais, desde que observadas as melhores práticas e responsabilidades éticas no uso de modelos generativos.

Ainda assim, é importante lembrar que desempenho de inferência e qualidade final dependem de hardware adequado e do pipeline de engenharia que você montar ao redor do modelo.

Se você trabalha com criação de conteúdo, ferramentas de vídeo ou pesquisa em visão computacional, vale a pena conferir o repositório e testar as diferentes versões do Helios.

O lançamento representa mais um passo significativo na democratização de modelos de vídeo avançados, ao combinar acesso aberto com avanços práticos em velocidade e coerência temporal.

Para explorar o Helios na prática, acesse os repositórios oficiais e as integrações mencionadas e acompanhe as demonstrações e documentação disponibilizadas pelos autores.

Total
0
Shares
Artigo anterior

Negócio de US$100 bilhões entre Nvidia e OpenAI esfriou

Próximo artigo

Nscale levanta US$ 2 bilhões e vira peça-chave da infraestrutura de IA com apoio da Nvidia.



Artigos relacionados