- Geração nativa sincronizada de vídeo e áudio
- Cinco entradas multimodais: texto, imagem, vídeo, máscara e áudio
- Saída em 1080p com movimento cinematográfico a 32 FPS
- Inpainting em nível de região para editar partes específicas de um vídeo
- Suporte a referência de personagem para consistência entre cenas
- Sincronização labial multilíngue e geração de fala
- Cortes de câmera sensíveis ao ritmo para clipes guiados por música
- Acesso via API REST e webhook através do APIMart