HappyHorse 1.0 est un modèle multimodal de génération vidéo par IA conçu pour produire des vidéos de qualité diffusion avec audio natif. Il génère une sortie 1080p en une seule passe et aligne la parole sur le mouvement des lèvres avec une précision subpixel. Le modèle prend en charge la génération texte-vers-vidéo et image-vers-vidéo, ce qui le rend utile pour les publicités, les explications, les aperçus et les contenus localisés. Il gère également sept langues pour la synchronisation labiale, dont l’anglais, le mandarin, le cantonais, le japonais, le coréen, l’allemand et le français. Grâce à la synthèse audio intégrée, il supprime le besoin d’un TTS séparé ou d’un assemblage audio en postproduction, offrant ainsi un flux de travail plus rapide et plus intégré.