- Nativ synchronisierte Video- und Audiogenerierung
- Fünf multimodale Eingaben: Text, Bild, Video, Maske und Audio
- 1080p-Ausgabe mit 32 FPS kinoreifer Bewegung
- Regionenbasiertes Inpainting zum Bearbeiten bestimmter Videobereiche
- Charakter-Referenzunterstützung für Konsistenz über mehrere Aufnahmen hinweg
- Mehrsprachige Lippensynchronisation und Spracherzeugung
- Beat-bewusste Kameraschnitte für musikgetriebene Clips
- REST-API- und Webhook-Zugriff über APIMart