EMO (Emotive Portrait Alive) est une nouvelle IA générative étudiée par l'Institut d'informatique intelligente (IIC) d'Alibaba avec la capacité de transformer « par magie » n'importe quelle image en paroles et en chants réalistes.
En d’autres termes, l’IA d’Alibaba peut transformer une image de référence statique et un son vocal en une vidéo capable de parler et de chanter avec des expressions naturelles.
Les IA précédentes ne transformaient que la bouche et une partie du visage, tandis qu'EMO peut créer des expressions faciales, des expressions buccales naturelles, une synchronisation précise des lèvres, déplacer les sourcils, froncer les sourcils ou même se balancer au rythme de la musique.
Alibaba a publié quelques vidéos montrant comment les images se transforment en vidéos et chantent des chansons importées à la volée. EMO prend en charge l'anglais, le chinois et de nombreuses autres langues.
Alibaba a révélé que pour qu'EMO puisse créer des expressions faciales réalistes, il a été formé avec une grande quantité de données d'image, d'audio et de vidéo via son propre modèle de diffusion appelé Audio2Video.
Pour relever le défi majeur actuel du réalisme et de l'expressivité dans la génération de vidéos à partir d'images et de sons, l'équipe de recherche s'est concentrée sur la relation et les nuances entre les signaux audio et les mouvements du visage, en contournant le lien intermédiaire du modèle 3D ou les repères du visage, en effectuant une transition transparente entre les images et en préservant la cohérence de la vidéo.
Alibaba n'a pas révélé quand il publierait cette IA au public, mais a publié les données d'EMO sur Github et des articles de recherche publiés sur ArXiv.