Il existe un certain nombre d'outils d'IA de conversion de texte en vidéo et, même si la technologie est vraiment impressionnante, il y a toujours quelque chose dans le résultat final qui semble étrange. Il a fallu un certain temps pour identifier le problème, mais tout s’est finalement résumé à une chose : l’effet de la vallée de l’étrange.
Bien que vous puissiez utiliser certains outils basés sur l'IA pour créer des effets visuels dans vos projets vidéo, il n'est pas recommandé d'utiliser l'IA seule pour créer des séquences vidéo, car cela semble trop étrange.
Le plus gros problème des outils de conversion de texte en vidéo basés sur l'IA
La génération de vidéos par l’IA a parcouru un long chemin en peu de temps grâce aux progrès du Deep Learning. En 2023, lorsque la génération de vidéos IA explose, vous vous souviendrez peut-être de ce clip de Will Smith mangeant des spaghettis qui devient viral. Bien que ce type de technologie ait été révolutionnaire à l’époque, il est indéniable qu’elle paraissait artificielle et inconfortable.
En 2024, ces outils de mise en forme vidéo IA s'améliorent, créant des images plus fluides et des mouvements plus réalistes. Regardez la différence entre les vidéos créées avec Runway Gen-2 en 2023 et les vidéos publiées par OpenAI en 2024 pour présenter Sora AI. Sora n'est pas encore disponible pour un usage public, mais la qualité semble prometteuse :
Bien qu’améliorés, les résultats restent peu concluants. Premièrement, Sora n'est pas encore disponible à l'utilisation, nous sommes donc toujours coincés avec des générateurs moins sophistiqués qui peuvent produire des résultats effrayants comme la vidéo spaghetti de Will Smith.
Regardez simplement la vidéo créée avec PixVerse en utilisant l'invite « Une personne marchant dans un parc par une journée ensoleillée, souriant et saluant la caméra. Des oiseaux volent au-dessus et des arbres se balancent doucement dans la brise » . (Traduction approximative : « Une personne se promène dans un parc par une journée ensoleillée, souriant et saluant la caméra. Les oiseaux volent au-dessus et les arbres se balancent doucement dans le vent »).
Les deux premières secondes semblent bien, jusqu'à ce que les doigts, les cheveux et le visage de la personne commencent à disparaître dans les airs ! Même si des outils plus avancés comme Sora apparaissent et nous offrent des vidéos plus précises et plus belles, il y a toujours quelque chose de troublant dans les personnes et les paysages générés par l'IA.
Alors que les modèles plus anciens produisaient souvent des vidéos qui mettaient clairement en valeur l'IA, comme des images de style claymation, les améliorations apportées par les outils plus récents semblent presque trop parfaites.
Contre nature, inconfortable et sans vie. C'est exactement l'effet de la vallée étrange : semblable à celui des humains, mais pas tout à fait.
Peu importe la qualité de ces outils, l’effet de la vallée de l’étrange existe toujours. À moins que vous ne recherchiez un style abstrait et surréaliste que l'on ne voit que dans les rêves, vous ne devriez pas vous fier aux outils de conversion de texte en vidéo de l'IA pour aucun de vos projets vidéo.