Le groupe technologique chinois Alibaba vient d'annoncer un nouveau modèle d'IA appelé QVQ-Max de la série Qwen, marquant une percée dans le domaine de l'IA multimédia. La particularité de ce modèle est la capacité d'analyser le contenu des images/vidéos, puis d'élaborer des arguments et des solutions en fonction des informations obtenues.
Capacité impressionnante
QVQ-Max est décrit par Alibaba comme un pont entre les modèles d'IA purement textuels et le monde réel. Grâce à ses capacités de raisonnement visuel, le système peut :
- Analyser les images et identifier les éléments clés
- Application polyvalente dans de nombreux domaines, de la conception d'illustrations à la création de scripts vidéo en passant par les jeux de rôle de personnages
- Résoudre des problèmes avec des diagrammes (mathématiques, physique)
- Instructions de cuisson étape par étape basées sur des photos de recettes
Alibaba affirme que le modèle permet de combler le fossé entre les IA qui ne traitent que du texte et les informations du monde réel. Grâce à sa capacité de raisonnement visuel, QVQ-Max peut « voir, comprendre et penser » au monde qui l’entoure. L'entreprise met l'accent sur son modèle supérieur en matière d'analyse d'images, d'identification des éléments clés et sur sa flexibilité d'application dans de nombreux domaines tels que la conception d'illustrations, la création de scripts vidéo ou le jeu de rôle.

Comme d'autres chatbots IA, QVQ-Max prend en charge le travail, l'éducation et la vie personnelle, mais grâce à l'intégration visuelle, il résout également des tâches plus spécifiques telles que : résoudre des problèmes de mathématiques/physique avec des diagrammes, des instructions de cuisine via des images de recettes.
Alibaba considère QVQ-Max comme la première version et a défini une feuille de route de mise à niveau pour les versions ultérieures. Tout d’abord, ils voulaient améliorer la précision de la reconnaissance d’images en utilisant des techniques de mise à la terre. Deuxièmement, le modèle sera optimisé pour gérer le multitâche et les problèmes complexes tels que travailler avec des téléphones, des ordinateurs ou jouer à des jeux. À terme, Alibaba prévoit d’étendre ses activités de l’interaction textuelle à la vérification des outils et à la création de contenu d’image.
Les utilisateurs peuvent découvrir QVQ-Max en :
- Visitez chat.qwen.ai
- Sélectionnez le menu modèle dans le coin gauche → « Développer plus de modèles »
- Sélectionnez QVQ-Max et commencez à discuter
- Joignez des fichiers image pour explorer les capacités de traitement de l'IA
Avec le lancement de QVQ-Max, Alibaba continue d'affirmer sa position dans la course au développement de l'IA multimédia, en concurrence directe avec les géants mondiaux de la technologie. Le modèle promet d’apporter des applications pratiques dans le travail, l’éducation et la vie personnelle.