Alibaba lance le modèle de raisonnement visuel QVQ-Max : il peut voir, comprendre et penser

Le groupe technologique chinois Alibaba vient d'annoncer un nouveau modèle d'IA appelé QVQ-Max de la série Qwen, marquant une percée dans le domaine de l'IA multimédia. La particularité de ce modèle est la capacité d'analyser le contenu des images/vidéos, puis d'élaborer des arguments et des solutions en fonction des informations obtenues.

Capacité impressionnante

QVQ-Max est décrit par Alibaba comme un pont entre les modèles d'IA purement textuels et le monde réel. Grâce à ses capacités de raisonnement visuel, le système peut :

  • Analyser les images et identifier les éléments clés
  • Application polyvalente dans de nombreux domaines, de la conception d'illustrations à la création de scripts vidéo en passant par les jeux de rôle de personnages
  • Résoudre des problèmes avec des diagrammes (mathématiques, physique)
  • Instructions de cuisson étape par étape basées sur des photos de recettes

Alibaba affirme que le modèle permet de combler le fossé entre les IA qui ne traitent que du texte et les informations du monde réel. Grâce à sa capacité de raisonnement visuel, QVQ-Max peut « voir, comprendre et penser » au monde qui l’entoure. L'entreprise met l'accent sur son modèle supérieur en matière d'analyse d'images, d'identification des éléments clés et sur sa flexibilité d'application dans de nombreux domaines tels que la conception d'illustrations, la création de scripts vidéo ou le jeu de rôle.

Alibaba lance le modèle de raisonnement visuel QVQ-Max : il peut voir, comprendre et penser

Comme d'autres chatbots IA, QVQ-Max prend en charge le travail, l'éducation et la vie personnelle, mais grâce à l'intégration visuelle, il résout également des tâches plus spécifiques telles que : résoudre des problèmes de mathématiques/physique avec des diagrammes, des instructions de cuisine via des images de recettes.

Alibaba considère QVQ-Max comme la première version et a défini une feuille de route de mise à niveau pour les versions ultérieures. Tout d’abord, ils voulaient améliorer la précision de la reconnaissance d’images en utilisant des techniques de mise à la terre. Deuxièmement, le modèle sera optimisé pour gérer le multitâche et les problèmes complexes tels que travailler avec des téléphones, des ordinateurs ou jouer à des jeux. À terme, Alibaba prévoit d’étendre ses activités de l’interaction textuelle à la vérification des outils et à la création de contenu d’image.

Les utilisateurs peuvent découvrir QVQ-Max en :

  1. Visitez chat.qwen.ai
  2. Sélectionnez le menu modèle dans le coin gauche → « Développer plus de modèles »
  3. Sélectionnez QVQ-Max et commencez à discuter
  4. Joignez des fichiers image pour explorer les capacités de traitement de l'IA

Avec le lancement de QVQ-Max, Alibaba continue d'affirmer sa position dans la course au développement de l'IA multimédia, en concurrence directe avec les géants mondiaux de la technologie. Le modèle promet d’apporter des applications pratiques dans le travail, l’éducation et la vie personnelle.

Sign up and earn $1000 a day ⋙

Leave a Comment

Why doesnt the freezer have a light but the refrigerator does?

Why doesnt the freezer have a light but the refrigerator does?

Refrigerators are familiar appliances in families. Refrigerators usually have 2 compartments, the cool compartment is spacious and has a light that automatically turns on every time the user opens it, while the freezer compartment is narrow and has no light.

2 Ways to Fix Network Congestion That Slows Down Wi-Fi

2 Ways to Fix Network Congestion That Slows Down Wi-Fi

Wi-Fi networks are affected by many factors beyond routers, bandwidth, and interference, but there are some smart ways to boost your network.

Comment rétrograder diOS 17 à iOS 16 sans perte de données avec Tenorshare Reiboot

Comment rétrograder diOS 17 à iOS 16 sans perte de données avec Tenorshare Reiboot

Si vous souhaitez revenir à la version stable d'iOS 16 sur votre téléphone, voici le guide de base pour désinstaller iOS 17 et rétrograder d'iOS 17 à 16.

Que se passe-t-il dans le corps lorsque vous mangez du yaourt tous les jours ?

Que se passe-t-il dans le corps lorsque vous mangez du yaourt tous les jours ?

Le yaourt est un aliment merveilleux. Est-il bon de manger du yaourt tous les jours ? Si vous mangez du yaourt tous les jours, comment votre corps va-t-il changer ? Découvrons-le ensemble !

Quel type de riz est le meilleur pour la santé ?

Quel type de riz est le meilleur pour la santé ?

Cet article présente les types de riz les plus nutritifs et comment maximiser les bienfaits pour la santé du riz que vous choisissez.

Comment se réveiller à lheure le matin

Comment se réveiller à lheure le matin

Établir un horaire de sommeil et une routine de coucher, changer votre réveil et ajuster votre alimentation sont quelques-unes des mesures qui peuvent vous aider à mieux dormir et à vous réveiller à l’heure le matin.

Latest Bathroom Tower Defense Codes and How to Enter Codes

Latest Bathroom Tower Defense Codes and How to Enter Codes

Get Bathroom Tower Defense Roblox game codes and redeem them for exciting rewards. They will help you upgrade or unlock towers with higher damage.

4 façons dont lIA améliore les téléviseurs intelligents

4 façons dont lIA améliore les téléviseurs intelligents

De la meilleure qualité d’image et de son au contrôle vocal et bien plus encore, ces fonctionnalités alimentées par l’IA rendent les téléviseurs intelligents bien meilleurs !

Pourquoi ChatGPT est meilleur que DeepSeek

Pourquoi ChatGPT est meilleur que DeepSeek

Au début, les gens avaient de grands espoirs pour DeepSeek. En tant que chatbot IA commercialisé comme un concurrent sérieux de ChatGPT, il promet des capacités et des expériences de chat intelligentes.

Découvrez Fireflies.ai : le secrétaire IA gratuit qui vous fait gagner des heures de travail

Découvrez Fireflies.ai : le secrétaire IA gratuit qui vous fait gagner des heures de travail

Il est facile de manquer des détails importants lorsque l’on note d’autres éléments essentiels, et essayer de prendre des notes tout en discutant peut être distrayant. Fireflies.ai est la solution.

Comment élever un axolotl dans Minecraft et apprivoiser une salamandre dans Minecraft

Comment élever un axolotl dans Minecraft et apprivoiser une salamandre dans Minecraft

Axolot Minecraft sera un excellent assistant pour les joueurs lorsqu'ils opèrent sous l'eau s'ils savent comment les utiliser.

DeceptionAds Warning: New Malicious Ad Type Exploits Legitimate Services to Display Fake CAPTCHAs

DeceptionAds Warning: New Malicious Ad Type Exploits Legitimate Services to Display Fake CAPTCHAs

DeceptionAds is a new form of malvertising, where scammers use legitimate advertising platforms and make sure their malicious sites avoid censorship as much as possible.

What to do when you see the “AirTag Found Moving With You” warning?

What to do when you see the “AirTag Found Moving With You” warning?

Wondering what the Airtag Found Moving With You warning is? Its a safety feature on AirTags designed to prevent them from being used to track you.

Le pouvoir mystérieux du nombre 33 en numérologie

Le pouvoir mystérieux du nombre 33 en numérologie

En numérologie, le nombre 33 est souvent considéré comme un nombre puissant et mystique. Voici ce que vous devez savoir sur le nombre 33 en numérologie.

What is dark energy?

What is dark energy?

Dark energy is driving the accelerating expansion of the universe, but its nature remains a complete mystery. Heres what you need to know about dark energy.