Alibaba lance le modèle de raisonnement visuel QVQ-Max : il peut voir, comprendre et penser

Le groupe technologique chinois Alibaba vient d'annoncer un nouveau modèle d'IA appelé QVQ-Max de la série Qwen, marquant une percée dans le domaine de l'IA multimédia. La particularité de ce modèle est la capacité d'analyser le contenu des images/vidéos, puis d'élaborer des arguments et des solutions en fonction des informations obtenues.

Capacité impressionnante

QVQ-Max est décrit par Alibaba comme un pont entre les modèles d'IA purement textuels et le monde réel. Grâce à ses capacités de raisonnement visuel, le système peut :

  • Analyser les images et identifier les éléments clés
  • Application polyvalente dans de nombreux domaines, de la conception d'illustrations à la création de scripts vidéo en passant par les jeux de rôle de personnages
  • Résoudre des problèmes avec des diagrammes (mathématiques, physique)
  • Instructions de cuisson étape par étape basées sur des photos de recettes

Alibaba affirme que le modèle permet de combler le fossé entre les IA qui ne traitent que du texte et les informations du monde réel. Grâce à sa capacité de raisonnement visuel, QVQ-Max peut « voir, comprendre et penser » au monde qui l’entoure. L'entreprise met l'accent sur son modèle supérieur en matière d'analyse d'images, d'identification des éléments clés et sur sa flexibilité d'application dans de nombreux domaines tels que la conception d'illustrations, la création de scripts vidéo ou le jeu de rôle.

Alibaba lance le modèle de raisonnement visuel QVQ-Max : il peut voir, comprendre et penser

Comme d'autres chatbots IA, QVQ-Max prend en charge le travail, l'éducation et la vie personnelle, mais grâce à l'intégration visuelle, il résout également des tâches plus spécifiques telles que : résoudre des problèmes de mathématiques/physique avec des diagrammes, des instructions de cuisine via des images de recettes.

Alibaba considère QVQ-Max comme la première version et a défini une feuille de route de mise à niveau pour les versions ultérieures. Tout d’abord, ils voulaient améliorer la précision de la reconnaissance d’images en utilisant des techniques de mise à la terre. Deuxièmement, le modèle sera optimisé pour gérer le multitâche et les problèmes complexes tels que travailler avec des téléphones, des ordinateurs ou jouer à des jeux. À terme, Alibaba prévoit d’étendre ses activités de l’interaction textuelle à la vérification des outils et à la création de contenu d’image.

Les utilisateurs peuvent découvrir QVQ-Max en :

  1. Visitez chat.qwen.ai
  2. Sélectionnez le menu modèle dans le coin gauche → « Développer plus de modèles »
  3. Sélectionnez QVQ-Max et commencez à discuter
  4. Joignez des fichiers image pour explorer les capacités de traitement de l'IA

Avec le lancement de QVQ-Max, Alibaba continue d'affirmer sa position dans la course au développement de l'IA multimédia, en concurrence directe avec les géants mondiaux de la technologie. Le modèle promet d’apporter des applications pratiques dans le travail, l’éducation et la vie personnelle.

Sign up and earn $1000 a day ⋙

Leave a Comment

Comment utiliser lextension Chrome Trim pour améliorer Netflix

Comment utiliser lextension Chrome Trim pour améliorer Netflix

Les gens avaient l’habitude de passer beaucoup de temps à parcourir Netflix, submergés par la fatigue décisionnelle et ne sachant pas quoi regarder. Mais après avoir trouvé l'extension Chrome Trim, cela a complètement changé mon expérience Netflix.

Comment jouer la saison 14 de léquipe Taurus DTCL

Comment jouer la saison 14 de léquipe Taurus DTCL

Taurus TFT saison 14 est un clan spécial avec un mécanisme d'augmentation des dégâts permanent et la capacité de laisser tomber de l'or lors de la destruction des ennemis.

Comment prendre de belles photos de nuit avec un smartphone

Comment prendre de belles photos de nuit avec un smartphone

Avec les bonnes techniques, vous pouvez prendre des photos de nuit nettes avec votre téléphone, parfois même meilleures qu'avec un appareil photo professionnel.

Comment ajouter le moteur de recherche ChatGPT sur Chrome

Comment ajouter le moteur de recherche ChatGPT sur Chrome

OpenAI a publié ChatGPT Search afin que vous puissiez transformer ChatGPT en votre propre moteur de recherche personnalisé basé sur l'IA. Voici les instructions pour ajouter le moteur de recherche ChatGPT sur Chrome.

Quest-ce qui rend la fonction de recherche de ChatGPT supérieure à celle de Perplexity ?

Quest-ce qui rend la fonction de recherche de ChatGPT supérieure à celle de Perplexity ?

Bien que Perplexity soit fiable depuis longtemps, les nouvelles fonctionnalités de ChatGPT incitent les utilisateurs à revenir lentement au chatbot IA générative d'origine.

Puis-je utiliser 2 routeurs sur le même réseau domestique ?

Puis-je utiliser 2 routeurs sur le même réseau domestique ?

Si vous disposez d’un grand réseau domestique, vous pourriez avoir des difficultés à vous y connecter sans fil à partir de certains points de votre maison. Un deuxième routeur peut améliorer les performances du réseau et vous aider à vous connecter depuis n’importe où dans votre maison.

5 raisons pour lesquelles les utilisateurs nutilisent pas le bouton Meta AI de WhatsApp, malgré son utilité

5 raisons pour lesquelles les utilisateurs nutilisent pas le bouton Meta AI de WhatsApp, malgré son utilité

Le nouveau bouton IA de Meta apparaît dans les discussions WhatsApp, offrant un moyen rapide d'interagir avec son assistant IA. Même si cela peut sembler utile, il existe quelques raisons principales pour lesquelles de nombreuses personnes choisissent de ne pas l’utiliser.

4 VPN qui ne nécessitent ni connexion ni inscription

4 VPN qui ne nécessitent ni connexion ni inscription

Vous souhaitez bénéficier des avantages d’un VPN sans créer de compte ? Croyez-le ou non, il existe de telles options.

How to Use Canva AI to Create Business Cards

How to Use Canva AI to Create Business Cards

You can use Canvas Magic Design, Magic Media, Magic Write, and Canva Print for your business card project.

The most bizarre birds, some seem to travel to Earth from another world

The most bizarre birds, some seem to travel to Earth from another world

Lets admire the beauty of birds with unique and strange appearances, as if they have traveled to Earth from another world.

What to do when you have trouble sleeping?

What to do when you have trouble sleeping?

Prioritizing a consistent sleep schedule and evening routine can help improve the quality of your sleep. Heres what you need to know to stop tossing and turning at night.

How to adjust the outer display on Galaxy Z Flip3

How to adjust the outer display on Galaxy Z Flip3

The Galaxy Z device has a customisable cover display feature, where you can choose any image as the wallpaper for the cover display on the Galaxy Z Flip3.

Comment obtenir 1 mois de Discord Nitro gratuitement avec Opera GX

Comment obtenir 1 mois de Discord Nitro gratuitement avec Opera GX

Opera GX, le navigateur Web axé sur les jeux, a conclu un partenariat intéressant avec Discord, offrant aux utilisateurs un essai gratuit d'un mois de Discord Nitro.

Comment enregistrer rapidement lécran dun ordinateur Windows 10

Comment enregistrer rapidement lécran dun ordinateur Windows 10

Actuellement, il existe de nombreux logiciels d'enregistrement d'écran d'ordinateur prenant en charge Win 10, vous aidant à enregistrer facilement l'écran de votre ordinateur, en particulier pour les joueurs.

Comment désactiver les commentaires lors dune diffusion en direct sur Facebook

Comment désactiver les commentaires lors dune diffusion en direct sur Facebook

Lorsque vous regardez un flux en direct sur Facebook, les commentaires s'affichent automatiquement sur l'écran vidéo en ligne. Les téléspectateurs connaîtront alors les commentaires des autres.