Alibaba lance le modèle de raisonnement visuel QVQ-Max : il peut voir, comprendre et penser

Le groupe technologique chinois Alibaba vient d'annoncer un nouveau modèle d'IA appelé QVQ-Max de la série Qwen, marquant une percée dans le domaine de l'IA multimédia. La particularité de ce modèle est la capacité d'analyser le contenu des images/vidéos, puis d'élaborer des arguments et des solutions en fonction des informations obtenues.

Capacité impressionnante

QVQ-Max est décrit par Alibaba comme un pont entre les modèles d'IA purement textuels et le monde réel. Grâce à ses capacités de raisonnement visuel, le système peut :

  • Analyser les images et identifier les éléments clés
  • Application polyvalente dans de nombreux domaines, de la conception d'illustrations à la création de scripts vidéo en passant par les jeux de rôle de personnages
  • Résoudre des problèmes avec des diagrammes (mathématiques, physique)
  • Instructions de cuisson étape par étape basées sur des photos de recettes

Alibaba affirme que le modèle permet de combler le fossé entre les IA qui ne traitent que du texte et les informations du monde réel. Grâce à sa capacité de raisonnement visuel, QVQ-Max peut « voir, comprendre et penser » au monde qui l’entoure. L'entreprise met l'accent sur son modèle supérieur en matière d'analyse d'images, d'identification des éléments clés et sur sa flexibilité d'application dans de nombreux domaines tels que la conception d'illustrations, la création de scripts vidéo ou le jeu de rôle.

Alibaba lance le modèle de raisonnement visuel QVQ-Max : il peut voir, comprendre et penser

Comme d'autres chatbots IA, QVQ-Max prend en charge le travail, l'éducation et la vie personnelle, mais grâce à l'intégration visuelle, il résout également des tâches plus spécifiques telles que : résoudre des problèmes de mathématiques/physique avec des diagrammes, des instructions de cuisine via des images de recettes.

Alibaba considère QVQ-Max comme la première version et a défini une feuille de route de mise à niveau pour les versions ultérieures. Tout d’abord, ils voulaient améliorer la précision de la reconnaissance d’images en utilisant des techniques de mise à la terre. Deuxièmement, le modèle sera optimisé pour gérer le multitâche et les problèmes complexes tels que travailler avec des téléphones, des ordinateurs ou jouer à des jeux. À terme, Alibaba prévoit d’étendre ses activités de l’interaction textuelle à la vérification des outils et à la création de contenu d’image.

Les utilisateurs peuvent découvrir QVQ-Max en :

  1. Visitez chat.qwen.ai
  2. Sélectionnez le menu modèle dans le coin gauche → « Développer plus de modèles »
  3. Sélectionnez QVQ-Max et commencez à discuter
  4. Joignez des fichiers image pour explorer les capacités de traitement de l'IA

Avec le lancement de QVQ-Max, Alibaba continue d'affirmer sa position dans la course au développement de l'IA multimédia, en concurrence directe avec les géants mondiaux de la technologie. Le modèle promet d’apporter des applications pratiques dans le travail, l’éducation et la vie personnelle.

Sign up and earn $1000 a day ⋙

Leave a Comment

Ways music stimulates the brain

Ways music stimulates the brain

Most people know that music is not just for entertainment but has many benefits. Here are some ways music stimulates our brain development.

Comment obtenir de beaux ongles rapidement

Comment obtenir de beaux ongles rapidement

Vous souhaitez avoir rapidement de beaux ongles brillants et sains. Ces conseils simples pour de beaux ongles ci-dessous vous seront utiles.

Les secrets de linspiration des couleurs que seuls les designers connaissent

Les secrets de linspiration des couleurs que seuls les designers connaissent

Cet article répertorie des conseils inspirés des couleurs, partagés par les meilleurs designers de la communauté Creative Market, afin que vous puissiez obtenir la combinaison de couleurs parfaite à chaque fois.

Tout ce dont vous avez besoin pour remplacer votre ordinateur portable par un téléphone

Tout ce dont vous avez besoin pour remplacer votre ordinateur portable par un téléphone

Pouvez-vous vraiment remplacer votre ordinateur portable par votre téléphone ? Oui, mais vous aurez besoin des bons accessoires pour transformer votre téléphone en ordinateur portable.

ChatGPT pourra bientôt voir tout ce qui se passe sur votre écran

ChatGPT pourra bientôt voir tout ce qui se passe sur votre écran

Un élément important dans la vidéo complète de l'événement est que la prochaine fonctionnalité de l'application ChatGPT a été présentée, mais aucun détail réel n'a été partagé. C'est la capacité de ChatGPT à voir tout ce qui se passe sur l'écran de l'appareil de l'utilisateur.

LIA apprend à tromper les humains malgré sa formation à être honnête

LIA apprend à tromper les humains malgré sa formation à être honnête

De nombreuses IA de haut niveau, bien qu'elles aient été formées à être honnêtes, apprennent à tromper au fil de leur formation et induisent systématiquement les utilisateurs en erreur, révèle une nouvelle étude.

Comment modifier les questions sur ChatGPT

Comment modifier les questions sur ChatGPT

ChatGPT dispose désormais d'une option de modification de question afin que les utilisateurs puissent modifier la question ou le contenu qu'ils échangent avec ChatGPT.

Comment repérer les faux codes QR et protéger vos données

Comment repérer les faux codes QR et protéger vos données

Les codes QR semblent assez inoffensifs jusqu'à ce que vous scanniez un mauvais code QR et que vous receviez quelque chose de désagréable sur votre système. Si vous souhaitez protéger votre téléphone et vos données, il existe plusieurs moyens d’identifier les faux codes QR.

Qualcomm lance le modem 5G X85 avec une série daméliorations notables

Qualcomm lance le modem 5G X85 avec une série daméliorations notables

Sur scène au MWC 2025, Qualcomm a fait sensation en présentant sa huitième génération de modem 5G appelé X85, qui devrait être utilisé dans les smartphones phares lancés plus tard cette année.

La nouvelle technologie permet aux téléphones de changer de couleur de manière flexible

La nouvelle technologie permet aux téléphones de changer de couleur de manière flexible

Vous avez un iPhone 16 « Ultramarine » tendance, mais un beau jour, vous vous ennuyez soudainement de cette couleur ; Que ferez-vous?

Microsoft intègre DeepSeek dans la plateforme PC Copilot+

Microsoft intègre DeepSeek dans la plateforme PC Copilot+

En janvier, Microsoft a annoncé son intention d'apporter des versions optimisées NPU du modèle DeepSeek-R1 directement aux ordinateurs Copilot+ fonctionnant sur des processeurs Qualcomm Snapdragon X.

Différence entre les fonctions SI et Switch dans Excel

Différence entre les fonctions SI et Switch dans Excel

L'instruction SI est une fonction logique courante dans Excel. L'instruction SWITCH est moins connue, mais vous pouvez l'utiliser à la place de l'instruction IF dans certains cas.

Comment ajouter un effet de projecteur derrière votre sujet à laide dAdobe Camera Raw

Comment ajouter un effet de projecteur derrière votre sujet à laide dAdobe Camera Raw

L’ajout d’un effet de projecteur derrière le sujet sur une photo est un excellent moyen de séparer le sujet de l’arrière-plan. L'effet de projecteur peut ajouter de la profondeur aux photos de portrait.

Comment augmenter la taille limite des pièces jointes Outlook

Comment augmenter la taille limite des pièces jointes Outlook

Outlook et d’autres services de messagerie ont des limites sur la taille des pièces jointes aux e-mails. Voici les instructions pour augmenter la limite de taille des pièces jointes Outlook.

Pourquoi Lightroom est-il meilleur que toutes les autres applications de retouche photo ?

Pourquoi Lightroom est-il meilleur que toutes les autres applications de retouche photo ?

Malgré de nombreux concurrents, Adobe Lightroom reste la meilleure application de retouche photo. Oui, vous devez payer pour y accéder, mais les fonctionnalités de Lightroom en valent la peine.