OpenAI vient de présenter officiellement une mise à niveau remarquable de la capacité de génération d'images IA dans ChatGPT, une étape importante en avant au lieu d'utiliser un modèle de génération d'images séparé comme le précédent DALL-E. Cette nouvelle fonctionnalité a été intégrée directement dans GPT-4o, apportant des améliorations significatives.
Surmonter les limites inhérentes
Bien que de nombreux modèles actuels de génération d’images d’IA puissent créer des images artistiques impressionnantes, ils ont souvent du mal avec des éléments tels que du texte, des logos ou des objets du quotidien. OpenAI affirme que le nouveau GPT-4o peut surmonter ces limitations grâce à sa capacité à :
- Afficher le texte correctement
- Respecter strictement les exigences des utilisateurs
- Tirez parti des connaissances de base et du contexte conversationnel
- Permet de modifier les photos téléchargées ou de créer de nouvelles photos à partir des photos originales
- Largement disponible
Cette nouvelle fonctionnalité est actuellement déployée pour les utilisateurs de ChatGPT Free, ChatGPT Plus, Pro et Team, et sera disponible sur ChatGPT Enterprise et Edu dans les semaines à venir. Il s'agira notamment de l'outil de création d'images par défaut dans ChatGPT, ce qui permettra aux utilisateurs d'y accéder facilement sans options supplémentaires. Les utilisateurs peuvent personnaliser les photos avec :
- Rapport hauteur/largeur spécifique
- Couleur exacte (en utilisant le code hexadécimal)
- Arrière-plan transparent
- Prise en charge multiplateforme

En plus de ChatGPT, cette fonctionnalité sera également disponible sur des plateformes telles que Sora (génération d'images), DALL·E GPT dédié et l'API GPT-4o (pour les développeurs, lancement dans les semaines à venir).
Malgré ses promesses de nombreuses améliorations, le nouveau modèle présente encore quelques limites :
- Le temps de génération d'image peut aller jusqu'à 1 minute en raison du niveau de détail élevé
- Recadrage indésirable avec des photos verticales
- Parfois, des informations sont « fabriquées » avec peu de contexte requis.
- Difficulté à traiter plus de 10 à 20 concepts à la fois
- Difficulté avec les langues non latines
- Les corrections détaillées (comme les fautes d’orthographe) ne sont pas très efficaces
- Difficile d'afficher des informations détaillées dans de petites tailles
Toutes les images générées par GPT-4o contiendront des métadonnées C2PA, permettant la vérification de la provenance à l'aide des outils internes d'OpenAI.
Malgré certaines limitations, GPT-4o promet de fournir une imagerie plus précise et personnalisable. OpenAI affirme qu'il continuera à améliorer le modèle dans les mois à venir, ouvrant de nouvelles possibilités pour la création de contenu visuel alimenté par l'IA.
Avec cette mise à jour majeure, OpenAI continue de renforcer son leadership dans la course à l'IA créative, offrant une expérience plus fluide et plus puissante aux utilisateurs sur plusieurs plateformes.