Google DeepMind a réalisé des progrès constants dans le domaine de l'IA avec des mises à jour régulières et très appréciées de Gemini, Imagen, Veo, Gemma et AlphaFold. Aujourd'hui, l'équipe d'IA de Google continue de faire la une des journaux en annonçant officiellement son entrée dans l'industrie de la robotique avec le lancement de deux nouveaux modèles basés sur Gemini 2.0 : Gemini Robotics et Gemini Robotics-ER.
Gemini Robotics : Modèle avancé vision-langage-action
Gemini Robotics est un modèle avancé de vision-langage-action (VLA) développé sur la base de Gemini 2.0, avec l'ajout d'actions physiques comme nouvelle méthode de sortie pour le contrôle du robot. Google affirme que ce nouveau modèle peut comprendre des situations qu'il n'a même pas rencontrées lors de sa formation.
Comparé à d'autres modèles VLA de premier plan, Gemini Robotics obtient des résultats deux fois meilleurs sur un ensemble complet de tests de généralisation. Étant donné qu'il est construit sur le modèle Gemini 2.0, il est capable de comprendre de nombreux types de langages naturels différents, ce qui signifie qu'il peut comprendre les commandes humaines avec plus de précision.
En termes de dextérité, Google affirme que Gemini Robotics peut gérer des tâches complexes en plusieurs étapes qui nécessitent une manipulation précise. Par exemple, ce modèle peut plier des origamis ou mettre des collations dans des sacs Ziploc.
Gemini Robotics-ER : un modèle de langage visuel axé sur le raisonnement spatial
Gemini Robotics-ER est un modèle visuo-linguistique avancé axé sur le raisonnement spatial, permettant aux roboticiens de s'intégrer à leurs contrôleurs de bas niveau existants. Grâce à ce modèle, le roboticien disposera de toutes les étapes pour contrôler le robot à la fois, y compris la perception, l'estimation de l'état, la compréhension spatiale, la planification et la génération de code.
L'avenir de Gemini Robotics
Google s'associe à Apptronik pour construire des robots humanoïdes basés sur les modèles Gemini 2.0. Google travaille également avec un certain nombre de partenaires de test de confiance, notamment Agile Robots, Agility Robotics, Boston Dynamics et Enchanted Tools, pour guider le développement futur de Gemini Robotics-ER.
En permettant aux robots de comprendre et d’exécuter des tâches complexes avec une plus grande précision et adaptabilité, Google DeepMind ouvre la voie à un avenir où les robots pourront s’intégrer de manière transparente dans de nombreux aspects de nos vies.