Google présente une IA qui remplace Chrome : découvrez ses fonctionnalités.
Google a lancé Gemini 2.5 Computer Use, un agent IA capable de contrôler un navigateur, permettant des actions telles que remplir des formulaires et naviguer sur des sites sans API. Ce modèle se concentre exclusivement sur le navigateur et prend en charge 13 actions standard, mais n’est « pas encore optimisé pour un contrôle au niveau du système d’exploitation entier ».
Un jour après OpenAI, Google introduit son propre agent d’intelligence artificielle capable de contrôler un navigateur. Gemini 2.5 Computer Use utilise la compréhension visuelle pour analyser les interfaces web et exécuter des actions de manière autonome, telles que remplir des formulaires, tester des interfaces utilisateur, et naviguer sur des sites sans API.
Il ne se passe pas une journée sans nouvelles annonces dans le domaine de l’intelligence artificielle. Hier, OpenAI a présenté ses applications, et aujourd’hui, Google dévoile une nouvelle version de Gemini 2.5, à savoir Gemini 2.5 Computer Use.
Ce modèle d’intelligence artificielle est capable de naviguer sur un navigateur web comme le ferait un utilisateur humain, en cliquant, faisant défiler, tapant du texte ou en utilisant des actions de glisser-déposer. L’IA interagit directement avec les interfaces conçues pour les humains, plutôt que d’utiliser des API. Ceci constitue une réponse directe à OpenAI avec ChatGPT Agent et à Anthropic, qui propose déjà cette fonctionnalité depuis un an avec Claude.
Gemini 2.5 Computer Use utilise la compréhension du langage naturel ainsi que la vision par ordinateur pour interpréter une requête utilisateur et accomplir la tâche correspondante. Le modèle fonctionne en boucle : capture d’écran, analyse visuelle, prise de décision sur l’action suivante, exécution, puis nouvelle capture pour vérifier le résultat.
Cette IA évolue du stade du « lire/écrire » à celui de l’« agir ». Au lieu de se limiter à fournir des informations ou à générer du texte, elle manipule directement les interfaces comme le ferait un utilisateur humain, que ce soit pour cliquer sur un bouton, remplir un champ de formulaire, soumettre des données ou naviguer entre plusieurs pages. Ces actions étaient jusqu’à présent impossibles sans une intégration API dédiée.
Google a partagé quelques exemples concrets : remplir et soumettre un formulaire, tester une interface utilisateur, et naviguer sur des sites sans API disponible. Le modèle est déjà utilisé pour alimenter AI Mode et Project Mariner, un prototype de recherche où des agents d’IA accomplissent des tâches de manière autonome dans un navigateur, comme ajouter des articles dans un panier selon une liste d’ingrédients ou réserver un hôtel.
Les vidéos de démonstration illustrent l’outil en action, accélérées trois fois pour plus d’efficacité. On y voit l’IA jouer à 2048, parcourir Hacker News pour dénicher les débats en cours, ou naviguer sur des sites complexes. Les actions se succèdent sans intervention humaine une fois la requête formulée.
Contrairement à ChatGPT Agent d’OpenAI ou Claude 3.5 Sonnet d’Anthropic, qui offrent un contrôle étendu de l’environnement informatique, Gemini 2.5 Computer Use se concentre uniquement sur le navigateur.
Google indique que le modèle n’est « pas encore optimisé pour un contrôle au niveau du système d’exploitation entier ». Cette limitation est probablement adoptée pour des raisons de sécurité, de complexité et de fiabilité.
Actuellement, le modèle prend en charge 13 actions standards : ouvrir un navigateur web, saisir du texte, cliquer sur des éléments, faire défiler une page, glisser-déposer, et soumettre des formulaires. Bien que cette palette d’actions soit suffisante pour la plupart des tâches web courantes, elle est délibérément restreinte par rapport aux privilèges d’un système d’exploitation complet.
Cette stratégie présente des avantages. Le navigateur représente l’environnement le plus universel d’un poste de travail, incluant services cloud, applications web et plateformes SaaS. En maîtrisant parfaitement cet espace avant d’étendre l’IA à l’ensemble du système d’exploitation, Google adopte une approche pragmatique et industrialisable.
Comme pour chaque annonce dans le domaine de l’IA, Google affirme que ses performances surpassent celles des alternatives d’OpenAI et d’Anthropic sur plusieurs benchmarks web et mobiles, tels que Online-Mind2Web et WebVoyager, avec une latence réduite. Bien sûr, il est difficile de le vérifier de manière indépendante, mais cela montre une optimisation poussée pour les interactions dans le navigateur.
En résumé, nous entrons dans la prochaine phase de l’IA : passer d’un simple assistant conversationnel à un agent autonome capable d’effectuer des tâches concrètes. Au lieu de demander à l’IA des informations ou des réponses, on lui délègue des actions complètes, telles que réserver un restaurant, comparer des produits ou remplir des formulaires administratifs.

