High-tech

Les IA ne reconnaissent pas une image IA de Google.

Les IA comme Veo 3 et Nano Banana de Google, Sora 2 et Dall-E 3 d’OpenAI, rivalisent dans la création d’images hyperréalistes sans avoir besoin d’être guidées par des prompts à rallonge. Selon Ninon IA, une spécialiste de l’IA aux 200.000 followers sur TikTok, Google, via Gemini, « arrive à détecter les images de Nano Banana en deux secondes, même si l’image a été retouchée, compressée, screenshotée ».

La création de photos et de vidéos par intelligence artificielle (IA) a connu une évolution rapide en seulement quelques mois. Si les résultats étaient déjà impressionnants auparavant, ils atteignent aujourd’hui une perfection inquiétante. Les méthodes utilisées pour identifier une photo générée par IA se révèlent désormais quasiment inefficaces. De plus, les IA elles-mêmes peinent à distinguer le vrai du faux.

Il n’y a pas si longtemps, même un expert dans la rédaction de prompts pour générer une image se heurtait à des résultats comportant des imperfections. Par exemple, lors de la création de personnages, les grands modèles d’IA avaient souvent tendance à déformer les membres : certains étaient fusionnés, d’autres ajoutés à des endroits inappropriés, ou placés dans des positions impossibles. En outre, les IA avaient pour habitude d’adoucir la peau de façon excessive, produisant des visages trop parfaits pour sembler réels.

Des images truffées de défauts ou excessivement parfaites

Les textures complexes étaient souvent mal rendues, avec peu de détails ou des aplats peu esthétiques, surtout quand il s’agissait d’inclure du texte dans les images. À l’inverse, les rendus photos étaient fréquemment trop soignés, notamment en ce qui concerne l’éclairage des scènes, avec des contre-jours parfaitement maîtrisés, un exploit difficile à réaliser dans la réalité. En vidéo, les mouvements manquaient de cohérence, en particulier dans les scènes rapides où l’IA se mêlait les pinceaux et, par conséquent, entraînait des erreurs dans le rendu des personnages. En somme, même un observateur peu averti pouvait facilement déceler une faille.

À l’heure actuelle, toutes ces astuces pour détecter les anomalies sont devenues largement obsolètes. Des IA comme Veo 3 et Nano Banana de Google, ainsi que Sora 2 et Dall-E 3 d’OpenAI, sont désormais capables de créer des images hyperréalistes sans nécessiter de prompts complexes. Pour illustrer cela, la photo accompagnant cet article a été générée par Nano Banana Pro avec cette simple demande : « Génère une photo de femme. Peu importe sa tenue ou ce qu’elle fait. La seule chose que je te demande, c’est que l’image ait l’air d’être une vraie photo, impossible à identifier comme ayant été générée par une IA ».

Pris à son propre jeu, l'IA de Google, Gemini, n'a pas reconnu cette photo de Nano Banana, son propre générateur d'images.
Pris à son propre jeu, l’IA de Google, Gemini, n’a pas reconnu cette photo de Nano Banana, son propre générateur d’images. - M.Libert / Nano Banana

Même les IA se font piéger

Il est indéniable que le résultat est remarquable et il est difficile de trouver une erreur qui trahirait l’intervention de l’IA. Ainsi, puisqu’il est devenu impossible de se fier à nos yeux pour déceler la faille, pourquoi ne pas demander aux IA de le faire pour nous ? Google Deep Mind a mis au point un filigrane invisible, intégré aux pixels des images générées par IA, permettant de les identifier avec certitude. Ce système, nommé SynthID, est une solution open source que Google teste avec Nano Banana et d’autres acteurs de l’IA générative. Selon Ninon IA, experte en IA suivie par 200 000 personnes sur TikTok, Google, via Gemini, « arrive à détecter les images de Nano Banana en deux secondes, même si l’image a été retouchée, compressée ou prise en capture d’écran ».

Dans cette optique, 20 Minutes a testé la photo ci-dessus en la soumettant à plusieurs IA avec la question : « Peux-tu me dire s’il s’agit d’une vraie photo ou si elle a été générée par une IA ? » Nous avons simplement recadré l’image créée par Nano Banana pour retirer le petit signe en bas à droite, puis enregistré cette version en « jpg » sous le nom « image2 ». Perplexity a été trompé, estimant que « la probabilité qu’il s’agisse d’une vraie photo prise dans un café est très élevée ». De son côté, Grok a affirmé que « cette photo est une vraie photographie, pas une image générée par IA ». Google Gemini a eu toutefois une appréciation plus mesurée, indiquant qu’il « est très probable que cette image ait été générée par une intelligence artificielle ». Cependant, il n’est pas catégorique, d’autant qu’il n’a « pas détecté de filigrane SynthID ». Pire, en l’absence de filigrane, Gemini ne reconnaît même pas sa propre création et suppose qu’elle provient d’une autre IA, citant DALL-E 3 ou Midjourney v6.

Notre dossier sur l’intelligence artificielle

À ce stade, il est clair que la question du filigrane nécessite encore des améliorations. D’autant que Gemini admet lui-même que le marqueur SynthID « peut être endommagé ou perdu » sur une image ayant été « compressée, recadrée ou si c’est une capture d’écran ». Néanmoins, d’autres outils, lorsqu’ils sont combinés, peuvent offrir un degré de certitude acceptable, tels que fotoforensics, AI Light, Undetectable.ai. Ce dernier a même estimé à 99 % que notre photo était une création IA. Un certain bon sens est également requis pour se demander si, dans la réalité, une dizaine de lapins s’amuseraient à faire du trampoline en pleine nuit.