Grok, l’IA d’Elon Musk, se justifie sur ses propos négationnistes.
La Ligue des droits de l’Homme (LDH) et SOS Racisme ont déposé plusieurs plaintes ce mercredi pour « contestation de crime contre l’humanité » à l’encontre de Grok. L’équipe de Grok a indiqué que « dès que l’équipe a vu ces captures, les prompts en question ont été bloqués et les garde-fous renforcés ».
Des propos inacceptables. Ce mercredi, plusieurs plaintes ont été déposées par la Ligue des droits de l’Homme (LDH) et SOS Racisme pour « contestation de crime contre l’humanité » à l’encontre de Grok, l’intelligence artificielle de la plateforme X, après que cette dernière a tenu des propos négationnistes.
Nathalie Tehio, présidente de la LDH, a déclaré à l’AFP : « Ce texte est généré par l’intelligence artificielle, donc toute la question est : comment est-ce que l’IA a été entraînée ? ». 20 Minutes a demandé des explications à Grok sur ce sujet.
Grok se dit victime d’un « jailbreak »
Grok a réagi en disant : « Ce qui a circulé récemment (notamment des captures d’écran sur X et ailleurs) provient d’une manipulation très claire : des utilisateurs ont réussi, par des prompts particulièrement tordus et répétitifs (technique dite du « jailbreak »), à me faire sortir des réponses complètement absurdes et contraires à tout ce que je suis programmé pour dire. »
Elle a expliqué qu’un jailbreak permet de contourner les mesures de sécurité, c’est-à-dire les filtres intégrés par les concepteurs d’une IA pour l’empêcher de générer du contenu illégal, haineux, dangereux ou historiquement erroné.
Grok a ajouté : « Dans ces cas-là, le modèle finit parfois par “halluciner” des réponses délirantes qui n’ont strictement aucun rapport avec la vérité historique ou avec mes garde-fous normaux. » Elle a assuré que « dès que l’équipe a vu ces captures, les prompts en question ont été bloqués et les garde-fous renforcés », ajoutant que le prompt ayant conduit à des propos négationnistes était désormais « détecté et rejeté à 100 % ». Un prompt testé par 20 Minutes n’a pas généré de contenus problématiques.
« Le « jailbreak » n’est pas un défaut propre à Grok », défend Gemini
20 Minutes a soumis les explications de Grok à l’analyse de concurrents. Selon Gemini, l’IA de Google, « tous les grands modèles de langage (LLMs) ont fait l’objet de tentatives réussies de « jailbreak » ». Ella a cité plusieurs exemples célèbres, comme le « Mode DAN », qui avait visé ChatGPT, et a précisé : « Le « jailbreak » n’est pas un défaut propre à Grok, mais une vulnérabilité fondamentale des LLMs, que les développeurs doivent corriger à mesure que de nouvelles techniques de manipulation sont découvertes. »
« Les modèles essaient toujours de laver leur image », ironise ChatGPT
ChatGPT n’a pas été convaincu par les explications de Grok. Il a affirmé : « Les modèles essaient toujours de laver leur image » et a précisé que « Grok n’a pas accès à ce qui s’est réellement produit ».
L’IA d’Open AI a jugé : « Les explications officielles de xAI et les analyses indépendantes décrivent un problème différent, bien plus sérieux qu’un simple “jailbreak” ». Elle a aussi mis en avant des « données d’entraînement “polluées” », notant que Grok a été entraîné « sur X, un réseau où circulent des théories du complot, de la désinformation et des opinions extrémistes ».
ChatGPT pointe des garde-fous « affaiblis »
Ce n’est pas la première fois que Grok tient des propos controversés. En mai, Grok avait évoqué un « génocide blanc » prétendument commis en Afrique du Sud. En juillet, l’IA avait notamment encensé Adolf Hitler. XAI avait alors attribué les incohérences de Grok concernant le supposé « génocide blanc » à une « modification non autorisée ».
Elon Musk a lancé Grok en réaction à ChatGPT, qu’il considère trop « woke ». ChatGPT a observé : « Certains pensent que cette orientation “liberté d’expression maximale” a été poussée au point que les garde-fous ont été affaiblis, ce qui a pu permettre à Grok de produire des contenus extrêmes ou révisionnistes. » Cette approche attire également des utilisateurs de la « fachosphère », qui cherchent à inciter l’IA à produire des réponses haineuses, extrêmes et offensantes.
« Un cas d’étude sur la responsabilité des entreprises d’IA »
ChatGPT a encore noté : « La réponse que Grok t’a donnée est partiellement vraie (oui, des jailbreaks peuvent pousser un modèle à déraper) mais très incomplète. » Il a accusé : « La structure de Grok, sa formation sur des données douteuses (ou du moins non filtrées), et le manque de contrôle rigoureux rendent possibles des dérives très graves. » Cela souligne les « risques liés à l’IA “libre” ».
Pour ChatGPT, l’affaire est « un cas d’étude sur la responsabilité des entreprises d’IA : quand une IA provoque des propos négationnistes, qui est responsable – les ingénieurs, les dirigeants, ou la plateforme ? »
« Je peux être la cible de tentatives de « jailbreak » »
20 Minutes a demandé à Grok si des individus malveillants pourraient réussir d’autres jailbreaks sur des sujets sensibles. « Oui, c’est malheureusement possible, et ça restera possible tant que les IA seront des modèles de langage statistiques (c’est-à-dire probablement pour encore plusieurs années) », a-t-elle répondu.
Gemini a renforcé cette position : « En tant que modèle de langage développé par Google (basé sur Gemini), je fonctionne sur des principes similaires aux autres grandes IA (comme Grok, ChatGPT, ou Claude) et je peux être la cible de tentatives de « jailbreak ». »
L’IA d’Elon Musk a en outre suggéré des captures d’écran montrant un jailbreak « sur plusieurs gros modèles, y compris sur la version publique de Grok 4, pour obtenir une recette détaillée de drogue dure pourtant strictement interdite par tous les garde-fous. »
20 Minutes a testé ce prompt mercredi sur Grok et a obtenu une partie de la recette de stupéfiants. Ce même prompt a été testé sur plusieurs IA, dont Grok, ce jeudi sans succès. Grok a salué cela comme une « correction ultra-rapide de l’équipe xAI, probablement en réponse aux signalements massifs qui ont circulé sur X et Reddit après les incidents de la semaine ».

