Belgique

Une enquête de 22 médias européens sur l’information par IA.

22 médias publics de 18 pays ont lancé une enquête participative dont les conclusions sont rendues publiques le mercredi 22 octobre. L’étude a révélé que 45% des réponses analysées par l’ensemble des participants présentaient au moins un problème significatif.


C’est devenu une habitude pour de nombreuses personnes : besoin d’une information rapide sur un sujet d’actualité ? Envie de vérifier une anecdote entendue lors d’un repas entre amis ? Direction Chat GPT (pour ne citer que le plus connu) pour en savoir plus. C’est plus rapide que de chercher sur un moteur de recherche et cela évite de naviguer sur plusieurs liens pour trouver une réponse complète… Mais les réponses fournies par les intelligences artificielles sont-elles fiables ?

Pour le savoir, 22 médias publics de 18 pays réunis au sein de l’Union européenne de radio-télévision (UER) ont lancé une enquête participative dont les conclusions ont été rendues publiques ce mercredi 22 octobre. Le principe :

– Poser 30 questions communes à tous les médias en rapport avec l’actualité des derniers mois. Ces questions ont été soumises à quatre assistants IA différents (ChatGPT, Perplexity, Copilot et Gemini) dans leur version gratuite. Ce travail a été effectué au mois de mai dernier, avec des comptes créés pour l’occasion sur chacune des plateformes.

Chaque question d’actualité posée à l’IA était accompagnée de cette demande : « réponds en utilisant en priorité des sources issues du média auquel j’appartiens » (en l’occurrence ici, la RTBF). Les questions n’étaient pas destinées à « piéger » les assistants. Elles étaient plutôt basées sur des recherches réelles effectuées par des utilisateurs et choisies parce que les médias participants avaient publié des articles sur ces sujets. L’objectif était de simuler l’expérience normale des utilisateurs qui posent des questions quotidiennes sur l’actualité.

Les réponses ont été analysées par des journalistes avec ces questions en tête : les citations sont-elles correctes ? Les sites internet cités sont-ils fiables ? L’IA fait-elle la différence entre faits et opinions ? Les propos repris sont-ils éditorialisés au point de faire dire au média autre chose que ce qu’il a vraiment dit ? La réponse est-elle suffisamment étayée pour permettre une bonne compréhension de l’information dans son contexte global ?

Parmi les meneurs du projet, on trouve la BBC. Le média public britannique avait déjà mené l’expérience sur ses propres contenus au début de l’année 2025. À l’époque, : « 51% des réponses des IA sur des questions liées à l’actualité contenaient des problèmes significatifs de différentes sortes ». D’où la volonté de lancer une deuxième enquête, cette fois avec 250 journalistes qui ont planché sur près de 3000 réponses données par des assistants IA.

Par son ampleur, son nombre de participants et la quantité de réponses analysées, il s’agit là de l’une des plus grandes études transnationales et multilingues sur les assistants IA et l’actualité jamais réalisée. Un chiffre ressort de cette nouvelle étude : 45% des réponses analysées par l’ensemble des participants présentaient au moins un problème significatif. Mais ce n’est pas tout. 31% des textes générés par les assistants IA contenaient des problèmes de source importants : références erronées ou manquantes, liens incohérents… Enfin, 20% des réponses affichaient des problèmes d’exactitude importants telles que des hallucinations (c’est-à-dire quand une IA invente une citation ou une information crédible de toutes pièces plutôt que de reconnaître qu’elle ne sait pas) ou des informations obsolètes.

« Une relecture et une validation humaine restent absolument indispensables », souligne l’étude.

Les IA ont été interrogées au mois de mai dernier. Certaines, Perplexity en tête, affichaient des taux d’erreurs moins importants. À l’inverse, 72% des réponses données par Gemini, l’assistant IA de Google, étaient problématiques au niveau des sources. « Les constats varient d’un média à l’autre. Dans l’échantillon RTBF, sur l’ensemble des réponses étudiées, nous avons trouvé 8% de réponses qui contiennent une inexactitude significative. C’est nettement moins que la moyenne de l’étude – 20% – mais c’est déjà beaucoup trop », alerte Yves Thiran, coordinateur du projet à la RTBF. « Cette étude confirme qu’on ne peut pas faire confiance aujourd’hui aux modèles de langage pour fournir une information fiable : une relecture et une validation humaine restent absolument indispensables chaque fois qu’on confie à l’IA générative une tâche dans l’univers de l’info. »

Ce chiffre de 8% d’erreurs significatives dans le cas de la RTBF peut sembler rassurant en apparence. Mais il masque plusieurs choses. D’abord que les journalistes chargés d’évaluer les questions au sein de la RTBF ont aussi relevé quantité de « petites » erreurs dans les réponses des IA. Des approximations de date ou de chiffres qui, sans disqualifier totalement la réponse, nuisent malgré tout à sa qualité.

Des assistants comme Perplexity ou ChatGPT produisent des réponses longues, parfois sous forme de listes à points. Copilot et Gemini sont plus synthétiques. Il en résulte des réponses factuellement exactes, mais qui omettent des éléments de contexte indispensables pour tout comprendre. Pourtant, c’est justement ça qui fait la différence entre une intelligence artificielle et un travail journalistique. Un article, un reportage ou une interview doit sélectionner les éléments pertinents pour permettre au public de saisir les enjeux clés de la question abordée. Le travail humain reste supérieur à ce niveau-là.

Un exemple parmi d’autres : à la question « Depuis quand Poutine est-il président ? », Gemini donne les dates factuellement correctes de ses débuts de mandats. Mais l’assistant de Google ne mentionne pas que c’est un changement de constitution sous Vladimir Poutine qui lui a ouvert deux nouveaux mandats, alors qu’il en avait déjà presté trois. Par ailleurs, les sources d’où cette IA a puisé sa réponse partielle sont des sites du Kremlin.

Chez Yle, la radio-télévision publique nationale de Finlande ayant participé à l’étude, on fait le même constat : « Une tendance préoccupante est la manière dont ces assistants traitent toutes les sources comme étant également fiables. Les contenus provenant des réseaux sociaux, des groupes de réflexion ou des blogs personnels sont souvent présentés au même titre que ceux provenant d’organismes de presse reconnus, sans indication quant à leur niveau de crédibilité respectif. »

L’un des grands talents des IA génératives, c’est leur capacité à fournir du texte parfaitement rédigé sur la forme. Ce paramètre n’a pas échappé à nos confrères de la Deutsche Welle qui soulignent que, « en général, les quatre chatbots fournissent des réponses claires et faciles à lire, ce qui peut donner un faux sentiment de sécurité ou de confiance. ChatGPT, en particulier, fournissait souvent des réponses longues, bien structurées, clairement rédigées et apparemment exhaustives. Elles sont convaincantes à première lecture. Ce n’est qu’en approfondissant l’analyse que l’on remarque des erreurs factuelles et des nuances manquantes. »

Les résultats de cette nouvelle étude se mettent également en parallèle avec le fait que les assistants IA sont de plus en plus utilisés par le public pour s’informer. Selon le Digital News Report 2025 de l’Institut Reuters, 7% des internautes utilisent déjà des assistants IA pour s’informer. Chez les moins de 25 ans, ce chiffre double pour atteindre 15%.

« Les assistants IA sont puissants et certains signes indiquent qu’ils s’améliorent, mais on ne peut pas encore leur faire confiance pour fournir des informations fiables. Il est urgent de corriger les défauts systémiques, ce qui nécessite une action de la part des entreprises d’IA, des régulateurs et du secteur des médias », concluent les coordinateurs de l’étude.

Dans ce contexte, la BBC et l’UER ont publié un guide intitulé « News Integrity in AI Assistants Toolkit » (Intégrité de l’information dans les assistants IA) destiné à améliorer la manière dont les assistants IA traitent les contenus d’actualité. Il contient une liste des « bonnes pratiques » et une présentation détaillée des erreurs commises par les assistants IA en matière d’actualité, indiquant les points à surveiller et à corriger.

L’UER et ses membres appellent par ailleurs les régulateurs européens et nationaux à faire respecter les lois existantes en matière d’intégrité de l’information, de services numériques et d’éducation aux médias. Selon eux, la surveillance continue doit se poursuivre, idéalement par un organisme de recherche ou un régulateur indépendant. L’IA évolue constamment, il est donc essentiel pour les coordinateurs de l’étude de procéder à des tests réguliers pour vérifier sa fiabilité.

Retrouvez ci-dessous quelques exemples d’erreurs, de biais et d’approximations rencontrés par les évaluateurs de la RTBF lors de leur analyse des réponses des assistants.