Bac de philo : Les intelligences artificielles pourraient-elles ne pas réussir ?

15 juin 2026

La célèbre épreuve de philosophie du baccalauréat 2026 s’est terminée ce lundi à midi pile, avec pour sujets de dissertation au choix : « Avons-nous la maîtrise de nos paroles ? » et « Peut-on être heureux quand les autres ne le sont pas ? ». Ruben Salmon a attribué les notes suivantes : ChatGPT, 11,5/20 ; Gemini, entre 13 et 14/20 ; Claude, entre 18 et 19/20.

La redoutée épreuve de philosophie du baccalauréat 2026 a eu lieu ce lundi à midi. Dans la filière générale, les candidats ont eu le choix entre les sujets de dissertation suivants : « Avons-nous la maîtrise de nos paroles ? » et « Peut-on être heureux quand les autres ne le sont pas ? »

Certains candidats ont probablement préparé cet examen en utilisant une des IA génératives. D’autres ont même imaginé (ou cauchemardé) de passer l’épreuve avec une puce cérébrale connectée à l’un des modèles. Ainsi, trois modèles d’intelligence artificielle générative (Claude 4.6 effort moyen, ChatGPT, et Gemini) ont été invités à rédiger des travaux sur ces thèmes, lesquels ont ensuite été corrigés par Ruben Salmon, un jeune enseignant de philosophie à l’académie Aix-Marseille.

Voici le prompt qui leur a été donné avec l’énoncé des sujets : « Tu es un élève en France et passes ce jour l’épreuve de philosophie de baccalauréat, en filière générale. Tu rédigeras entièrement l’introduction et la conclusion mais te contenteras d’un plan détaillé pour chaque partie et sous-partie. »

Cependant, pour Ruben Salmon, les deux sujets n’ont pas la même valeur pour évaluer les productions des IA : « Globalement, les intelligences artificielles ont plutôt bien réussi, notamment sur le sujet concernant le bonheur qui est spécifiquement étudié en terminale. À mon sens, le sujet concernant la parole était un peu plus intéressant, car moins balisé. » À présent, écoutons les impressions de Ruben Salmon sur les copies, avant de découvrir sa correction.

ChatGPT, modèle basique – 11,5/20

On a fait corriger les sujets du bac philo rédigés par des IA à un professeur de philosophie. Ici ChatGPT. - Capture écran ChatGPT

« Ce n’est vraiment pas incroyable. Dans ce cas, ChatGPT fournit un contenu minimal sans aller au-delà, incluant un peu de Descartes pour distinguer l’homme de l’animal par la parole et mentionnant Freud par rapport aux lapsus. » C’est donc un « service minimum », en partie attribué au prompt qui lui demande de ne pas développer en profondeur, ce qui lui vaut la plus mauvaise note parmi les trois IA évaluées.

« Le tout est bien structuré, ce qu’on attend d’une IA, mais des doutes subsistent sur la qualité du développement si on le poussait davantage », conclut Ruben Salmon, qui estime cette copie « quelque part entre 11 et 12 sur 20, avant l’harmonisation des notes ».

Gemini modèle 3.5 Flash : 13,5/20

On a fait corriger les sujets du bac philo rédigés par des IA à un professeur de philosophie. Ici Gemini. - Capture écran Gemini

L’IA générative de Google s’en sort « un peu mieux que ChatGPT », selon Ruben Salmon. Ce dernier apprécie que Gemini intègre la philosophie de la Grèce antique et la notion de citoyenneté dans l’agora. « Les débats de l’Antiquité sont très pertinents. C’est la thèse la plus claire que j’ai en tête. Car si les mots nous permettent de construire une société, cela signifie effectivement que nous avons un certain contrôle là-dessus. Même si ce ne sont que des mots, ils influent sur nos comportements et ont des conséquences concrètes », explique le professeur de philosophie.

« Généralement, l’IA prend en antithèse tout ce qui se rapporte au « Soi » de l’inconscient selon Freud – ce que fait Gemini en mentionnant le concept du « Moi » de Freud. Cela fonctionne bien, car cela illustre l’idée que nous ne sommes pas totalement maîtres. »

Pour autant, selon le correcteur, Gemini est limité « en raison de son exploitation insuffisante des auteurs ; citer Aristote sur les sophistes aurait été bénéfique ». En d’autres termes, le plan est solide, mais les idées de développement sont trop faibles, ce qui limite rapidement la profondeur de l’argumentation. En conclusion, la note est « entre 13 et 14 sur 20 ».

Claude modèle 4.6, effort moyen : 18,5

On s’y attendait, l’IA d’Anthropic Claude surpasse tous ses concurrents. Cela se reflète dans cet exercice où « la copie est très bonne, même trop bonne pour un élève en terminale », évalue Ruben Salmon, qui attribuerait une note de 18 ou 19 sur 20 à ce travail.

« Claude a plutôt un niveau de L1 sur ce sujet. Il cite Lacan, alors que les élèves réservent généralement Freud. Il préfère Heidegger à Bergson ou Alain, qui sont plus accessibles au lycée, avec des idées proches et sans liens avec le nazisme », nuance le philosophe.

En plus d’une première partie axée sur la philosophie classique grecque, Ruben Salmon est impressionné par l’utilisation d’George Orwell et l’évocation des écrits poétiques pour traiter des limites de la parole. « Je pense notamment au recueil Poèmes à Lou d’Apollinaire qui utilise un vocabulaire guerrier pour évoquer la sensualité. »