
C’est quoi un token dans l’IA ? Notion primordiale à comprendre
1. Un token, c’est l’unité de base de toute IA générative, et il peut être un mot entier, un bout de mot, ou même un signe de ponctuation.
2. Selon Google, son modèle Gemini 3.5 Flash jouit d’une fenêtre de contexte d’un million de tokens en entrée, ce qui représente environ 700 000 mots en français.

Si vous vous intéressez un peu aux actualités concernant l’IA, vous avez probablement déjà entendu parler du terme « token », souvent utilisé pour discuter du prix ou de l’efficacité d’un grand modèle de langage (LLM).
Le token, ou jeton en français, est l’unité fondamentale de toute IA générative. Comprendre son fonctionnement est donc crucial pour mieux appréhender le domaine de l’intelligence artificielle.
À lire aussi :
Comment installer un modèle LLM type ChatGPT sur PC ou Mac en local ? Voici le guide ultime pour tous
Qu’est-ce qu’un token ?
Il est essentiel de savoir qu’une IA ne lit pas le texte comme nous le faisons. Pour elle, le langage est simplement une séquence de chiffres. Comme l’indique la société de développement Intuz, les machines ne saisissent pas les mots : avant d’être traitée par le LLM, l’écriture doit être convertie en une forme utilisable. Ce processus est appelé tokenisation.
Concrètement, durant cette étape, l’IA scinde votre phrase en segments. Chaque segment est un token. Toutefois, il faut noter qu’un token peut correspondre à un mot entier, à une partie de mot, ou même à un signe de ponctuation. Le modèle opère toujours avec ces éléments décomposés, jamais avec les mots tels qu’ils sont écrits.

Pour donner une idée, la documentation d’OpenAI propose une règle simple : 1 token équivaut à environ 4 caractères, soit environ les trois quarts d’un mot. En d’autres termes, 100 mots représentent environ 130 tokens. Il s’agit d’une moyenne, pas d’une règle fixe : un mot comme « the » correspond à un seul token, tandis qu’un terme plus rare en nécessitera plusieurs.
Pourquoi le français coûte plus cher en tokens
Les francophones peuvent être frustrés de constater que ces modèles d’IA ont été principalement entraînés sur des données en anglais. Cela n’est pas surprenant, la majorité venant des États-Unis.
La tokenisation en anglais s’est donc avérée très efficace. Par exemple, un mot courant comme « amazing » devient un seul token, ce qui est optimal. Malheureusement, son équivalent en français, « incroyable », est souvent découpé en plusieurs parties, par exemple : « incro » + « yable », soit deux tokens.
| En anglais | 1 token ≈ 0,75 mot |
| En français | 1 token ≈ 0,70 mot |
En résumé, exprimer la même idée en français consomme plus de tokens qu’en anglais. Ce phénomène ne concerne pas seulement le français.
Pour autant, nous, francophones, ne sommes pas si mal lotis. Pour les langues plus proches de l’anglais, comme le français, ce phénomène est encore modéré.
Une étude de chercheurs d’Oxford (2023) évalue à environ 50 % le surcoût pour traiter un texte en allemand ou en italien par rapport à l’anglais. Pour les langues n’utilisant pas l’alphabet latin, le coût peut grimper bien plus haut, dépassant même quinze fois pour les langues les plus défavorisées.
Le tableau ci-dessous, basé sur des décomptes publiés par le blog From Tokens to Agents, est révélateur.
| Langue | Phrase de salutation | Nombre de tokens |
|---|---|---|
| Anglais | Hello, how are you? | 6 |
| Espagnol | Hola, ¿cómo estás? | 9 |
| Japonais | こんにちは、お元気ですか? | 11 |
| Hindi | नमस्ते, आप कैसे हैं? | 19 |
| Thaï | สวัสดี คุณเป็นอย่างไร? | 24 |
Pour un message équivalent en substance, le thaï coûte quatre fois plus de tokens que l’anglais. Le français, bien que plus coûteux, se situe cependant dans une situation relativement favorable. C’est l’une des raisons pour lesquelles certains acteurs européens, comme Mistral, qui ont formé leurs modèles sur davantage de données francophones, offrent une tokenisation mieux adaptée à nos langues.
Fenêtre de contexte : la « mémoire » de l’IA
Après avoir saisi la notion de token, il est pertinent d’aborder celle de la fenêtre de contexte. Ce terme désigne la quantité de texte que l’IA est capable de garder en mémoire simultanément.
Par exemple, selon Google, son modèle Gemini 3.5 Flash dispose d’une fenêtre de contexte d’un million de tokens en entrée (input), équivalent à environ 700 000 mots en français (contre 750 000 mots en anglais).
À lire aussi :
Gemini : notre guide pour tout comprendre de l’IA de Google
Concrètement, vous pouvez envoyer une requête de 700 000 mots (l’équivalent de plusieurs romans) en une seule fois, et Gemini 3.5 Flash devrait être capable de tout lire et de tout prendre en compte.
Dans le cadre d’une conversation avec une IA, cette fenêtre de contexte lui permet de ne pas perdre de vue vos premiers messages et de bien suivre les sujets abordés tout au long de l’échange.
La taille des fenêtres de contexte a d’ailleurs considérablement augmenté. Il est à noter qu’au début de ChatGPT, la capacité était d’environ 4 000 tokens.
Les tokens et le coût de l’IA
Enfin, abordons le volet financier. Dans les abonnements payants des assistants IA ou dans le coût d’exploitation des API utilisées par les développeurs et les entreprises, les tokens sont la base de la facturation, et non les mots ou les caractères. Par ailleurs, lors du calcul, on fait la distinction entre les tokens envoyés (tokens d’entrée) et les tokens que l’IA renvoie (tokens de sortie), ces derniers étant souvent facturés à un tarif plus élevé.
À titre d’exemple, pour le puissant modèle Claude Fable 5, il en coûte 10 dollars pour un million de tokens en entrée et 50 dollars pour un million de tokens en sortie. L’écart est conséquent.

Comprendre le concept de token est donc primordial pour évaluer le coût d’une intelligence artificielle. Un prompt plus concis signifie moins de tokens, donc une dépense réduite et plus de place dans la fenêtre de contexte. Parmi les conseils généraux, il est conseillé d’aller droit au but dans vos prompts et de structurer, dans la mesure du possible, vos consignes sous forme de liste à puces.
À lire aussi :
La solution radicale de Google contre la crise de la RAM est super astucieuse : voici TurboQuant
Pour un usage quotidien sans frais, ces éléments demeurent théoriques : vous ne percevez pas vraiment les tokens. Cependant, dès que vous choisissez un abonnement avancé ou que vous connectez une IA à vos propres outils via une API, maîtriser la notion de tokens devient essentiel pour être à la fois efficace et économe.
