Google présente TurboQuant, recréé en 7 jours grâce à l’IA.
Un développeur indépendant, Tom Turney, a réussi à recréer et améliorer l’algorithme de Google nommé TurboQuant en seulement 7 jours. Grâce à cette avancée, il est désormais possible de faire tourner des modèles d’intelligence artificielle de 35 milliards de paramètres sur un simple MacBook.

L’histoire débute avec une publication scientifique qui est presque passée inaperçue du grand public, mais qui a déséquilibré les marchés financiers. À la fin mars 2026, lors de la conférence ICLR, Google a présenté un nouvel algorithme appelé TurboQuant. Le but : diminuer les besoins en RAM des intelligences artificielles demandeuses et potentiellement mettre fin à la crise de la RAM qui affecte le grand public.
La société a révélé les mathématiques derrière cette avancée, mais a fait un choix surprenant : ne pas partager de code exploitable.
C’est ici que Tom Turney, un développeur indépendant, entre en scène. Équipé de son terminal et de l’assistant IA Claude, il a décidé de recréer cette technologie de zéro, comme il l’a mentionné sur Medium. En seulement 7 jours, il a réussi à reproduire et même à améliorer l’algorithme secret de Google.
Le problème de la mémoire des intelligences artificielles
Pour comprendre cet exploit, il est nécessaire de se pencher sur le fonctionnement des modèles de langage actuels. Lorsque vous dialoguez avec une intelligence artificielle, celle-ci ne se contente pas de lire votre dernière phrase. Elle doit conserver l’historique complet de la discussion pour rester cohérente. Ces informations sont stockées dans ce que l’on appelle le cache KV, pour « Key-Value ».
Le souci avec ce cache, c’est qu’il augmente linéairement à chaque nouveau mot produit. Dans le cadre d’une longue conversation, cette mémoire temporaire finit par consommer plus d’espace que le modèle d’intelligence artificielle lui-même.
Pour aller plus loin
Votre ordinateur ou smartphone peut-il faire tourner une IA ? Ce site vous donne la réponse en un clic
Cette situation est la principale cause de la difficulté à faire fonctionner des modèles performants sur un ordinateur personnel. L’algorithme de Google offre une solution mathématique à ce blocage. Si vous souhaitez approfondir les mécanismes de base, nous avons déjà expliqué comment cette solution permet de réduire considérablement la consommation de mémoire de nos IA.
Un sprint de sept jours pour dépasser Google
Face au document de recherche de Google, Tom Turney n’a pas tardé à agir. En sept jours, il a transformé des équations complexes en un programme fonctionnel.
Les trois premiers jours ont été dédiés au prototypage en Python pour vérifier les mathématiques fondamentales. Par la suite, il a porté ce code vers des langages plus performants pour tirer parti des puces graphiques des ordinateurs Apple.
La partie la plus captivante réside dans l’optimisation. La première version de son code était relativement lente. Selon les données divulguées par le développeur, le traitement initial atteignait 739 tokens par seconde (l’unité de performance des modèles d’IA).
À force de travail minutieux sur la gestion de la mémoire et des calculs graphiques, il a réussi à porter cette vitesse à 2747 tokens par seconde. Le résultat final est non seulement opérationnel, mais se révèle plus rapide que les méthodes de compression standards existantes.
Toutefois, le développeur ne s’est pas contenté de cela. Il a ajouté une couche de recherche supplémentaire à l’algorithme de Google, baptisée Sparse V. Il a constaté que lors de longues conversations, l’intelligence artificielle ne prend en considération qu’une infime partie des mots stockés.
En choisissant de ne pas traiter les données non pertinentes, il affirme pouvoir ignorer 90 % des décompressions de valeurs. L’augmentation de vitesse est significative, et selon ses propres tests, l’impact sur la qualité des réponses de l’IA est de « 0,0000 ». Une précision sans équivoque.
La panique de Wall Street face à une équation
L’annonce de Google a engendré une réaction inattendue sur les marchés financiers. Ceux-ci, craignant que cette optimisation logicielle ne réduise la demande en composants matériels (tels que la RAM), ont massivement vendu leurs actions.
Des sociétés comme Samsung, Micron ou NVIDIA ont vu leurs cours chuter drastiquement en l’espace de 48 heures. Le PDG de Cloudflare, Matthew Prince, a qualifié cette publication de « Google’s DeepSeek moment ».
Cependant, cette réaction du marché est simpliste. Rendre une technologie plus économe en ressources ne diminue pas forcément sa consommation globale, bien au contraire. C’est le paradoxe de Jevons.
Pour aller plus loin
Cet outil intègre déjà Google TurboQuant : voici les gains attendus pour votre PC ou Mac
En réduisant le coût matériel nécessaire pour faire fonctionner ces modèles, de nouvelles possibilités s’ouvrent au grand public. L’intégration rapide de ces découvertes offre un premier aperçu concret de la puissance qui arrive sur nos ordinateurs personnels, avec des applications déjà prêtes à être téléchargées, utilisant l’algorithme Google TurboQuant.
Ce qui s’est passé cette semaine marque un tournant. Le fossé entre la recherche théorique et son application pratique n’a jamais été aussi réduit. Grâce à l’initiative d’un développeur indépendant, il est à présent possible d’exécuter un modèle d’intelligence artificielle de 35 milliards de paramètres, avec un contexte immense, sur un simple MacBook.
Le tout, sans même que l’entreprise à l’origine de l’algorithme ait eu besoin de publier son propre code.

