High-tech

Llama.cpp intègre Google TurboQuant : quels bénéfices pour PC ou Mac ?

TurboQuant propose une réduction de l’usage mémoire d’au moins 6x, permettant à un PC équipé d’une carte graphique milieu de gamme avec 8 ou 12 Go de VRAM d’atteindre des fenêtres de contexte de 32 000 à 64 000 tokens. Les premiers tests sur MacBook avec puces M2 ou M3 rapportent des débits parfois 50 % plus faibles qu’en format classique (f16) selon les réglages.

L’IA locale fait face à un problème d’espace, en plus de ses limitations de puissance. Avec TurboQuant, Google propose une solution permettant de contenir d’énormes contextes dans de petites cartes graphiques.

Le phénomène TurboQuant est impossible à ignorer. Google a fait sensation avec cette nouvelle méthode de quantification du cache KV (Key-Value), promettant de libérer nos machines des contraintes de la mémoire vive.

Pour aller plus loin
La solution innovante de Google contre la crise de la RAM est particulièrement astucieuse : voici TurboQuant

Avec des annonces de gains de performance potentiels allant jusqu’à 8x sur des puces professionnelles, le grand public commence à envisager un MacBook Air capable de faire fonctionner des modèles géants.

Si vous ne le saviez pas encore, il est possible d’exécuter de grands modèles de langage sur de nombreuses machines, y compris des smartphones ou des PC. Vous pouvez avoir votre « ChatGPT » en local. Et cela tombe bien, car TurboQuant est compatible avec llama.cpp, l’un des moteurs d’inférence qui offre un mode interactif similaire à ChatGPT.

L’intégration de TurboQuant dans des outils tels que llama.cpp commence à donner une idée plus précise de ce qui nous attend sur nos PC. C’est une excellente nouvelle pour vos usages, mais ce n’est pas nécessairement l’accélération de vitesse espérée. Nous sommes ici sur une optimisation de l’espace, et non une vitesse magique du processeur.

TurboQuant : nous compressons la mémoire, pas le temps

Le véritable goulet d’étranglement de l’IA locale réside non seulement dans la puissance de calcul brute, mais également dans la mémoire. Plus un modèle est sollicité pour se souvenir d’une longue conversation ou analyser un document important, plus son cache KV, ou mémoire de travail, se remplit. Jusqu’à présent, il était simple : soit vous disposiez de 24 Go de VRAM, soit vous étiez limité à des échanges courts. Avec 8 Go de mémoire partagée entre le CPU et l’iGPU… les échanges étaient encore plus restreints. TurboQuant offre une réduction de l’usage mémoire d’au moins 6x, un chiffre colossal sur le papier.

Plus concrètement, cela signifie qu’un PC muni d’une carte graphique de milieu de gamme avec 8 ou 12 Go de VRAM peut désormais envisager des fenêtres de contexte comprising de 32 000 à 64 000 tokens.

Cependant, attention : si le modèle « tient » désormais en mémoire sans faire planter votre système, cela ne signifie pas qu’il répond nécessairement plus rapidement. Les premiers retours sur le matériel grand public indiquent que les gains de tokens par seconde varient considérablement, voire sont inexistants dans certains cas.

Pourquoi cela ? Car la compression a un coût. Il faut déquantifier les données à la volée pour que le GPU puisse les traiter. De plus, l’étape du « prefill », durant laquelle le modèle lit votre long prompt avant de commencer à répondre, demeure un exercice de calcul intensif.

TurboQuant contribue à stocker le résultat de ce calcul, mais il ne supprime pas le temps nécessaire pour l’effectuer. Sur des machines puissantes comme les H100 de Nvidia, l’optimisation est telle qu’un gain en vitesse est constaté. Sur votre GPU de gamer, l’optimisation permet surtout de ne pas saturer la mémoire dès la dixième question.

Le cas Apple Silicon : un potentiel encore limité

Sur Mac, la situation est encore plus particulière. Les possesseurs de MacBook avec puces M2 ou M3 attendaient beaucoup de l’optimisation Metal pour TurboQuant.

La réalité ? Les premiers tests montrent des débits parfois inférieurs de 50 % par rapport au format classique (f16), en fonction des réglages. Ce n’est pas un échec technologique, mais une indication que les implémentations logicielles sont encore très récentes. L’optimisation pour l’architecture de mémoire unifiée d’Apple exige une précision extrême que les ports actuels n’ont pas encore atteinte.

Le problème sur Mac ne concerne d’ailleurs pas uniquement la capacité, mais aussi la bande passante. Même si TurboQuant réduit l’espace occupé par le cache, la machine doit toujours transporter de grandes quantités de données vers le processeur.

Un MacBook Air disposant de 16 Go de RAM devient plus apte à gérer des prompts longs, ce qui prévient les blocages, mais il ne se transforme pas en station IA haut de gamme. Le véritable gain réside ailleurs : dans la stabilité. Cela permet d’éviter les baisses de performance associées au swap (lorsque la machine utilise le disque dur comme mémoire de secours), rendant ainsi l’expérience plus fluide sur la durée.

Vous pouvez utiliser Atomic Chat, un fork de llama.ccp avec TurboQuant activé. Plusieurs autres projets similaires sont également disponibles. Cela concerne également les GPU Nvidia, avec le support Cuda, de nombreux forks existent.

Regardons désormais au-delà. Ce que TurboQuant apporte réellement, c’est une démocratisation du « long contexte ». Il n’est plus nécessaire d’investir dans un GPU à 2000 euros pour travailler sur des documents longs. Si vous recherchez une amélioration brute de débit, vous risquez d’être déçu. En revanche, si vous souhaitez rendre votre IA locale réellement utile pour traiter davantage de données, c’est une petite révolution.


Retrouvez tous les articles de Frandroid directement sur Google. Abonnez-vous à notre profil Google pour ne rien manquer !