Installer un modèle LLM type ChatGPT sur PC ou Mac : guide complet.
1. Il est possible d’avoir votre propre ChatGPT, qui tourne directement sur votre ordinateur, sans dépendre d’un service en ligne, avec un PC ou Mac correct et quelques astuces.
2. Un Mac mini M4 avec 16 Go de RAM peut faire tourner des modèles 7B à 13B sans difficulté.

Saviez-vous qu’il est possible d’installer votre propre ChatGPT, qui fonctionnerait directement sur votre ordinateur sans dépendre d’un service en ligne ? Les grands modèles de langage, ou LLM (Large Language Models), ne sont plus réservés exclusivement aux géants du cloud. Aujourd’hui, avec un PC ou un Mac adéquat et quelques astuces, vous pouvez les faire fonctionner chez vous.
Pourquoi faire cela ? Pour protéger votre vie privée, éviter les abonnements coûteux ou simplement personnaliser une IA à votre goût. Dans ce guide, nous vous expliquons tout, étape par étape.
Qu’est-ce qu’un LLM ? C’est comme ChatGPT ?
Un LLM, ou Large Language Model (grand modèle de langage en français), est une IA entraînée sur de vastes ensembles de textes pour comprendre et générer le langage humain. Concrètement, cela signifie qu’il peut discuter, répondre à des questions, rédiger du contenu ou même coder, un peu comme un assistant virtuel avancé. Le principe est simple : on lui donne une instruction (un prompt), et il utilise ses milliards de paramètres – des connexions apprises – pour fournir une réponse cohérente. ChatGPT est un exemple bien connu de LLM, développé par OpenAI, mais il existe de nombreux autres modèles comme LLaMA, Mistral ou DeepSeek, souvent gratuits et open-source.
Pour aller plus loin
Qu’est-ce qu’un LLM ? Comment fonctionnent les moteurs de ChatGPT, Gemini et autres ?
Alors, est-ce exactement comme ChatGPT ? Pas tout à fait. ChatGPT est une version très polie et optimisée d’un LLM, avec des guardrails (des protections) pour garantir la sécurité, et une interface prête à l’emploi dans le cloud. Les LLM installés en local sont souvent plus bruts : ils dépendent de la configuration et du matériel (PC ou Mac) que vous utilisez. Ils peuvent être tout aussi puissants, voire très personnalisables – vous pouvez les entraîner sur vos propres textes –, mais ils peuvent manquer de la finition et de la facilité d’accès de ChatGPT. Bien sûr, vous pouvez obtenir une interface aussi intuitive que celle de ChatGPT, selon vos besoins.
Pourquoi installer un LLM chez soi ?
Commençons par le principal avantage : la confidentialité. Lorsque vous utilisez une IA en ligne, vos conversations sont souvent stockées sur des serveurs distants. De multiples pannes sur des services tels que ChatGPT, Grok ou Gemini ont été observées ; ces services ne sont pas toujours disponibles à 100 % et, surtout, ne garantissent pas une sécurité totale.

Un incident en 2023 chez OpenAI a révélé que les historiques des utilisateurs pouvaient fuiter par erreur – ce qui n’est pas très rassurant si vous traitez des données sensibles. Avec un LLM local, tout reste chez vous. Rien ne sort de votre ordinateur, point final. C’est un argument de poids pour les entreprises ou les personnes soucieuses de leur vie privée.
Ensuite, l’autonomie est un autre aspect crucial. Il n’est pas nécessaire d’être connecté à Internet pour faire fonctionner votre IA personnelle. Que vous soyez à la campagne ou dans un avion, elle sera toujours disponible. En termes de rapidité, si votre machine est bien équipée, vous évitez les latences réseau qui peuvent ralentir les services cloud. Comme vous le verrez, même sur un MacBook M1 bien optimisé, un LLM local dépasse un PC classique en réactivité. Ajoutez à cela l’absence de pannes de serveur ou de quotas imposés par un fournisseur, et vous pourrez bénéficier d’une véritable liberté.
Quant aux coûts, à première vue, vous devrez investir un peu dans du matériel (nous en reparlerons plus loin), mais sur le long terme, c’est souvent plus économique que de payer une API cloud à chaque mot généré. Pas de factures surprises ni de hausses tarifaires imprévues. Une fois votre PC ou GPU prêt, votre IA ne vous coûtera que quelques watts d’électricité.
Enfin, ultime avantage : vous pouvez personnaliser votre modèle. Modifier ses paramètres, l’entraîner sur vos propres textes, voire le connecter à vos applications personnelles – avec un LLM local, vous avez le contrôle total.
Cependant, attention, ce n’est pas une solution magique. Il vous faut une machine capable, et l’installation peut intimider les débutants. Les modèles les plus volumineux, ceux possédant des centaines de milliards de paramètres, demeurent hors de portée des PC ordinaires – il s’agit de supercalculateurs. Cela dit, pour des usages courants (discussion, rédaction, programmation), les modèles open-source plus légers conviennent amplement.
Quels modèles choisir ?
En ce qui concerne les modèles, le choix est vaste. Prenons DeepSeek R1, par exemple. Lancé début 2025, ce modèle open-source a rencontré un grand succès avec ses versions de 7 milliards (7B) et 67 milliards (67B) de paramètres. Il excelle en raisonnement et en génération de code, et sa version 7B fonctionne très bien sur un PC adéquat. Une autre vedette est LLaMA 2, développé par Meta. Disponible en versions 7B, 13B et 70B, il est très apprécié pour sa flexibilité et sa licence gratuite – même pour un usage professionnel. Le 7B est parfait pour commencer, tandis que le 70B nécessitera du matériel plus performant.
Il y a également Mistral 7B, modèle français. Avec ses 7,3 milliards de paramètres, il surpasse certains modèles deux fois plus gros lors de certains tests, tout en restant léger. C’est un bon choix si vous disposez d’une carte graphique avec 8 Go de mémoire vidéo (VRAM).
Mistral Small représente l’un des derniers LLM de Mistral AI, cette startup française réputée. Ce modèle, lancé début 2025 dans sa version « Small 3.1 », est conçu pour être léger et efficace, avec 24 milliards de paramètres (24B). Il est suffisamment robuste pour rivaliser avec des modèles comme GPT-4o Mini. Concrètement, il peut fonctionner sur un PC ou un Mac sans nécessiter un investissement matériel exorbitant, à condition d’avoir un peu de mémoire vive à disposition.
Google propose également son LLM open-source nommé Gemma, une famille de modèles optimisés pour une exécution locale. Gemma 2B et Gemma 7B sont conçus pour fonctionner sur des machines modestes, y compris les Mac M1/M2/M3/M4 et les PC dotés de GPU RTX.
La liste des LLM open-source s’allonge mois après mois. Mentionnons les initiatives comme GPT4All, qui regroupent des dizaines de modèles prêts à l’emploi via une interface unifiée. GPT4All supporte plus de 1000 modèles open-source populaires, dont DeepSeek R1, LLaMA, Mistral, Vicuna, Nous-Hermes et bien d’autres.
En résumé, vous aurez l’embarras du choix – des petits modèles ultra-légers à exécuter sur CPU jusqu’aux grands modèles quasi équivalents à ChatGPT, si votre machine est adaptée. Il vous suffit de sélectionner celui qui répond à vos besoins (langue, type de tâche, performances) et à votre matériel.
En termes de matériel, il n’est pas nécessaire d’avoir un supercalculateur, même si ces derniers deviennent de plus en plus accessibles, avec les lancements de Nvidia et AMD cette année… y compris un Mac Studio.
Pour aller plus loin
Voici les deux premières machines de Nvidia pour faire de l’IA à la maison : des PC qui sont des supercalculateurs personnels.
Un PC avec un processeur récent (par exemple, Intel i7 ou AMD Ryzen 7), au moins 16 Go de RAM et une carte graphique NVIDIA (avec un minimum de 8 Go de VRAM) fera l’affaire. Si vous avez un GPU RTX 3060 ou supérieur, c’est encore mieux – grâce à CUDA, cela accélère l’ensemble.
Notez qu’un GPU n’est pas obligatoire, mais il est fortement recommandé pour bénéficier de performances interactives. Pour les LLM, la mémoire vidéo (VRAM) est essentielle : elle doit être capable de contenir au moins une partie des paramètres du modèle. La taille de la fenêtre de contexte (mémoire de la conversation) dépend également de la VRAM disponible… d’où l’exigence de 8 Go de VRAM au minimum. En pratique : un modèle Llama 7B en 4 bits consomme environ 4 Go VRAM, un 13B 8 Go, un 30B 16 Go, un 70B 32 Go. D’ailleurs, même Nvidia exige pour son outil Chat With RTX d’avoir une RTX 30/40 avec au moins 8 Go de VRAM et 16 Go de RAM système.
Pour aller plus loin
Quelles sont les meilleures cartes graphiques en août 2025 ? Le comparatif des GPU.
Sur Mac, les puces M1/M2 avec 16 Go de RAM fonctionnent aussi très bien, même sans GPU dédié, grâce aux optimisations telles que Metal. Bien sûr, plus vous avez une puce ARM récente et puissante avec de la mémoire vive unifiée, mieux c’est.
Pour aller plus loin
MacBook Air, MacBook Pro, Mac Mini… quels sont les meilleurs MacBook et Mac de bureau ?
Pour le stockage, prévoyez entre 10 et 40 Go sur un SSD pour les fichiers du modèle. Avec cela, vous pouvez déjà faire fonctionner un Mistral 7B ou un LLaMA 2 13B sans difficulté. Un SSD est vivement recommandé pour charger les modèles plus rapidement en mémoire… Si vous envisagez d’essayer plusieurs modèles, quelques dizaines de Go d’espace libre sont nécessaires.
Installation d’un LLM sur notre machine
Comme précisé précédemment, tout dépend de vos besoins, de vos objectifs et de votre niveau technique.
| Niveau | Objectif | Exemples d’outils |
| 🟢 Débutant | Interface simple, prêt à l’emploi | LM Studio, GPT4All, Chat With RTX |
| 🔵 Intermédiaire | Ligne de commande, contrôle plus précis | Ollama, Llama.cpp, LocalAI |
| 🔴 Avancé | Personnalisation, fine-tuning | Hugging Face Transformers, Text-Generation-WebUI |
Je parie que vous êtes maintenant impatient ; passons à la pratique.
Débutant : interface visuelle
L’idée ici est de télécharger un modèle et de l’utiliser comme un chatbot, sans passer par des lignes de commande.
LM Studio
Pour ceux qui cherchent une solution clé en main, sans ligne de commande, avec une interface conviviale ressemblant à celle de ChatGPT, LM Studio est probablement le meilleur choix. Cette application vous permet de télécharger un modèle, de le lancer et de discuter avec lui en quelques clics.

Sur Windows, macOS et Linux, l’installation est rapide. Il suffit de se rendre sur le site officiel, lmstudio.ai, de télécharger l’installateur correspondant à votre système, puis de l’exécuter.
Sur Mac, il suffit de glisser l’application dans le dossier Applications. Sur Windows, lancez l’exécutable et suivez les étapes classiques d’installation. Une fois LM Studio ouvert, l’interface vous propose d’aller chercher un modèle de langage. Une section dédiée affiche les modèles disponibles, avec des descriptions et des recommandations. Pour un bon équilibre entre performances et qualité des réponses, Mistral 7B est un excellent point de départ. Son poids est de seulement quelques Go et il fonctionne bien sur la plupart des machines récentes.

Une fois votre modèle téléchargé, dirigez-vous vers l’onglet « Chat ». Vous pouvez poser n’importe quelle question et l’IA vous répondra immédiatement, en local, sans passer par un serveur distant. Si vous souhaitez aller un peu plus loin, LM Studio permet d’ajuster des paramètres tels que la longueur de la réponse, la créativité du modèle ou encore la gestion de la mémoire conversationnelle.
GPT4All
Pour une alternative, GPT4All propose une approche similaire. Son interface est un peu plus rudimentaire mais reste simple à utiliser. Vous pouvez également télécharger des modèles open-source comme Llama 2 ou DeepSeek, et les utiliser en local avec une interface de chat intuitive.

L’installation est tout aussi simple : il suffit de télécharger l’application depuis gpt4all.io, de l’installer, puis de choisir un modèle pour commencer à discuter.
Chat with RTX
Si vous possédez une carte graphique NVIDIA RTX, vous pouvez également essayer Chat With RTX, une solution proposée directement par NVIDIA.

Cette application est spécialement optimisée pour tirer parti des GPU RTX et permet d’exécuter des modèles comme Llama 2 ou Mistral 7B avec fluidité. Le téléchargement se fait depuis le site officiel de Nvidia, et l’installation est aussi simple que celle d’un jeu vidéo. L’application propose une interface épurée où vous pouvez tester directement le modèle et observer les performances offertes par votre GPU.
Intermédiaire : lignes de commande et polyvlance
Si vous souhaitez un contrôle accru sur le fonctionnement du modèle, l’exécution via la ligne de commande est une excellente option.
Ollama
Cela vous permet de gérer les modèles plus finement, d’optimiser leurs performances et même de les appeler depuis d’autres applications. La solution la plus accessible pour utiliser un LLM en ligne de commande, sans trop de complexité, est Ollama.
Sur Mac et GNU/Linux, l’installation est très simple grâce à Homebrew. Une seule commande dans le terminal suffit : winget install ollama ou curl -fsSL https://ollama.ai/install.sh | sh.
Une fois installé, l’utilisation est tout aussi simple. Pour télécharger et exécuter un modèle, il suffit de taper dans le terminal : ollama run mistral… Le modèle se télécharge automatiquement et se lance en quelques secondes. Vous pouvez maintenant lui poser n’importe quelle question, directement en ligne de commande.
Pour un contrôle encore plus précis sur les modèles, Llama.cpp est une alternative plus technique mais extrêmement performante. Il fonctionne sur toutes les plateformes et permet d’optimiser l’exécution des modèles selon le matériel disponible. L’installation requiert quelques étapes supplémentaires.
Llama.cpp s’avère particulièrement utile si vous souhaitez expérimenter différents niveaux de quantification, c’est-à-dire réduire la taille mémoire du modèle en compressant certains calculs pour améliorer les performances. C’est un excellent outil pour obtenir de meilleures performances sur des machines modestes, tout en maintenant un bon niveau de qualité des réponses.
Utiliser un LLM en ligne de commande vous donne aussi accès à des intégrations plus flexibles. Vous pouvez par exemple connecter Ollama ou Llama.cpp à un script Python, ou encore les utiliser en mode serveur pour interagir avec une API locale. C’est une excellente manière d’avoir un assistant IA plus puissant et adaptable qu’une interface graphique standard.
Si vous souhaitez intégrer un LLM dans un site web, voici comment rendre Ollama disponible en tant qu’API locale : ollama serve… Cela ouvre une API compatible avec OpenAI sur http://localhost:11434. Vous pouvez alors interroger votre LLM depuis une page web, localement, sans dépendance externe.
LocalAI
Si vous cherchez une solution plus polyvalente qui ne se limite pas à la génération de texte, LocalAI est un excellent choix. Contrairement aux outils comme LM Studio ou GPT4All, qui se concentrent sur les LLM, LocalAI est conçu comme une alternative open-source aux API d’OpenAI. Il permet non seulement d’exécuter des modèles de langage, mais aussi de gérer des fonctionnalités avancées comme la transcription audio, la génération d’images ou encore l’intégration avec des bases de données vectorielles.
L’installation est assez simple et fonctionne sur Windows, macOS et Linux. Sur une machine Linux ou Mac, on peut l’installer via Docker pour éviter de devoir configurer manuellement les dépendances. Une seule commande suffit pour lancer un serveur LocalAI prêt à l’emploi, et la documentation est claire.

Une fois lancé, LocalAI propose une API entièrement compatible avec OpenAI, ce qui signifie que toutes les applications utilisant des requêtes OpenAI (comme ChatGPT API) peuvent être redirigées vers votre serveur local. Vous pouvez ensuite ajouter des modèles en les téléchargeant directement depuis Hugging Face ou en utilisant des backends comme llama.cpp pour les modèles de texte, whisper.cpp pour la transcription audio ou encore Stable Diffusion pour la génération d’images.
Si vous êtes à l’aise avec les lignes de commande et que vous recherchez une solution qui va bien au-delà du simple chatbot, LocalAI est un outil puissant qui mérite d’être testé. En combinant des modèles de texte, la reconnaissance vocale, la génération d’images et des embeddings, il transforme votre ordinateur en véritable assistant IA local, capable de traiter différents types de données sans jamais envoyer une requête sur Internet.
Avancé : personnalisation et fine-tuning
Si vous souhaitez aller encore plus loin, il est possible de personnaliser votre modèle et même de l’entraîner sur vos propres données. Pour cela, l’outil de référence est Hugging Face Transformers. Cette bibliothèque open-source vous permet de télécharger, exécuter, modifier et entraîner des modèles de manière très flexible.
L’installation est relativement simple. Sur Windows, macOS et Linux, il suffit d’installer les bibliothèques nécessaires via pip : pip install torch transformers accelerate.
Ensuite, les choses se corsent : il faut utiliser un script Python pour charger le modèle et générer du texte… L’avantage de cette approche est que vous pouvez modifier les hyperparamètres, affiner les réponses et tester plusieurs modèles très facilement.
Si vous voulez personnaliser un modèle avec vos propres données, vous pouvez utiliser QLoRA, une technique permettant de fine-tuner un LLM sans nécessiter une énorme puissance de calcul. Elle vous permet par exemple de spécialiser un modèle sur un domaine spécifique (finance, droit, santé). Mais entre nous, si vous arrivez à ce stade, vous n’avez probablement pas besoin de nous.
Exemple avec un Mac mini M4
Si vous partez de zéro, pas de souci. Avec l’arrivée du Mac mini M4, Apple a encore amélioré les performances de ses puces Apple Silicon.
Ce modèle au prix compétitif est une plateforme idéale pour exécuter des modèles de langage locaux, faire de la transcription audio en temps réel, et même générer des images et vidéos IA avec des performances impressionnantes.

Un Mac mini M4 avec 16 Go de RAM peut exécuter des modèles de 7B à 13B sans difficulté. Un modèle comme Mistral 7B, optimisé pour Metal et le GPU Apple, offre des réponses instantanées avec une consommation d’énergie minimale. Personnellement, je me sers de DeepSeek R1 Distilled (Qwen 7B).
Vous pouvez facilement utiliser LM Studio ou Ollama pour interagir avec l’IA en local, sans passer par le cloud. Si vous travaillez dans la rédaction, la programmation ou l’analyse de données, le Mac mini devient un assistant personnel hyper-performant, capable de générer du texte, de résumer des documents et même d’analyser des PDF directement depuis un modèle open-source.
Sur un Mac mini M4, Ollama profite de ces optimisations et permet de générer du texte à une vitesse de 10 à 15 tokens/seconde sur un modèle 7B, ce qui est même plus rapide qu’un ChatGPT gratuit.
Avec 24 ou 32 Go de RAM ou plus, le Mac mini M4 peut gérer des modèles plus lourds comme Llama 2 13B en pleine précision, ou même des modèles 30B en version optimisée. Cela vous permet d’obtenir des réponses plus détaillées et précises, tout en restant dans un environnement 100 % local. Si vous travaillez dans la recherche ou la data science, vous pouvez entraîner des modèles plus petits, les ajuster avec QLoRA et les exécuter directement sur votre Mac sans avoir besoin d’un serveur distant.
Alors, on tente ?
Vous l’avez compris, exécuter un LLM sur un ordinateur personnel est un projet tout à fait réalisable en 2025, même pour un utilisateur non expert, grâce aux avancées des modèles open-source et aux outils d’installation simplifiés.
L’IA générative n’est plus réservée aux centres de données : tout le monde peut désormais disposer de son propre « ChatGPT personnel » sur son PC, à condition d’y consacrer un peu de temps et de ressources.
Rejoignez-nous de 17 à 19h, un mercredi sur deux, pour l’émission UNLOCK produite par Frandroid et Numerama ! Actus tech, interviews, astuces et analyses… On se retrouve en direct sur Twitch ou en rediffusion sur YouTube !

