High-tech

Microsoft présente trois modèles IA sur Foundry pour l’indépendance technologique.

Microsoft a officialisé la mise à disposition de trois nouvelles technologies maison, MAI-Transcribe-1, MAI-Voice-1 et MAI-Image-2, sur sa plateforme Microsoft Foundry le 1er avril 2026. Selon Microsoft, MAI-Transcribe-1 prend en charge jusqu’à 25 langues et son coût d’utilisation GPU serait environ 50 % inférieur à celui des alternatives comparables sur le marché.

Microsoft a récemment lancé trois modèles d’intelligence artificielle, développés en interne – MAI-Transcribe-1, MAI-Voice-1 et MAI-Image-2 – sur sa plateforme Microsoft Foundry. Cette initiative vise à renforcer sa position face à OpenAI et Google.
Microsoft ChatGPT contre Google Bard, les deux IA sont représentées par des robots // Source : Image créée par Frandroid avec Midjourney

Durant de nombreuses années, Microsoft a développé son assistant Copilot et ses services associés en utilisant les modèles d’OpenAI, notamment la série GPT. Cette dépendance, qui a été acceptée pendant un certain temps, semble maintenant appartenir au passé. Depuis août 2025, la division Microsoft AI (MAI), dirigée par Mustafa Suleyman, cofondateur de DeepMind et ancien PDG d’Inflection, conçoit et commercialise ses propres modèles fondamentaux.

Le 1er avril 2026, l’entreprise a annoncé la mise à disposition de trois nouvelles technologies internes sur Microsoft Foundry, sa plateforme dédiée aux développeurs d’applications d’IA.

Des modèles mieux adaptés

Ces trois modèles – MAI-Transcribe-1 pour la reconnaissance vocale, MAI-Voice-1 pour la synthèse vocale et MAI-Image-2 pour la génération d’images – ne sont pas de simples prototypes de laboratoire. Selon Microsoft, ils alimentent déjà plusieurs produits destinés au grand public et aux professionnels, tels que Copilot, Bing, PowerPoint et Azure Speech. Leur accessibilité pour les développeurs externes via Foundry constitue une avancée significative dans la stratégie d’autonomisation technologique de l’entreprise.

MAI-Transcribe-1 : reconnaissance vocale à coût réduit

Le modèle MAI-Transcribe-1, entièrement conçu en interne par Microsoft, prend en charge jusqu’à 25 langues et vise un niveau de précision reconnu par l’entreprise. Selon Microsoft, le coût d’utilisation GPU serait environ 50 % inférieur à celui des alternatives disponibles sur le marché, une assertion qui doit encore être confirmée en conditions réelles d’exploitation.

blank
Microsoft MAI-Transcribe-1 erreurs // Source : Microsoft

Sur le plan technique, ce modèle repose sur une architecture combinant un encodeur audio bidirectionnel et un décodeur de texte de type transformer. Il accepte des fichiers audio dans les formats MP3, WAV et FLAC, avec une taille maximale de 200 Mo par fichier. À terme, selon le fabricant, MAI-Transcribe-1 devrait également prendre en charge la diarisation (identification des locuteurs), le biais contextuel pour les termes spécialisés, et le traitement en flux continu en temps réel, des fonctionnalités actuellement présentes dans des solutions comme Whisper d’OpenAI ou les outils Google Speech-to-Text. Concernant le tarif, Microsoft propose un prix de 0,36 $ par heure d’audio transcrite.

Selon Microsoft, MAI-Transcribe-1 est déjà intégré dans le mode voix de Copilot et dans la fonction de dictée de Copilot.

MAI-Voice-1 : une synthèse vocale rapide

MAI-Voice-1, le modèle de génération vocale de Microsoft, avait été présenté en août 2025 lors de l’annonce des premiers modèles MAI. Sa caractéristique principale réside dans sa capacité à produire une minute entière d’audio en moins d’une seconde sur un seul GPU. Cependant, plusieurs tests externes semblent indiquer que le délai est plutôt de trois à quatre secondes par extrait, ce qui reste malgré tout plus rapide que la majorité des solutions concurrentes sur le marché.

Le modèle alimente actuellement les fonctionnalités Audio Expressions et Podcast de Copilot, ainsi que Copilot Daily. Il est proposé aux développeurs sur Foundry au tarif de 22 $ par million de caractères. MAI-Voice-1 se mesure directement à ElevenLabs, OpenAI TTS ou Google Text-to-Speech.

MAI-Image-2 : génération d’images parmi les meilleures

Le troisième modèle, MAI-Image-2, représente la deuxième génération du moteur de création d’images de Microsoft. Son prédécesseur, MAI-Image-1, lancé en octobre 2025 et intégré à Bing Image Creator et Copilot en novembre, avait commencé dans le top 10 du classement LMArena. Cependant, MAI-Image-2 a atteint un rang encore plus élevé.

blank
Microsoft MAI-Image-2 // Source : Microsoft

En effet, toujours selon Microsoft, ce modèle a débuté troisième au classement Arena.ai pour les familles de modèles d’images, un classement qui est établi par vote humain en aveugle.

Ce modèle est conçu pour générer des visuels photoréalistes, avec une attention particulière portée à l’éclairage, aux textures et à la précision des détails. Selon la marque, il a été développé avec une sélection rigoureuse des données d’entraînement et des pratiques respectueuses du droit d’auteur pour minimiser les biais et les répétitions visuelles. Avec Bing Image Creator, les utilisateurs peuvent désormais choisir entre MAI-Image-2, DALL-E 3 et GPT-4o d’OpenAI, ce qui illustre la double posture de Microsoft, à la fois fournisseur de sa propre technologie et plateforme d’intégration multi-modèles.

Malgré ces avancées, Microsoft continue de maintenir son partenariat avec OpenAI, au moins jusqu’en 2032, selon Suleyman.