Xiaomi Auto World Model : la réponse pour la conduite assistée en Chine

26 mai 2026

Xiaomi a présenté le 26 mai 2026 son nouveau cadre d’intelligence artificielle, le Xiaomi Auto World Model, qui combine la reconstruction 3D d’une scène et la génération vidéo par IA. La marque revendique plus de 100 000 séquences de données synthétiques déjà injectées dans l’entraînement de ses modèles de perception.

Xiaomi a annoncé le lancement d’un nouveau cadre d’intelligence artificielle pour ses automobiles, appelé Xiaomi Auto World Model. Ce projet vise à apprendre aux véhicules à anticiper les situations routières plutôt qu’à simplement les décrire. L’ambition est élevée, mais Xiaomi se trouve en retard par rapport à des entreprises comme Waymo, Wayve et Nvidia.

La conduite assistée peut être comparée à une auto-école où un élève ne quitte jamais le garage. Il visionne des milliers de vidéos, reçoit des explications sur des feux rouges, des piétons et des camions qui changent de voie, pour finalement se voir dire lors de l’examen : « Allez-y, prenez le périphérique un vendredi soir ». Cela illustre bien le défi que représente la conduite assistée moderne. Observer est simple, mais prédire les actions qui se dérouleront dans deux secondes l’est beaucoup moins. C’est cette lacune que Xiaomi tente de combler avec son nouveau « world model ».

Dévoilé le 26 mai 2026, le Xiaomi Auto World Model est une plateforme d’IA qui unit deux approches précédemment dissociées : la reconstruction 3D d’images et la génération vidéo par intelligence artificielle. La première technique permet de reproduire ce que les caméras ont vu, sans être en mesure de créer des images qui n’ont pas été filmées auparavant. La seconde, quant à elle, est capable d’imaginer des scènes inédites, mais peut rapidement aboutir à des incohérences. Xiaomi a donc décidé de combiner ces deux méthodes dans un processus intégré, revendiquant des performances à la pointe des standards établis par Waymo et nuScenes, qui sont des références dans le secteur.

Ce cadre repose sur deux modules, nommés WorldRec et WorldGen : le premier recrée une scène 3D à partir de quelques points de repère en une dizaine de secondes, tandis que le second produit des images en quatre étapes de débruitage, prenant 0,19 seconde par image, pour des vidéos pouvant durer jusqu’à une minute. Cette boucle intégrée est censée éviter les dérives qui affectent les modèles concurrents lors de généralisations prolongées.

Xiaomi affirme également avoir intégré plus de 100 000 séquences de données synthétiques dans l’entraînement de ses modèles de perception.

Concernant l’utilisation pratique, ce que Xiaomi désigne « world model » a trois fonctions principales : générer des situations dangereuses qui ne se produisent pas dans la réalité (comme un cycliste apparaissant sous la pluie la nuit), simuler des accidents réels pour améliorer les réponses des véhicules et alimenter une « académie de conduite assistée » qui montre aux conducteurs, par le biais de vidéos, comment la voiture aurait réagi dans des circonstances délicates. Cette dernière fonctionnalité est déjà mise en œuvre pour les modèles Xiaomi en Chine. Le reste demeure de la recherche et développement, une phase où la compétitivité se corse.

En effet, Xiaomi n’est pas le seul acteur dans ce secteur. Ni la première marque chinoise à adopter cette stratégie : Nio a lancé une version de son propre Nio World Model dans ses véhicules depuis mai 2025, tandis que sa sous-marque Onvo l’a intégré dans le SUV L90 de l’année 2026. Xiaomi s’intègre donc dans une course déjà engagée, même sur son propre marché.

Waymo a annoncé en février son propre modèle, le Waymo World Model, basé sur Genie 3 de Google DeepMind, capable de générer des environnements interactifs photoréalistes avec une sortie synchronisée de caméra et lidar. De son côté, Wayve a développé GAIA-3, un modèle de 15 milliards de paramètres formé sur dix fois plus de données que la version antérieure. Enfin, Nvidia a lancé Cosmos, pré-entraîné sur 20 millions d’heures de vidéos.

Face à de telles innovations, Xiaomi met en avant une architecture élégante, mais reste silencieux quant à la taille de son modèle et les volumes d’entraînement, ce qui pourrait susciter des inquiétudes.

Pour les acheteurs de modèles Xiaomi SU7 ou YU7, les avantages à court terme sont limités : une meilleure simulation pourrait signifier un entraînement plus rapide et des mises à jour de conduite assistée plus fréquentes, mais aucun changement notable ne sera à attendre au volant dans les semaines ou même les mois à venir.

Pour Xiaomi, cette initiative est un signal fort adressé à l’industrie : la marque, qui a vendu 411 800 véhicules en 2025 et qui projette un modèle Sky Nomad avec 1 500 km d’autonomie, souhaite diminuer sa dépendance aux technologies d’intelligence artificielle fournies par d’autres entreprises. Pour réussir sur le marché des voitures électriques en Chine en 2026, il est impératif de proposer une vision crédible de l’IA, sinon elle risque de se faire distancer par des concurrents comme BYD, Nio, Xpeng et Huawei.

Les doutes demeurent quant aux performances annoncées. Xiaomi ne rend pas publics les résultats bruts des benchmarks Waymo et nuScenes, se contentant d’un label « SOTA ». Par ailleurs, la conduite assistée en Chine est juridiquement confinée au niveau 2.

En Europe, deux pays ont déjà autorisé le FSD de Tesla (niveau 2 selon le règlement UN R-171), tandis que la conduite entièrement autonome de niveau 3 est permise dans certaines circonstances limitées, et le niveau 4 reste principalement réservé à des zones ou usages très spécifiques.

Ainsi, la conduite complètement autonome n’est pas encore accessible au grand public. Le modèle SU7 Ultra, avec ses 1 500 ch, n’est pas prêt à prendre la route, et son intelligence ne le sera pas davantage.