Revendiquer une IA souveraine
Depuis 2018, le Gouvernement a lancé une stratégie nationale pour l’intelligence artificielle. Une stratégie dont le but est de positionner la France comme leader européen et mondial de l’IA en passant par plusieurs étapes. Depuis février, et le sommet pour l’action pour l’IA, le Gouvernement a lancé la 3ème étape. Cette phase, comprise au sein du plan France 2030, est orientée vers le développement d’IA au service des politiques publiques et de l’efficacité administrative. L’État entend généraliser le recours à l’IA pour améliorer la qualité et l’efficience de l’action publique. Un plan de déploiement d’outils d’IA générative doit permettre aux agents publics de bénéficier d’assistants IA compétitifs et sécurisés. Toutefois, l’utilisation de modèles IA basés sur des infrastructures étrangères représente un risque important en termes de souveraineté et de sécurité. Pour Emmanuel Macron, disposer de modèles d’IA français et européens est « un enjeu de souveraineté technologique ».
Evoquer une IA souveraine renvoie à la capacité d’un État à concevoir et déployer des IA grâce à ses propres infrastructures, jeux de données et compétences dans le respect de la législation. Être en mesure de construire une IA souveraine c’est éviter la dépendance technologique envers d’autres Etats. Pour relever ce défi, et permettre à la France de concurrencer les géants américains Meta ou OpenAI, l’ensemble de la chaîne de valeurs doit pouvoir être identifié comme français : les capitaux, la formation des ingénieurs, les données, les infrastructures de calcul et la conformité de cette chaîne de valeurs à la réglementation en vigueur.
L’investissement dans la formation est un élément fondamental de la stratégie nationale pour l’IA. Arthur Mensch, cofondateur de Mistral AI est passé par Polytechnique puis le MVA avant de rejoindre Google DeepMind. Stanislas Polu, cofondateur de Dust, est également polytechnicien avant de travailler pour OpenAI. Le parcours de ces deux français reflète bien la tendance générale. En effet, si la France figure déjà parmi les Etats disposant des meilleures formations en IA au monde, notamment à travers l’Ecole Polytechnique ou le master MVA de l’ENS-Saclay, ces français ont ensuite, pour la plupart, rejoint des groupes américains avant de se lancer dans l’entreprenariat. Concevoir une IA française capable de concurrencer les IA chinoises ou américaines est donc sur le plan théorique tout à fait possible. La difficulté de la réalisation apparait après la conception, au moment de recueillir des investissements et de collecter des données conformément à la réglementation française.
En 2025, la France compte près de 1000 start-ups consacrées à l’IA (contre 502 en 2021). Elles ont levé 1,4 milliard d’euros en 2024. Ces levées de fonds proviennent majoritairement d’acteurs économiques étrangers à l’instar de Mistral AI dont la levée de fonds en 2024 était menée par General Catalyst, Salesforce, Nvidia, IBM, Lightspeed ou Andreessen Horowitz, fonds d’investissement ou entreprises nord-américaines. La start-up H, spécialisée dans la création d’agents (ex : réserver un billet d’avion), a également organisé une levée de fonds en 2024 et compte parmi ses investisseurs Accel, UiPath ou encore Amazon. Les investissements, de plusieurs centaines de millions d’euros, sont à la hauteur du coût des ressources nécessaires (GPU ou data centers) pour construire des IA robustes.
Il existe un supercalculateur français nommé Jean Zay sur le plateau de Saclay mais sa puissance de calcul ne concurrence pas directement les outils américains puisqu’il est principalement dédié à la recherche publique française et non aux entreprises privées. Aussi, Mistral AI ou Kyutai ne peuvent en bénéficier et doivent pouvoir compter sur d’autres ressources. Kyutai s’appuie sur Scaleway, hébergeur fondé par Xavier Niel et Mistral AI a quand elle, investi plusieurs milliards dans la construction d’un futur data center dans l’Essonne. Côté hardware, c’est Nvidia qui devrait fournir les GPU. Leader du marché depuis quelques années, il semble complexe de se passer de ce fournisseur pour faire de l’IA. La question de la souveraineté est donc de plus en plus complexe à l’heure d’un monde globalisé. Jusqu’où la souveraineté s’applique-t-elle dans les composantes matérielles d’une IA ? En attendant la création du data center Mistral, les IA développées par les entreprises françaises s’appuient sur d’autres hébergeurs comme l’américain AWS.
Mais l’ouverture d’un data center capable de concurrencer celui de Meta n’est pas seulement un défi technique. Sur le plan légal, l’encadrement du traitement et de la protection des données constitue un enjeu central. Les règles européennes, notamment le RGPD (Règlement général sur la protection des données), imposent une responsabilité accrue aux exploitants d’infrastructures numériques. Cette responsabilité s’élargit dans un contexte lié à l’IA puisque les données traitées pour entrainer les modèles peuvent couvrir des informations sensibles, comme des données médicales ou financières. Pour attester de la souveraineté d’un modèle, il faut pouvoir certifier que celui-ci a été entrainé sur des données respectant le RGPD et l’IA Act. Les jeux de données sur lesquels sont entrainés puis testés les modèles d’IA sont constitués de token ou unité textuelle. Plus le modèle apprend de tokens différents, plus le modèle sera performant. Pour Llama 3.1, plus de 15 000 milliards de tokens ont été nécessaires pendant l’entrainement. Ces jeux de données ne sont pas publics mais l’importance du nombre de données utilisées laisse supposer de la difficulté de recueillir des consentements.
Ainsi, construire une IA souveraine n’est pas un défi aisé mais il peut être relevé pour des cas d’usage précis, comme tente de le faire Common Corpus, le jeu de données utilisé par Pleias, qui représente 2 000 milliards de tokens respectant le RGPD et l’IA Act. La différence d’envergure des jeux de données utilisés met en lumière la difficulté de répondre à toutes les exigences d’une IA souveraine. Ainsi, il est possible de construire une IA souveraine française portée par des ingénieurs formés en France, mais les infrastructures et la législation contraignent les développements et brident toute concurrence avec les géants américains.
Inscrivez-vous à notre newsletter DDET (Des Données et des Territoires), le média qui synthétise l’actualité du numérique et des données, produit par les praticiens de la transformation numérique.