Pléias et la définition de l’« IA Open Source »
Les différentes polémiques autour des données utilisées (et qui ont fuitées) pour l’entraînement du LLM DeepSeek ont relancé les questionnements autours des données privées, autorisées, réutilisées avec l’IA. Dans ce paysage de grands modèles de langages internationaux se positionne une start-up française un peu à part : Pleias, qui a publié au printemps 2024 toute une famille de modèles multilingues entraînés exclusivement sur des données ouvertes. Celles-ci respectent donc le triumvirat gagnant des données en IA : droits d’auteurs/éthique/RGPD et se positionne comme une « IA Open Source ».
Mais c’est quoi une IA Open Source ?
En fait, tout le monde n’est pas tellement d’accord sur cette définition à l’heure actuelle. L’OSI (Open Source Initiative) a publié à l’automne 2024, en plus des exigences d’ouverture sur le code source et les poids du modèle, celles de publication des informations sur les données d’entraînement (origine, traitements, méthode de sélections, etc.). Evidemment, la plupart des acteurs privés de l’IA se sont opposés à cette définition.
On parle ici d’une description complète des données. Ainsi pour obtenir la qualification d’IA Open Source, vous l’aurez peut-être compris, la totalité des données ne doit pas nécessairement être divulguée. Les puristes de l’open source évoquent la non-concordance avec la définition de l’open-source traditionnelle (les données d’entraînement constituant bien la source du modèle) et ont décidé de créer l’AOS (Open Source Alliance) et dont la définition d’une IA Open Source intègre bien la publication des données elles-mêmes.
Pleias semble donc se positionner dans la deuxième catégorie car ses données sont téléchargeables et utilisables sous le nom de « Common Corpus » contenant des sources issues du domaine public. A voir maintenant si la qualité du LLM suit celle de ses homologues privés. En tout cas, et comme indiquait le fondateur de Pleias, l’enjeu était de montrer qu’entraîner des modèles sur des données ouverte est possible.
Inscrivez-vous à notre newsletter DDET (Des Données et des Territoires), le média qui synthétise l’actualité du numérique et des données, produit par les praticiens de la transformation numérique.