Résumé de l’avis 28/2024 du CEPD sur le traitement des données à caractère personnel dans le contexte des modèles d’intelligence artificielle
Cet avis, rendu à la requête de l’autorité de protection des données irlandaise, couvre la « phase de développement » et la « phase de déploiement » des modèles d’IA ayant fait l’objet d’un entrainement avec des données à caractère personnel.
Un modèle d’IA est un algorithme, c’est un composant essentiel d’un système d’IA, mais les modèles d’IA ne constituent pas des systèmes d’IA à eux seuls.
Circonstances dans lesquelles un modèle d’IA peut être considéré comme étant anonyme
La simple affirmation de l’anonymat du modèle ne suffit pas à l’exempter de l’application du RGPD.
La capacité à démontrer qu’un modèle d’IA entrainé avec des données personnelles est anonyme relève de l’obligations de responsabilité (accountability).
La question de savoir si un modèle d’IA est anonyme devrait être évaluée au cas par cas, sur la base de critères spécifiques.
- Hypothèse de modèles d’IA conçus pour faire des déductions sur des personnes différentes de celles dont les données personnelles ont été utilisées pour former le modèle
- modèle d’IA générative affiné à partir des enregistrements vocaux d’une personne pour imiter sa voix
- Hypothèse de modèle d’IA qui n’a pas été intentionnellement conçu pour produire des informations relatives à des personnes physiques : le CEPD considère que les informations de l’ensemble de données d’apprentissage, peuvent être « captées » dans les paramètres du modèle, c’est-à-dire représentées par des objets mathématiques. Elles pourraient donc être extraites ou obtenues d’une autre manière, directement ou indirectement, à partir du modèle.
Lorsque des informations relatives à des personnes identifiées ou identifiables ont été utilisées pour former le modèle et qu’elles peuvent être obtenues à partir d’un modèle d’IA par des moyens raisonnablement susceptibles d’être utilisés par le responsable du traitement ou une autre personne (régurgitation ou extraction), on peut conclure que ce modèle n’est pas anonyme. Pour qu’un modèle d’IA soit considéré comme anonyme, la probabilité d’extraction directe et de régurgitation devraient être insignifiantes et il convient aussi de tenir compte de la (ré)utilisation ou de la divulgation involontaire du modèle. L’évaluation se base sur les éléments suivants :
- Caractéristiques des données d’apprentissage, du modèle d’IA et de la procédure d’apprentissage
- Contexte dans lequel le modèle d’IA est diffusé et/ou traité
- Informations supplémentaires qui permettraient l’identification et dont une personne peut disposer
- Coûts et temps nécessaires à une personne pour obtenir ces informations supplémentaires (si elles ne sont pas déjà disponibles)
- Technologie disponible au moment du traitement et évolutions technologiques.
Exemple d’éléments pouvant être pris en compte lors de l’évaluation de l’anonymat revendiqué par un responsable du traitement :
Design du modèle d’IA :
- Sélection des sources utilisées pour entraîner le modèle d’IA
- Préparation et minimisation des données
- Sélection de méthodes robustes pour le développement du modèle d’IA : (i) méthodes de régularisation pour améliorer la généralisation du modèle et réduire l’ajustement excessif(overfitting) ; et, surtout, (ii) si le responsable du traitement a mis en œuvre des techniques appropriées et efficaces de préservation de la vie privée (ex. differential privacy).
- Mesures concernant les résultats du modèle pour réduire la probabilité d’obtenir des données à caractère personnel liées aux données d’apprentissage à partir de requêtes.
Analyse du modèle d’IA :
- Déterminer si les responsables du traitement ont effectué des audits documentaires comprenant une évaluation des mesures pour limiter la probabilité d’identification : ex. analyse de rapports de revues de code, analyse théorique documentant l’adéquation des mesures choisies pour réduire la probabilité de réidentification du modèle concerné.
Tests du modèle d’IA et résistance aux attaques :
- Prendre en considération la portée, la fréquence, la quantité et la qualité des tests que le contrôleur a effectués sur le modèle :
- Inférence d’attributs et d’appartenance ;
- Exfiltration
- Régurgitation des données d’entraînement ;
- Inversion de modèle
- Les attaques par reconstruction.
Documentation et toute évaluation régulière des risques qui en découlent pour le traitement effectué par les responsables du traitement :
- Information relative aux AIPD, y compris les évaluations et les décisions qui ont déterminé qu’une AIPD n’était pas nécessaire
- Tout conseil ou retour d’information fourni par le DPO
- Informations sur les mesures techniques et organisationnelles prises lors de la conception du modèle d’IA pour réduire la probabilité d’identification, y compris les évaluations des risques sur lesquelles ces mesures sont fondées
- Mesures techniques et organisationnelles prises à tous les stades du cycle de vie du modèle
- Documentation démontrant la résistance théorique du modèle d’IA aux techniques de réidentification, ainsi que les contrôles conçus pour limiter ou évaluer le succès et l’impact des principales attaques (régurgitation, attaques par inférence d’appartenance, exfiltration, etc.)
Pertinence de l’intérêt légitime comme base juridique pour le traitement des données personnelles dans le contexte du développement et du déploiement des modèles d’IA
- Il est nécessaire de réaliser une balance des intérêts
- La publication de la balance des intérêts permet d’améliorer la transparence et l’équité.
Phase de développement des modèles d’IA : mesures pour atténuer les risques posés par le traitrement des données de première partie et de tiers
- Pseudonymisation : ex. mesures visant à empêcher toute combinaison de données fondées sur des identifiants individuels.
- Data masking ou remplacement par de fausses données lors de la phase d’entrainement
- Mesures qui facilitent l’exercice des droits des personnes:
- Respecter un délai raisonnable entre la collecte d’un ensemble de données de formation et son utilisation.
- Proposer un « opt-out » inconditionnel dès le départ,
- Permettre aux personnes concernées d’exercer leur droit à l’effacement même lorsque les motifs spécifiques énumérés à l’article 17, paragraphe 1, du RGPD ne s’appliquent pas.
- Permettre aux personnes concernées de présenter des réclamations concernant la régurgitation ou la mémorisation de données à caractère personnel.
- Mesures de transparence :
- Publication de communications publiques et facilement accessibles qui vont au-delà des informations requises en vertu de l’article 13 ou 14 du RGPD
- Autres formes d’information des personnes concernées, ex : campagnes médiatiques avec différents médias pour informer les personnes concernées, campagne d’information par courrier électronique, utilisation de la visualisation graphique, de questions fréquemment posées, d’étiquettes de transparence et de cartes modèles dont la systématisation pourrait structurer la présentation des informations sur les modèles d’IA, et rapports annuels de transparence sur une base volontaire.
- Mesures spécifiques d’atténuation des risques dans le contexte du web scraping :
- Eliminer le contenu des données des publications qui pourraient inclure des données personnelles présentant des risques pour des personnes ou des groupes de personnes particuliers (ex. personnes susceptibles de faire l’objet d’abus, de préjugés ou de dommages physiques si les informations étaient rendues publiques)
- Veiller à ce que certaines catégories de données ne soient pas collectées ou à ce que certaines sources soient exclues de la collecte de données : ex. certains sites web en raison de la sensibilité de leur sujet
- Exclure la collecte sur des sites web (ou des sections de sites web) qui s’opposent clairement à la réutilisation de leur contenu aux fins de la constitution de bases de données d’entraînement à l’IA (ex. en respectant les fichiers robots.txt ou ai.txt
- Imposer d’autres limites pertinentes à la collecte, en incluant éventuellement des critères basés sur des périodes de temps
- RGPD et transparence : créer une liste d’exclusion, gérée par le responsable du traitement et permettant aux personnes concernées de s’opposer à la collecte de leurs données sur certains sites web ou plateformes en ligne.
- Considérations spécifiques concernant les mesures d’atténuation dans la phase de déploiement :
- Mesures techniques pour empêcher le stockage, la régurgitation ou la génération de données personnelles, en particulier dans le contexte des modèles d’IA générative (filtres de sortie), et/ou pour atténuer le risque de réutilisation illicite par des modèles d’IA à usage général (ex. filigrane numérique des sorties générées par l’IA)
- Mesures qui facilitent ou accélèrent l’exercice des droits des personnes dans la phase de déploiement : ex. exercice du droit à l’effacement des données personnelles des données de sortie du modèle ou déduplication et techniques de post-entraînement qui tentent de supprimer ou d’éliminer les données personnelles.
- Autre mesure : vérifier si le DPO a été impliqué
Possible impact d’un traitement illicite dans le cadre de l’élaboration d’un modèle IA
- Scénario 1. Les données personnelles sont conservées dans le modèle et traitées ultérieurement par le même responsable du traitement (ex. pour le déploiement du modèle)
- Evaluation au cas par cas : Evaluer si les phases de développement et de déploiement impliquent des finalités distinctes (et donc des activités de traitement distinctes) et la mesure dans laquelle l’absence de base juridique pour l’activité de traitement initiale a une incidence sur la licéité du traitement ultérieur.
- L’illégalité du traitement initial doit être prise en compte dans le cadre de l’évaluation de l’intérêt légitime.
- Scénario 2. Les données à caractère personnel sont conservées dans le modèle et traitées par un autre responsable du traitement dans le cadre du déploiement du modèle
-
- Le responsable du traitement qui déploie le modèle doit procéder à une évaluation appropriée pour démontrer la licéité du traitement
- Le degré d’évaluation du responsable du traitement et le niveau de détail attendu peuvent varier en fonction des risques soulevés pendant le déploiement du modèle d’IA par rapport aux personnes dont les données ont été utilisées pour développer le modèle
- L’illégalité du traitement initial doit être prise en compte dans le cadre de l’évaluation de l’intérêt légitime.
- Scénario 3. Le responsable du traitement veille à ce que le modèle soit anonymisé avant que le même responsable du traitement ou un autre responsable du traitement n’entreprenne un autre traitement de données personnelles dans le cadre du déploiement
-
- Du point de vue du RGPD, la licéité du traitement effectué dans la phase de déploiement ne devrait pas être affectée par l’illicéité du traitement initial.