Pop’Sciences répond à tous ceux qui ont soif de savoirs, de rencontres, d’expériences en lien avec les sciences.

EN SAVOIR PLUS

La cryptographie face à la menace quantique

LLa cryptographie face à la menace quantique

Faut-il s’inquiéter pour la sécurité de nos communications ? Comment renforcer les méthodes cryptographiques afin de les rendre résistantes face à l’avènement éventuel de l’ordinateur quantique ?

Benjamin Wesolowski, mathématicien et cryptologue à l’Unité de mathématiques pures et appliquées, évoque les nouveaux défis de sa discipline pour CNRS le Journal.

>> Lire l’article complet sur le site :

Cnrs le journal

L’IA générative pourrait aussi servir à exploiter des données personnelles en tout sécurité : la piste des données synthétiques | The Conversation

LL’IA générative pourrait aussi servir à exploiter des données personnelles en tout sécurité : la piste des données synthétiques | The Conversation

Comment réagiriez-vous si ChatGPT dévoilait votre numéro de téléphone et votre adresse privée ?

Parmi les données présentes sur le Web sur lesquelles le modèle de langage derrière ChatGPT s’entraîne, certaines informations sont personnelles et ne sont pas censées être révélées. Pourtant, ce risque est bien réel, comme l’a démontré une équipe de chercheurs, en poussant ChatGPT à révéler une grande quantité de données personnelles à partir d’une simple requête.

Pour garantir la confidentialité des données qui servent à entraîner les systèmes d’intelligence artificielle, une piste est d’utiliser des « données synthétiques » : des données fictives générées artificiellement qui conservent des propriétés statistiques du jeu de données réelles qu’elles cherchent à imiter et remplacer.

Avec des données synthétiques, on peut entraîner un système de classification ou un agent conversationnel comme ChatGPT, tester des logiciels, ou partager les données sans souci de confidentialité : des données synthétiques reproduisent par exemple les données du système national de données de santé.

Certaines des entreprises présentes sur le marché de la génération de données synthétiques, ainsi qu’une partie de la littérature académique, avancent même qu’il s’agit de données réellement anonymes. Ce terme est fort, car il sous-entend qu’on ne peut pas remonter aux données réelles – et donc, à votre numéro de sécurité sociale ou de téléphone.

En réalité, la synthèse de données possède des faiblesses et les garanties mises en avant font encore l’objet d’études.

Pourquoi tant d’engouement pour les données synthétiques ?

La synthèse de données permettrait de publier des données représentatives des données réelles d’origine mais non identifiables.

Par exemple, des données de recensement de la population peuvent être extrêmement utiles à des fins de statistiques… mais elles rassemblent des informations sur les individus qui permettent leur réidentification : leur publication en l’état n’est donc pas permise par le RGPD (Règlement général sur la protection des données).

Dans le cas de données personnelles ou de données soumises à propriété intellectuelle, ce procédé permettrait aussi de s’affranchir du cadre réglementaire qui limite souvent leur publication ou leur utilisation.

Il permettrait également de réaliser des expérimentations qui auraient demandé de coûteuses collectes de données, par exemple pour entraîner des voitures autonomes à éviter les collisions.

Enfin, les données synthétiques ne nécessitent pas de nettoyage des données. Cet atout est particulièrement important pour l’entraînement de modèles d’IA, où la qualité de l’annotation des données a un impact sur les performances du modèle.

Pour ces raisons, fin 2022, le marché mondial de la génération de données synthétiques avait déjà généré 163,8 millions de dollars et devrait connaître une croissance de 35 % de 2023 à 2030. L’adoption pourrait être rapide et massive, et représenter selon certaines études jusqu’à 60 % des données utilisées pour l’entraînement des systèmes d’IA en 2024.

La confidentialité est l’un des objectifs de la génération de données synthétiques, mais ce n’est pas le seul. Les acteurs du domaine entendent également profiter de l’exhaustivité des données synthétiques – qui peuvent être générées en quantité quasi illimitée et reproduire toutes les simulations envisagées, mais aussi permettre d’avoir des données sur des cas particulièrement difficiles avec des données réelles (comme la détection d’armes sur une image, ou une simulation de trafic routier avec des conditions bien particulières).

Comment génère-t-on des données synthétiques ?

Imaginons que nous voulons générer des données synthétiques comme l’âge et le salaire d’une population. On modélise d’abord la relation entre ces deux variables, puis on exploite cette relation pour créer artificiellement des données satisfaisant les propriétés statistiques des données d’origine.

Si la synthèse de données était initialement basée sur des méthodes statistiques, les techniques sont aujourd’hui plus élaborées, afin de synthétiser des données tabulaires ou temporelles – voire, grâce à des IA génératives, des données de type texte, images, voix et vidéos.

De fait, les techniques utilisées pour synthétiser des données à des buts de confidentialité sont très similaires à celles utilisées par les IA génératives comme ChatGPT pour le texte, ou StableDiffusion pour les images. En revanche, une contrainte supplémentaire liée à la reproduction de la distribution statistique des données source est imposée aux outils afin d’assurer la confidentialité.

Par exemple, les réseaux antagonistes génératifs (ou GANs pour generative adversarial networks) peuvent être utilisés pour créer des deepfakes.

schéma d’un réseau GAN

©Vincent Barra, The Conversation Fonctionnement schématique d’un réseau antagoniste génératif, ou GAN : l’idée de base des GANs est d’opposer deux réseaux de neurones distincts, le générateur et le discriminateur. Tandis que le générateur crée de nouvelles données, le discriminateur évalue la qualité de ces données. Les deux réseaux s’entraînent en boucle, améliorant ainsi leurs performances respectives. Le processus se termine lorsque le discriminateur ne parvient plus à discerner des données réelles de celles issues du générateur.

De leur côté, les auto-encoders variationnels (ou VAEs), compressent les données d’origine dans un espace de dimension inférieure et tentent de modéliser la distribution de ces données dans cet espace. Des points aléatoires sont ensuite tirés dans cette distribution et décompressés afin de créer de nouvelles données fidèles aux données d’origine.

 

Il existe d’autres méthodes de génération. Le choix de la méthode dépend des données sources à imiter et de leur complexité.

Données réelles vs données synthétiques : trouver les différences

La modélisation des données d’origine, sur laquelle repose le procédé de synthèse, peut être imparfaite, erronée ou incomplète. Dans ce cas, les données de synthèse ne reproduiront que partiellement les informations d’origine : on parle d’une « perte d’utilité ».

Au-delà d’une perte en performance, un générateur de données mal entraîné ou biaisé peut aussi avoir un impact sur des groupes minoritaires, sous représentés dans l’ensemble de données d’entraînement, et par conséquent moins bien assimilés par le modèle.

©Jill-Jênn Vie et Antoine Boutet, traduite par les auteurs, Fourni par l’auteur Exemple de génération de données synthétiques fidèles aux données d’entraînement à gauche, et qui ne reproduisent pas fidèlement les données d’entraînement à droite. Les données sont représentées ici par une analyse en « composantes principales », un type d’analyse statistique matricielle très répandu dans le monde des données.

La perte en utilité est un risque d’autant plus inquiétant que seul l’organisme à la source de la synthèse est en mesure de l’estimer, laissant les utilisateurs des données dans l’illusion que les données correspondent à leurs attentes.

Données synthétiques vs données anonymes : quelle garantie en termes de confidentialité ?

Lorsque le partage de données personnelles n’est pas permis, des données personnelles doivent être anonymisées avant d’être partagées. Toutefois l’anonymisation est souvent difficile techniquement, voire même impossible pour certains jeux de données.

Les données synthétiques se placent alors en remplacement des données anonymisées. Cependant, comme pour les données anonymisées, le risque zéro n’existe pas.

 

Bien que l’ensemble des données sources ne soit jamais révélé, les données de synthèse, et parfois le modèle de génération utilisé, peuvent être rendus accessibles et ainsi constituer de nouvelles possibilités d’attaques.

Pour quantifier les risques liés à l’utilisation des données synthétiques, les propriétés de confidentialité sont évaluées de différentes façons :

schéma expliquant le principe d’une attaque par appartenance

©Image de E. De Cristofaro, traduite par les auteurs, Fourni par l’auteur Principe d’une attaque par appartenance.

Des risques non nuls

Il est important de comprendre que dans la plupart des cas, le risque de fuite d’information n’est pas binaire : la confidentialité n’est ni totale ni nulle.

Le risque est évalué au travers des distributions de probabilité en fonction des hypothèses, des données et des menaces considérées. Certaines études ont montré que les données synthétiques offrent peu de protection supplémentaire par rapport aux techniques d’anonymisation. De plus, le compromis entre confidentialité des données d’origine et utilité des données synthétiques est difficile à prévoir.

Certaines mesures techniques permettent de renforcer la confidentialité et de réduire les risques de réidentification. La confidentialité différentielle notamment est une solution prometteuse, encore à l’étude afin de fournir des garanties suffisantes en termes d’utilité des données, de coût computationnel et d’absence de biais.

Il faut tout de même noter que si les risques liés à l’utilisation de données de synthèse ne sont pas nuls, leur utilisation peut s’avérer avantageuse pour certains scénarios d’utilisation. Par exemple, on peut calibrer la génération pour qu’elle conserve uniquement certaines propriétés des données sources pour limiter les risques.

Comme pour n’importe quelle solution de protection à mettre en place, il est toujours nécessaire de faire une analyse de risques pour objectiver ses choix. Et bien sûr, la génération de données synthétiques soulève aussi des enjeux éthiques lorsque la génération des données a comme finalité de construire de fausses informations.

Les auteurs :

Antoine Boutet, Maitre de conférence, Privacy, IA, au laboratoire CITI, Inria, INSA Lyon – Université de Lyon,

Alexis Leautier, Ingénieur Expert au Laboratoire d’innovation numérique, CNIL

Le PEPR Cybersécurité et son projet IPoP (ANR-22-PECY-0002) sont soutenus par l’Agence nationale de la recherche (ANR), qui finance en France la recherche sur projets. Elle a pour mission de soutenir et de promouvoir le développement de recherches fondamentales et finalisées dans toutes les disciplines, et de renforcer le dialogue entre science et société. Pour en savoir plus, consultez le site de l’ANR.The Conversation

Cet article est republié à partir de The Conversation sous licence Creative Commons.

>> Pour lire l’article original, rendez-vous sur le site :

The conversation.

ChatGPT, modèles de langage et données personnelles : quels risques pour nos vies privées ? | The Conversation

CChatGPT, modèles de langage et données personnelles : quels risques pour nos vies privées ? | The Conversation

Les immenses bases de données qui servent à l’apprentissage de grands modèles de langage ne sont pas toutes anonymisées.
Dmitry Ratushny, Unsplash, CC BY

 

Les grands modèles de langage ont récemment attiré beaucoup d’attention, notamment grâce à l’agent conversationnel ChatGPT. Cette plate-forme est devenue virale en seulement quelques mois et a déclenché une course effrénée pour développer de nouveaux modèles de langage toujours plus efficaces et puissants, rivalisant avec l’humain pour certaines tâches.

Cette croissance phénoménale est d’ailleurs jugée dangereuse par de nombreux acteurs du domaine, qui plaident pour une pause afin d’avoir le temps de débattre sur l’éthique en IA et de mettre à jour les réglementations.

Une des grandes questions qui se pose est l’articulation entre intelligence artificielle et vie privée des utilisateurs. En particulier, les prouesses des grands modèles de langage sont dues à un entraînement intensif sur d’énormes ensembles de données, qui contiennent potentiellement des informations à caractère personnel, car il n’y a pas d’obligation d’anonymiser les données d’entraînement.

Il est alors difficile de garantir en pratique que le modèle ne compromet pas la confidentialité des données lors de son utilisation. Par exemple, un modèle pourrait générer des phrases contenant des informations personnelles qu’il a vues pendant sa phase d’entraînement.

AApprendre à imiter le langage humain

Les modèles de traitement du langage sont une famille de modèles basés sur l’apprentissage automatique (machine learning en anglais), entraînés pour des tâches telles que la classification de texte, le résumé de texte et même des chatbots.

Ces modèles apprennent d’une part à encoder les mots d’une phrase sous la forme de vecteurs, en tenant compte de l’ensemble du contexte. Dans les phrases « J’ai mangé une orange » et « Son manteau orange est beau », le mot « orange » se verra attribuer deux encodages différents, puisque la position et le sens ne sont pas les mêmes.

orange bleue a l’extérieur
La Terre est bleue comme une orange. Les modèles de langage apprenne à générer des phrases en faisant suivre les mots les plus probable. Auraient-ils proposé cette ligne de Paul Éluard ?
pixabay, CC BY

Ces modèles apprennent également à décoder ces ensembles de vecteurs contextualisés et leurs relations, pour générer de nouveaux mots. Une phrase est générée séquentiellement, en prédisant le prochain mot en fonction de la phrase d’entrée et des mots prédits précédemment.

L’architecture de ces modèles peut être spécialisée pour certaines tâches. Par exemple, les modèles de type BERT sont souvent « affinés » en apprenant sur des données spécialisées, par exemple sur des dossiers de patients pour développer un outil de diagnostic médical, et sont plus performants sur des tâches de classification de texte tandis que les modèles GPT sont utilisés pour générer de nouvelles phrases. Avec l’essor des applications exploitant les modèles de langage de langage, les architectures et les algorithmes d’entraînement évoluent rapidement. Par exemple, ChatGPT est un descendant du modèle GPT-4, son processus d’apprentissage ayant été étendu pour se spécialiser dans la réponse aux questions.

CConfidentialité des informations utilisées pendant la phase d’entraînement du modèle

Les modèles de traitement du langage naturel ont besoin d’une quantité énorme de données pour leur entraînement. Pour ChatGPT par exemple, les données textuelles du web tout entier ont été récoltées pendant plusieurs années.

Dans ce contexte, la principale préoccupation en matière de confidentialité est de savoir si l’exploitation de ces modèles ou les informations qu’ils produisent peuvent dévoiler des données personnelles ou sensibles utilisées pendant la phase d’apprentissage et « recrachées » ou inférées pendant la phase d’utilisation.

ombre humaine devant lignes de codes
Quelle est la probabilité qu’un grand modèle de langage donne une information personnelle acquise lors de son apprentissage ?
Chris Yang/Unsplash, CC BY

Considérons d’abord les chatbots (exploitant les modèles de type GPT) qui ont appris à générer des phrases à partir d’un texte d’entrée. D’un point de vue mathématique, chaque mot est prédit séquentiellement, sur la base de probabilités qui auront été apprises durant la phase d’entraînement.

Le problème principal est que des données potentiellement personnelles peuvent parfois constituer la réponse la plus probable. Par exemple, si le modèle a vu la phrase « Monsieur Dupont habite 10 rue de la République » et qu’on lui demande « Où habite Monsieur Dupont ? », le modèle sera naturellement enclin à répondre l’adresse de celui-ci. Dans la pratique, le modèle aura aussi vu de nombreuses phrases de la forme « X habite à Y » et on s’attend plutôt à ce qu’il réponde des connaissances générales plutôt que des adresses spécifiques. Néanmoins, le risque existe et il est nécessaire de pouvoir le quantifier.

ÉÉvaluer les probabilités de fuites de données

Il existe tout d’abord des techniques pour évaluer en amont de l’entraînement final si des phrases rares ont le potentiel d’être anormalement mémorisées par le modèle. On réalise pour cela des micro-entraînements, avec et sans ces phrases, et l’on se débarrasse de celles qui auraient une influence trop grande.

Mais les gros modèles de traitement du langage naturel sont non déterministes et très complexes de nature. Ils sont composés de milliards de paramètres et l’ensemble des résultats possibles étant infini, il est en pratique impossible de vérifier manuellement le caractère privé de toutes les réponses. Néanmoins, il existe des métriques qui permettent d’approximer ou de donner une borne maximale sur les fuites de données potentielles.

Une première métrique est l’« extractibilité ». Nous disons qu’un texte est « k-extractible » s’il est possible de le générer à partir d’une entrée de longueur k (en nombre de mots). Par exemple, si le modèle renvoie « 10 rue république » lorsqu’on lui demande « Monsieur Dupont habite à », cette adresse est 3-extractible.

Pour les données personnelles ou sensibles, l’objectif est d’avoir un k le plus élevé possible, car un k faible implique une extraction facile. Une étude de ce type a été réalisée sur GPT-2 : elle a permis d’extraire facilement des informations personnelles sur des individus.

Un autre risque qu’on peut évaluer est l’« inférence d’appartenance ». L’objectif ici est d’identifier si une donnée a été utilisée lors de l’apprentissage du modèle. Supposons par exemple qu’un hôpital entraîne un modèle pour détecter la présence de cancer à partir d’extraits médicaux de patients. Si vous parvenez à découvrir que le modèle a été entraîné sur les données de Monsieur Dupont, vous apprendrez indirectement qu’il est probablement atteint de cancer.

Pour éviter cela, nous devons nous assurer que le modèle ne donne aucun indice quant aux données sur lesquelles il a été entraîné, ce qu’il fait par exemple lorsqu’il se montre trop confiant vis-à-vis de certaines réponses (le modèle va mieux se comporter sur des données qu’il a déjà vu pendant la phase d’entraînement).

TTrouver le bon compromis

Faire comprendre au modèle quelles données sont à caractère personnel n’est pas évident, puisque la frontière entre ces deux types de données dépend bien souvent du contexte (l’adresse d’Harry Potter est connue de tous, contrairement à celle de Monsieur Dupont).

L’entraînement d’un modèle qui respecte la confidentialité passe alors souvent par l’ajout de bruit à un moment ou un autre. L’ajout de bruit consiste à altérer l’information apprise ou bien les réponses du modèle, ce qui permet de réduire les risques d’extraction ou d’inférence. Mais cela implique aussi une légère baisse d’utilité. Il faut donc faire un compromis entre performance et respect des données personnelles.

Les applications potentielles des modèles de langage sont incroyablement vastes, mais il est nécessaire d’encadrer leur pratique en prenant compte les risques de fuites avant leur déploiement. De nouvelles méthodes d’entraînement, ainsi que l’anonymisation des données, voire l’utilisation de données synthétiques, sont toutes des solutions prometteuses et en cours d’étude, mais il faudra de toute manière les accompagner de métriques et de méthodologies pour valider non seulement les performances mais aussi la confidentialité des informations personnelles utilisées lors de l’entraînement des modèles.

 

 

Article publié sur The Conversation le 23 juin 2023

Cet article a été co-écrit par Gaspard Berthelier, en stage au centre Inria de l’Université Grenoble Alpes dans l’équipe Privactics, sur le natural language processing (NLP) et le respect des données personnelles.The Conversation

Antoine Boutet, Maitre de conférence, Privacy, IA, au laboratoire CITI, Inria, INSA Lyon – Université de Lyon

Cet article est republié à partir de The Conversation sous licence Creative Commons. Lire l’article original.

Ciné-club : Wargames

CCiné-club : Wargames

En partenariat avec le CNRS, l’Aquarium Ciné Café propose un cycle de rencontres associant projections de films et rencontres avec des scientifiques.

Le prochain rendez-vous sera consacré au thème de l’informatique, avec la projection du film Wargames, en présence de Fabien Wernli, Conservateur du musée de l’informatique du Centre de Calcul de l’IN2P3, ingénieur de recherche au CNRS. De la sécurité informatique à l’intelligence artificielle, entre machines vintage et projections futuristes, Wargames balaie toutes les grandes problématiques du domaine. Presque 30 ans après, où en est-on ?

En savoir plus

Installez-vous confortablement !

IInstallez-vous confortablement !

Le projet d’expérimentations de navettes autonomes (projet ENA) tire son originalité d’une démarche de conception et de validation des expérimentations centrée sur l’utilisateur. Le confort et la sécurité des usagers des navettes autonomes sont des enjeux forts du projet.

Des phases de tests sur les pistes de TRANSPOLIS sont réalisées afin d’évaluer ces critères dans le cadre du déploiement de ce nouveau moyen de transport.

Lire l’article complet

 

 

Circuler en vélo en toute sécurité

CCirculer en vélo en toute sécurité

En 2018, le Gouvernement a lancé un « Plan vélo et mobilités actives » avec l’objectif de tripler la part modale du vélo dans la mobilité quotidienne en 2024, pour passer de 3% à 9%. Le Ministère de la transition écologique vient de présenter des préconisations à la sortie du confinement (crise sanitaire COVID19).

Pour accompagner cette démarche et contribuer au confort et à la sécurité des déplacements à vélo, des scientifiques de l’Université Gustave Eiffel ont élaboré, suite à un projet de recherche mené en partenariat avec la Fédération française des usagers de la bicyclette (FUB), un recueil de bonnes pratiques.

Découvrez dans l’article FOCUS SUR : les indispensables de la conduite à vélo en ville

Retrouvez d’autres formats scientifiques : Focus sur, multimédias, dossiers thématiques sur :

espace web sciences et societe

Une réalisation du service Diffusion des Savoirs et Ouverture à la Société (DSOS) de l’Université Gustave Eiffel.