Sous surveillance : quelle protection des données dans un monde numérique ? | RDV UCLy Expert

SSous surveillance : quelle protection des données dans un monde numérique ? | RDV UCLy Expert

Reconnaissance faciale, protection de la voie publique, vidéosurveillance… les enregistrements vidéos s’immiscent dans nos vies quotidiennes et posent la question du respect des libertés fondamentales et de l’importance de protéger ses données personnelles.

C’est donc un vaste sujet, qui concerne chacun de nous aussi bien dans le cadre personnel que professionnel, dont nos experts vont se saisir. Ils vous proposent d’interroger, au regard du cadre réglementaire et légal, les multiples enjeux d’un monde sous surveillance.

Comment s’assurer de la conformité au RGPD de son installation de vidéosurveillance ou de vidéoprotection ?

Peut-on évaluer la capacité de ces technologies à répondre aux enjeux sécuritaires qu’elles servent ? Comment composer avec des législations qui diffèrent, entre le pays qui fabrique la technologie et celui qui l’utilise ?

>> Il sera également question des conflits de valeurs qui entourent le sujet :

Peut-on conjuguer lutte contre l’insécurité et respect de la vie privée ?
Quand il devient nécessaire de maintenir l’éclairage public nocturne pour que les caméras captent des images, comment concilier protection de l’environnement et vidéoprotection ?
Photos de smartphones, enregistrements d’enceintes connectées… quel usage envisager pour ces données complémentaires, qui ne relèvent ni de la vidéosurveillance, ni de la vidéoprotection ?

UCLy Expert vous donne rendez-vous à la croisée des enjeux numériques, juridiques et éthiques, pour vous donner des clés et vous aider à mieux appréhender les risques et bénéfices liés à ces nouvelles technologies !

>> Pour en savoir plus :

UCLY EXPERT

Sciences de l’information et des bibliothèques – Les Editions de l’Enssib

SSciences de l’information et des bibliothèques – Les Editions de l’Enssib

©enssib

Les soirées de lancement des Éditions de l’Enssib

L’Enssib organise, à chaque nouvelle parution d’un ouvrage des éditions de l’Enssib, une table ronde permettant l’échange et le débat, en présence des auteurs et d’enseignants chercheurs experts dans le domaine des sciences de l’information, du numérique et des métiers du livre.

Ces tables rondes ont lieu une fois par mois, les jeudi de 17h30 à 19h, à l’amphithéâtre de l’Enssib.

>> Regarder la vidéo :

>> Retrouvez l’ensemble des vidéos sur la :

chaîne youtube de l’Enssib

Les bibliothèques face au monde des données

LLes bibliothèques face au monde des données

L’ouvrage « Les bibliothèques face au monde des données » interroge l’évolution des pratiques bibliothéconomiques vers un modèle centré sur les données, qui peut constituer une nouvelle frontière pour les bibliothèques, au-delà de la seule transition bibliographique.

La transformation numérique des processus documentaires amène les professionnels de l’information et des bibliothèques à gérer non seulement des documents imprimés ou numériques, mais encore des données numériques, structurées ou non. Ils sont de plus en plus concernés par ce nouveau monde de la donnée: toutes les bibliothèques produisent des données concernant leur activité (fréquentation, prêt, utilisateurs…) qu’il convient de gérer et sécuriser en vertu des nouvelles réglementations comme le RGPD en matière de protection des données personnelles, et suivant les recommandations de la science ouverte en faveur de l’ouverture et du partage des données de recherche.

Autrice de l’ouvrage :Véronique Mesguich, consultante et formatrice à l’Enssib.

Préfacière de l’ouvrage : Emmanuelle Bermès, Maître de conférences à l’École nationale des chartes – Enssib

Paru dans la collection « Papiers » , aux Presses de l’Enssib en 2023.

Consultez l’introduction en libre-accès sur le site : Enssib
Découvrir l’ouvrage sur le site des presses : Enssib

La soirée de lancement de l’ouvrage a eu lieu le jeudi 5 octobre sous forme d’une table ronde.

Inaugurée par : Nathalie Marcerou-Ramel, directrice de l’Enssib,

Avec la participation de : Véronique Mesguich, consultante et formatrice, autrice de l’ouvrage, Agnieszka Tona, Maître de conférence – Enssib et Laetitia Bracco, Data librarian – Université de Lorraine.
Modérée par : Florence Salanouve, directrice de la valorisation – Enssib.

>> Regardez la vidéo :

>> Plus d’information sur la page :

ENSSIB

La Recherche de demain : enjeux des données sportives dans le football par Cédric Maiore | Visages de la science

LLa Recherche de demain : enjeux des données sportives dans le football par Cédric Maiore | Visages de la science

Cédric Maiore, docteur en Sciences de l’Information et de la Communication à l’Université Jean Moulin Lyon 3, a réalisé une thèse sur les représentations audiovisuelles du football à l’ère numérique.

Il y analyse les formes et les enjeux de la (re)médiatisation du spectacle sportif footballistique, entre média télévisuel et dispositifs vidéoludiques avec l’apport notamment des données massives et des images de synthèse.

>> Regarder la vidéo :

La représentation audiovisuelle du football à l’ère numérique : Formes et enjeux de la remédiatisation du spectacle sportif footballistique, entre média télévisuel et dispositifs vidéoludiques.

Thèse en Sciences de l’information et de la Communication soutenue le 12 décembre 2022.

Les représentations vidéoludiques s’invitent de plus en plus dans la médiatisation du football. Cela interroge la porosité entre les différents niveaux de représentation de ce jeu-sport : du réel physique du match (spectacle sportif vivant) au réel médiatisé de la captation / retransmission télévisuelle jusqu’à l’hyperréalisme des dispositifs vidéoludiques récents.

Notre recherche retrace l’histoire de la représentation audiovisuelle du football à la télévision et dans les jeux vidéo pour montrer la façon dont les grandes séries FIFA (EA Sports), Pro Evolution Soccer (Konami) et Football Manager (Sega) s’affranchissent progressivement de l’imagerie télévisuelle, tout en soulignant le rôle des données statistiques dans ce processus. En effet, ces titres intègrent chaque année des milliers d’avatars de joueurs existants distinguables graphiquement et dont les attributs in-game sont en lien avec leurs performances réelles.

Cette thèse s’attache à mettre en lumière des formes de télescopages et d’interdépendances inédites qui sont en train de se produire entre les différents régimes de représentation du football, là où captation et retransmission télévisuelle, données statistiques et imagerie bidimensionnelle puis tridimensionnelle forment un amalgame dont les limites sont difficilement discernables et où les « niveaux » de réalité fusionnent.

Pour en savoir plus :

Thèse en ligne

Les bibliothèques face au monde des données

LLes bibliothèques face au monde des données

Soirée de lancement de l’ouvrage Les bibliothèques face au monde des données paru aux Presses de l’Enssib (collection Papiers).

Inaugurée par : Nathalie Marcerou-Ramel, directrice de l’Enssib, en présence de Véronique Mesguich, consultante et formatrice, autrice de l’ouvrage, Agnieszka Tona, Maître de conférence – Enssib et Laetitia Bracco, Data librarian – Université de Lorraine.
Table ronde modérée par : Florence Salanouve, directrice de la valorisation – Enssib.

>> Possibilité également de suivre la table ronde à distance : connectez-vous ici

Pour en savoir plus :

ENSSIB

ChatGPT, modèles de langage et données personnelles : quels risques pour nos vies privées ? | The Conversation

CChatGPT, modèles de langage et données personnelles : quels risques pour nos vies privées ? | The Conversation

Les immenses bases de données qui servent à l’apprentissage de grands modèles de langage ne sont pas toutes anonymisées.
Dmitry Ratushny, Unsplash, CC BY

Les grands modèles de langage ont récemment attiré beaucoup d’attention, notamment grâce à l’agent conversationnel ChatGPT. Cette plate-forme est devenue virale en seulement quelques mois et a déclenché une course effrénée pour développer de nouveaux modèles de langage toujours plus efficaces et puissants, rivalisant avec l’humain pour certaines tâches.

Cette croissance phénoménale est d’ailleurs jugée dangereuse par de nombreux acteurs du domaine, qui plaident pour une pause afin d’avoir le temps de débattre sur l’éthique en IA et de mettre à jour les réglementations.

Une des grandes questions qui se pose est l’articulation entre intelligence artificielle et vie privée des utilisateurs. En particulier, les prouesses des grands modèles de langage sont dues à un entraînement intensif sur d’énormes ensembles de données, qui contiennent potentiellement des informations à caractère personnel, car il n’y a pas d’obligation d’anonymiser les données d’entraînement.

Il est alors difficile de garantir en pratique que le modèle ne compromet pas la confidentialité des données lors de son utilisation. Par exemple, un modèle pourrait générer des phrases contenant des informations personnelles qu’il a vues pendant sa phase d’entraînement.

AApprendre à imiter le langage humain

Les modèles de traitement du langage sont une famille de modèles basés sur l’apprentissage automatique (machine learning en anglais), entraînés pour des tâches telles que la classification de texte, le résumé de texte et même des chatbots.

Ces modèles apprennent d’une part à encoder les mots d’une phrase sous la forme de vecteurs, en tenant compte de l’ensemble du contexte. Dans les phrases « J’ai mangé une orange » et « Son manteau orange est beau », le mot « orange » se verra attribuer deux encodages différents, puisque la position et le sens ne sont pas les mêmes.

orange bleue a l’extérieur — La Terre est bleue comme une orange. Les modèles de langage apprenne à générer des phrases en faisant suivre les mots les plus probable. Auraient-ils proposé cette ligne de Paul Éluard ?
pixabay, CC BY

Ces modèles apprennent également à décoder ces ensembles de vecteurs contextualisés et leurs relations, pour générer de nouveaux mots. Une phrase est générée séquentiellement, en prédisant le prochain mot en fonction de la phrase d’entrée et des mots prédits précédemment.

L’architecture de ces modèles peut être spécialisée pour certaines tâches. Par exemple, les modèles de type BERT sont souvent « affinés » en apprenant sur des données spécialisées, par exemple sur des dossiers de patients pour développer un outil de diagnostic médical, et sont plus performants sur des tâches de classification de texte tandis que les modèles GPT sont utilisés pour générer de nouvelles phrases. Avec l’essor des applications exploitant les modèles de langage de langage, les architectures et les algorithmes d’entraînement évoluent rapidement. Par exemple, ChatGPT est un descendant du modèle GPT-4, son processus d’apprentissage ayant été étendu pour se spécialiser dans la réponse aux questions.

CConfidentialité des informations utilisées pendant la phase d’entraînement du modèle

Les modèles de traitement du langage naturel ont besoin d’une quantité énorme de données pour leur entraînement. Pour ChatGPT par exemple, les données textuelles du web tout entier ont été récoltées pendant plusieurs années.

Dans ce contexte, la principale préoccupation en matière de confidentialité est de savoir si l’exploitation de ces modèles ou les informations qu’ils produisent peuvent dévoiler des données personnelles ou sensibles utilisées pendant la phase d’apprentissage et « recrachées » ou inférées pendant la phase d’utilisation.

ombre humaine devant lignes de codes — Quelle est la probabilité qu’un grand modèle de langage donne une information personnelle acquise lors de son apprentissage ?
Chris Yang/Unsplash, CC BY

Considérons d’abord les chatbots (exploitant les modèles de type GPT) qui ont appris à générer des phrases à partir d’un texte d’entrée. D’un point de vue mathématique, chaque mot est prédit séquentiellement, sur la base de probabilités qui auront été apprises durant la phase d’entraînement.

Le problème principal est que des données potentiellement personnelles peuvent parfois constituer la réponse la plus probable. Par exemple, si le modèle a vu la phrase « Monsieur Dupont habite 10 rue de la République » et qu’on lui demande « Où habite Monsieur Dupont ? », le modèle sera naturellement enclin à répondre l’adresse de celui-ci. Dans la pratique, le modèle aura aussi vu de nombreuses phrases de la forme « X habite à Y » et on s’attend plutôt à ce qu’il réponde des connaissances générales plutôt que des adresses spécifiques. Néanmoins, le risque existe et il est nécessaire de pouvoir le quantifier.

ÉÉvaluer les probabilités de fuites de données

Il existe tout d’abord des techniques pour évaluer en amont de l’entraînement final si des phrases rares ont le potentiel d’être anormalement mémorisées par le modèle. On réalise pour cela des micro-entraînements, avec et sans ces phrases, et l’on se débarrasse de celles qui auraient une influence trop grande.

Mais les gros modèles de traitement du langage naturel sont non déterministes et très complexes de nature. Ils sont composés de milliards de paramètres et l’ensemble des résultats possibles étant infini, il est en pratique impossible de vérifier manuellement le caractère privé de toutes les réponses. Néanmoins, il existe des métriques qui permettent d’approximer ou de donner une borne maximale sur les fuites de données potentielles.

Une première métrique est l’« extractibilité ». Nous disons qu’un texte est « k-extractible » s’il est possible de le générer à partir d’une entrée de longueur k (en nombre de mots). Par exemple, si le modèle renvoie « 10 rue république » lorsqu’on lui demande « Monsieur Dupont habite à », cette adresse est 3-extractible.

Pour les données personnelles ou sensibles, l’objectif est d’avoir un k le plus élevé possible, car un k faible implique une extraction facile. Une étude de ce type a été réalisée sur GPT-2 : elle a permis d’extraire facilement des informations personnelles sur des individus.

Un autre risque qu’on peut évaluer est l’« inférence d’appartenance ». L’objectif ici est d’identifier si une donnée a été utilisée lors de l’apprentissage du modèle. Supposons par exemple qu’un hôpital entraîne un modèle pour détecter la présence de cancer à partir d’extraits médicaux de patients. Si vous parvenez à découvrir que le modèle a été entraîné sur les données de Monsieur Dupont, vous apprendrez indirectement qu’il est probablement atteint de cancer.

Pour éviter cela, nous devons nous assurer que le modèle ne donne aucun indice quant aux données sur lesquelles il a été entraîné, ce qu’il fait par exemple lorsqu’il se montre trop confiant vis-à-vis de certaines réponses (le modèle va mieux se comporter sur des données qu’il a déjà vu pendant la phase d’entraînement).

TTrouver le bon compromis

Faire comprendre au modèle quelles données sont à caractère personnel n’est pas évident, puisque la frontière entre ces deux types de données dépend bien souvent du contexte (l’adresse d’Harry Potter est connue de tous, contrairement à celle de Monsieur Dupont).

L’entraînement d’un modèle qui respecte la confidentialité passe alors souvent par l’ajout de bruit à un moment ou un autre. L’ajout de bruit consiste à altérer l’information apprise ou bien les réponses du modèle, ce qui permet de réduire les risques d’extraction ou d’inférence. Mais cela implique aussi une légère baisse d’utilité. Il faut donc faire un compromis entre performance et respect des données personnelles.

Les applications potentielles des modèles de langage sont incroyablement vastes, mais il est nécessaire d’encadrer leur pratique en prenant compte les risques de fuites avant leur déploiement. De nouvelles méthodes d’entraînement, ainsi que l’anonymisation des données, voire l’utilisation de données synthétiques, sont toutes des solutions prometteuses et en cours d’étude, mais il faudra de toute manière les accompagner de métriques et de méthodologies pour valider non seulement les performances mais aussi la confidentialité des informations personnelles utilisées lors de l’entraînement des modèles.

Article publié sur The Conversation le 23 juin 2023

Cet article a été co-écrit par Gaspard Berthelier, en stage au centre Inria de l’Université Grenoble Alpes dans l’équipe Privactics, sur le natural language processing (NLP) et le respect des données personnelles.

Antoine Boutet, Maitre de conférence, Privacy, IA, au laboratoire CITI, Inria, INSA Lyon – Université de Lyon

Cet article est republié à partir de The Conversation sous licence Creative Commons. Lire l’article original.

EcoIndex : que vaut cet outil qui mesure le score environnemental des sites web ? | The Conversation

EEcoIndex : que vaut cet outil qui mesure le score environnemental des sites web ? | The Conversation

En 15 ans, le trafic Internet a été multiplié par environ 500 de 2002 à 2017. Les émissions de CO₂ associées ont été évaluées à 762 millions de tonnes en 2018.

Imaginons donc qu’à l’image du Nutri-score, nous disposions, pour mesurer notre empreinte environnementale lorsque nous cliquons sur une page web, d’un outil permettant d’attribuer une note entre A et G à la requête HTTP. Supposons également que ces requêtes soient archivées, année après année, dans une base de données publique comme le HTTParchive. En explorant régulièrement cette base, nous pourrions suivre l’évolution de l’empreinte environnementale des requêtes HTTP.

C’est l’ambition que poursuit EcoIndex, créé en 2014 et qui fait référence à la fois à un ensemble de bonnes pratiques pour construire un site web et à un outil logiciel qui permet d’évaluer plusieurs facteurs pour une URL donnée : son efficacité environnementale absolue à l’aide d’une fonction de score sur une échelle de 0 à 100 (plus le score est élevé, meilleur c’est) ; sa performance écologique relative à l’aide d’une note allant de A à G comme ce que l’on connaît pour les dispositifs ménagers ou alimentaires (Nutri-Score) ; l’empreinte technique de la page (poids, complexité, etc.) ; et l’empreinte environnementale associée (gaz à effet de serre générés, ressources en eau consommées).

Son objectif est d’aider le plus grand nombre à prendre conscience de l’impact environnemental des requêtes HTTP et de proposer des solutions concrètes pour le réduire. Si ce modèle fondé sur les métriques techniques de la page évoquées précédemment est plutôt simple à comprendre, il a aussi ses limites.

LL’empreinte environnementale d’une requête HTTP

Tentons d’abord de comprendre en quoi consiste ledit modèle. Il faut savoir qu’estimer l’empreinte carbone des activités humaines ne peut pas se faire directement : la méthode employée repose en général sur un modèle d’activité ciblée, relatif au domaine étudié. C’est le cas pour EcoIndex, qui ne concerne que les requêtes HTTP et pas l’ensemble des activités du web. Cette métrique s’appuie sur le concept « 3-tiers » qui considère trois paramètres : client, serveur et réseau.

La vidéo en ligne, compatible avec une sobriété numérique ? (Maxime Efoui-Hess, The Shift Project, 5 juillet 2019).

La version « historique » d’EcoIndex consiste en un plug-in à installer sur le navigateur et fonctionne de la manière suivante : l’usager fournit une URL à EcoIndex, qui la transfère du côté serveur. Celui-ci retourne au navigateur une page HTML contenant les réponses à la requête. Le plug-in mesure l’empreinte de l’application, en nombre d’éléments de la page web (le nombre de balises HTML, noté dom), en nombre de requêtes dans la page renvoyée (requests) et enfin calcule le nombre d’octets de la page HTML retournée (size) et qui ont transité dans le réseau.

Ces valeurs sont introduites dans l’algorithme d’EcoIndex pour mesurer les performances et l’empreinte environnementale.

LLe « modèle 3-tiers » et ses limites

L’analyse complémentaire d’un expert est indispensable pour une évaluation opérationnelle complète et fiable de la performance environnementale. En effet, EcoIndex ne prend pas en compte l’impact de l’ordinateur qui effectue la requête ou d’un parcours utilisateur. Seule une requête isolée de tout usage est analysée, comme le Nutri-score ou les machines à laver.

De même, quand la requête est résolue du côté du serveur dans un centre de données (par exemple chez Google quand l’URL est http://www.google.com, EcoIndex ne prend pas en compte l’impact environnemental de ce serveur au sens classique des analyses de cycle de vie (ACV), ni des différents équipements réseau qui sont traversés entre le terminal utilisateur et le centre de données.

Cependant, il permet de discuter des modèles et de leurs attributs qui caractériseraient de manière significative l’impact environnemental du web, réduit à la dimension des requêtes HTTP. Les autres côtés positifs d’EcoIndex sont que le chargement, la création et l’affichage de la page dans le navigateur ne sont pas simulés et que les trois paramètres dom, requests et size rendent compte d’une architecture qui gouverne le fonctionnement macroscopique d’une requête sur le web, donc EcoIndex fait sens.

UUn outil aux calculs imparfaits

Dans le cadre du dispositif, la performance environnementale est calculée sur la base normalisée de valeurs constantes fixées une fois pour toutes et cachées dans le modèle sans tenir compte de variations dans le temps – par exemple d’une période à l’autre comme un confinement, des vacances, etc., ni de la localisation géographique de l’utilisateur.

De plus, ce ne sont pas directement les paramètres dom, requests et size qui sont considérés mais des valeurs correspondant à des quantiles, c’est-à-dire un petit nombre de valeurs qui ont été déterminées en récupérant les trois paramètres sur les URL d’une base de données d’URL qui fait référence, le HTTParchive.

On peut s’interroger sur la stabilité dans le temps de ces quantiles : sont-ils les mêmes en 2023 qu’en 2020, date de leur détermination pour l’EcoIndex historique ? A priori les sites web sont régulièrement revus pour adopter, au fil du temps, de meilleures pratiques d’écoconception – il n’y a pas de raison pour que les quantiles soient fixés une fois pour toutes.

DDes notes arbitraires ?

Autre remarque mineure, pour certains sites comme ceux des grands média, qui sont dynamiques, la valeur d’Ecoindex a de grandes chances d’évoluer de jour en jour, mais sans doute pas de manière trop brutale en passant par exemple de la note de A à G.

En effet, un site web, même dynamique, respecte toujours peu ou prou le même gabarit constitué d’éléments modifiables (texte, images, fond, couleurs). On remplace un texte par un autre, une image par une autre, sans modifier fondamentalement les choses… Vis-à-vis de ce phénomène, EcoIndex nous semble robuste car ce « gabarit » ne change pas.

Cependant, les notes A-G correspondent aux plages d’EcoIndex 100-81 pour A, et 10-0 pour G, sans que l’on sache vraiment de quoi il s’agit : comment ces différentes bornes ont-elles été déterminées ? Équivalent-elles aux quantiles pour les mesures d’EcoIndex du HTTParchive ? Elles en sont proches mais ne coïncident pas exactement.

DD’autres paramètres à introduire

Enfin, le modèle historique ne se prête pas, a priori, à l’introduction de nouveaux attributs autres que les 3-tiers dans le modèle.

Nous pourrions pourtant envisager d’y ajouter des notions de mix énergétique et proposer un nouvel indicateur EcoIndex+ qui fournit des notes tournées vers A pour les énergies décarbonées utilisées côté client et côté serveur et des notes autour de G si les énergies mises en jeu sont carbonées. Si la requête HTTP passe par un mobile 4/5G, on pourrait également agréger l’impact en CO₂ de l’opérateur, ce qui conduirait à une vision plus riche de l’EcoIndex+.

Pour être plus exhaustif dans les attributs à injecter dans EcoIndex+, il est nécessaire que la communauté s’accorde sur ces nouveaux critères et ensuite d’établir des méthodes de calcul capables de traiter un grand nombre d’attributs à l’aide de l’apprentissage automatique.

UUn indicateur qui reste à améliorer

Sous l’angle des métriques d’impact environnemental et des bonnes pratiques d’écoconception des sites web, EcoIndex est une démarche simple qui participe à la compréhension des problématiques relatives à la place du numérique dans le réchauffement climatique. L’indicateur est particulièrement intéressant dans la logique d’amélioration des versions successives des sites web.

Du chemin reste cependant à parcourir pour, d’une part, approfondir nos connaissances et mieux saisir les relations entre les différents modèles de haut niveau de type architecture 3-tiers et les analyses de terrain de type cycle de vie d’un produit ou équipement numérique.

D’autre part, il conviendrait de questionner le modèle initial par des approches de sciences des données, c’est-à-dire, explorer ces dernières, les analyser pour obtenir une nouvelle métrique plus fine.

Publié sur The Conversation le 15 mai 2023

Auteurs : Denis Trystram, Professeur des universités en informatique, Université Grenoble Alpes (UGA); Christophe Cérin, Professeur des universités, Université Sorbonne Paris Nord et Laurent Lefèvre, Chercheur en informatique, Inria

Cet article est republié à partir de The Conversation sous licence Creative Commons.Lire l’article original :

the conversation

Données personnelles : rien à cacher, mais beaucoup à perdre | The Conversation

DDonnées personnelles : rien à cacher, mais beaucoup à perdre | The Conversation

Nos données personnelles circulent sur Internet : nom, adresses, coordonnées bancaires ou de sécurité sociale, localisation en temps réel… et les affaires qui y sont liées se font une place pérenne dans le débat public, du scandale Facebook-Cambridge Analytica au vol de données à la Croix-Rouge, en passant par les récents blocages d’hôpitaux par des rançongiciels (ou ransomware) et l’interdiction de l’application TikTok pour les fonctionnaires de plusieurs pays.

Mais si l’on sait de plus en plus que nos données personnelles sont « précieuses » et offrent des possibilités sans précédent en matière de commercialisation et d’innovation, il est parfois difficile de saisir ou d’expliquer pourquoi il faudrait les protéger.

QQuels sont les risques liés à la divulgation de mes données personnelles ?

Le premier risque concerne la perte du contrôle sur nos propres données. C’est ce qui arrive par exemple quand on autorise le traçage par des sites ou des applications : on autorise l’enregistrement de nos activités sur le Web ou sur notre smartphone (pages visitées, géolocalisation) et l’échange de ces données, et, une fois cet accord donné, nous n’avons plus aucun pouvoir sur la circulation de nos données.

Ces informations sont utilisées le plus souvent pour du profilage qui permet d’alimenter l’économie de la publicité personnalisée régie dorénavant par des plates-formes d’enchères valorisant les données relatives aux profils utilisateurs contre des emplacements publicitaires.

Mais, ces informations peuvent également être utilisées à mauvais escient. La connaissance de votre localisation peut aider le passage à l’acte d’un cambrioleur par exemple, et la connaissance de vos centres d’intérêts ou opinion politique peut vous exposer à des opérations d’influence.

Le scandale Cambridge Analytica en est un exemple, avec l’exploitation de données personnelles de millions d’utilisateurs Facebook pour des campagnes de désinformation ciblées afin d’influencer des intentions de vote. Plus récemment, les révélations du Monde sur les entreprises de désinformation indiquent que cette pratique n’est pas un cas isolé.

Un autre risque concerne l’hameçonnage : si des informations personnelles sont présentes dans un courriel ou SMS frauduleux, il vous paraîtra plus réaliste et abaissera vos barrières de vigilance. L’hameçonnage sert souvent à infecter la cible avec un rançongiciel (ransomware en anglais) : les cybercriminels utilisent des informations personnalisées pour gagner la confiance des destinataires et les inciter à ouvrir des pièces jointes, ou à cliquer sur des liens ou documents malveillants, ce qui permet dans un second temps de verrouiller les données de la victime et d’en interdire l’accès. Une rançon est ensuite réclamée pour les déverrouiller.

Bien que les attaques par rançongiciel les plus médiatisées concernent des organisations, des hôpitaux par exemple, les particuliers sont également touchés.

Dans le cas de l’usurpation d’identité, une personne malveillante utilise des informations personnelles qui permettent de nous identifier (« se logger ») sans notre accord : par exemple, en créant un faux profil sur une plate-forme et en rédigeant des commentaires sous l’identité de la victime afin de nuire à sa réputation.

À un autre niveau, la surveillance de masse exercée par certains États capture les informations personnelles de leurs citoyens afin d’entraver la liberté d’expression ou de ficher les individus par exemple. Une surveillance accrue peut tendre vers un sentiment d’absence de sphère privée et ainsi brider le comportement des individus.

En Europe, le RGPD (règlement général sur la protection des données) limite la récolte des données personnelles, notamment par les gouvernements, qui doivent justifier d’une raison suffisante pour toute surveillance.

CChacun d’entre nous a une empreinte numérique unique

Ces problèmes touchent chacun d’entre nous. En effet, dans un monde de plus en plus numérique où nous générons quotidiennement des données à travers notre navigation sur Internet, nos smartphones, ou nos montres connectées, nous avons tous une « empreinte numérique unique ».

En clair, il est généralement possible de ré-identifier quelqu’un juste à partir des « traces » que nous laissons derrière nous sur nos appareils numériques.

Par exemple, l’observation aléatoire de quatre lieux visités seulement représente une signature unique pour 98 % des individus. Cette unicité est généralisable dans un grand nombre de comportements humains.

Cacher l’identité du propriétaire de données personnelles uniquement derrière un pseudonyme n’est pas une protection suffisante face au risque de réidentification, il est nécessaire d’anonymiser les données.

DDonnées synthétiques, apprentissage fédéré : les nouvelles méthodes pour protéger les données personnelles

Tels les membres d’un « black bloc » essayant d’être indistinguables entre eux en s’habillant de manière identique dans une manifestation houleuse, l’anonymisation de données a pour but d’éviter qu’une personne ne se démarque du reste de la population considérée, afin de limiter l’information qu’un cyberattaquant pourrait extraire.

Dans le cas de données de géolocalisation, on pourrait par exemple modifier les données afin que plusieurs utilisateurs partagent les mêmes lieux visités, ou alors introduire du bruit pour ajouter une incertitude sur les lieux réellement visités.

Mais cette anonymisation a un coût car elle « déforme » les données et diminue leur valeur : une trop grande modification des données brutes dénature l’information véhiculée dans les données anonymisées. De plus, pour s’assurer de l’absence d’une empreinte réidentifiante, les modifications nécessaires sont très importantes et souvent incompatibles avec nombre d’applications.

Trouver le bon compromis entre protection et utilité des informations anonymisées reste un challenge. À l’heure où certains voient les données comme le nouveau pétrole du XXI^e siècle, l’enjeu est de taille car une donnée anonyme n’est plus considérée comme une donnée personnelle et échappe au RGPD, ce qui veut dire qu’elle peut être partagée sans consentement du propriétaire.

Cette difficulté de trouver un compromis acceptable entre protection et utilité des données au travers de mécanismes d’anonymisation a fait évoluer les pratiques. De nouveaux paradigmes de protection des données personnelles ont vu le jour.

Une première tendance consiste à générer des données synthétiques reproduisant les mêmes propriétés statistiques que les vraies données.

Ces données générées de manière artificielle ne sont par conséquent pas liées à une personne et ne seraient plus encadrées par le RGPD. Un grand nombre d’entreprises voient en cette solution des promesses de partage d’information moins limitées. En pratique, les risques résiduels des modèles de génération synthétique ne sont pas négligeables et sont encore à l’étude.

Une autre solution limitant le risque de partage de données personnelles est l’apprentissage fédéré. Dans l’apprentissage machine conventionnel, les données sont centralisées par une entité pour entraîner un modèle.

Dans l’apprentissage fédéré, chaque utilisateur se voit attribuer un modèle qu’il entraîne localement sur ses propres données. Il envoie ensuite le résultat à une entité qui s’occupe d’agréger l’ensemble des modèles locaux. De manière itérative, cet apprentissage décentralisé permet de créer un modèle d’apprentissage sans divulguer de données personnelles.

Ce nouveau paradigme de protection des données personnelles suscite beaucoup d’engouement. Cependant, plusieurs limitations subsistent, notamment sur la robustesse face aux acteurs malveillants qui souhaiteraient influencer le processus d’entraînement. Un participant pourrait par exemple modifier ses propres données pour que le modèle se trompe lors d’une tâche de classification particulière.

Publié sur The Conversation le 29 mars 2023

Auteur : Antoine Boutet, Maitre de conférence, Privacy, IA, au laboratoire CITI, Inria, INSA Lyon – Université de Lyon

Cet article est republié à partir de The Conversation sous licence Creative Commons. Lire l’article original :

The conversation

Les graphiques sont-ils toujours objectifs ?

LLes graphiques sont-ils toujours objectifs ?

Le Talk du mercredi

Venez découvrir comment un passe-temps personnel est devenu une application de référence en matière de graphiques liés à la Covid 19.
Au programme : graphiques et Data Science.

Une conférence proposée par Guillaume Rozier, Data Scientist et fondateur de CovidTracker.

En cette période de cours à distance et de télétravail, ces moments privilégiés d’ouverture sur le monde sont proposés en visio-conférence.

>> Connectez-vous sur Zoom à 13h15 : https://zoom.us/j/97764393808

Organisation : Human Bee Ing, association d’étudiants, de doctorants et de personnels de l’ENTPE

Intelligence artificielle : ce sera pire demain ?

IIntelligence artificielle : ce sera pire demain ?

Ce ciné-débat vise à se poser des questions auxquelles nos sociétés n’ont pas apporté de réponses claires. Demain les machines seront-elles cognitivement plus forte que nous ? L’intelligence artificielle fera-t-elle baisser le temps de travail ? Les GAFAM finiront-elles par dominer le monde en se servant des données personnelles qu’on leur donne ?

L’intelligence artificielle est entendue de nombreuses acceptions. Toutes démontrent que nous avons aujourd’hui créé des algorithmes capables de digérer une immense quantité de données, (des lettres, des mots, des dessins, des concepts, des raisonnements… etc) et de prendre des décisions en fonction de celles-ci. L’objectif de ce débat est de définir et de donner du sens à l’IA. Car l’intelligence artificielle s’est améliorée et complexifiée au point d’être aujourd’hui en mesure de générer du langage et dialoguer avec nous, de prédire voire anticiper des phénomènes naturel, mais aussi des infractions. Elle est également capable de reconnaitre des formes très complexes, que nous ne voyons pas à l’œil nu. Comme par exemple quand une IA réussi mieux que les meilleurs médecins du domaine à reconnaitre et diagnostiquer une forme de cancer de la peau à partir d’une seule image.

Invités :

Amélie Cordier. Directrice de recherche pour la société Hoomano
Mathieu Guillermin. Maitre de conférence en philosophie à l’institut catholique de Lyon spécialiste de l’éthique des sciences et de la technologie
Modération : Samuel Belaud (Université de Lyon)

3 extraits :

Film : Her (Spike Jonze – 2014)
Série : Real Humans (saison 1, épisode 1 – ARTE – 2012)
Documentaire : Nothing to hide (Marc Meillassoux et Mihaela Gladovic – 2017)