Pop’Sciences répond à tous ceux qui ont soif de savoirs, de rencontres, d’expériences en lien avec les sciences.

EN SAVOIR PLUS

Festival Science et Manga 2024 | Chat et manga, félin pour l’autre !

FFestival Science et Manga 2024 | Chat et manga, félin pour l’autre !

©BU Lyon 1

Les matous font leur festival à la BU Lyon 1. Deux passions dans l’air du temps se rencontrent à la BU, les mangas et les chats, pour la 14e édition du festival Science et Manga.

Avez-vous déjà passé plusieurs minutes à regarder des vidéos de chats en ligne ? Vous êtes-vous déjà surpris ou surprise à vous attendrir devant des objets quotidiens parce qu’ils étaient décorés de chats ? Ce festival est pour vous ! Vous allez apprendre comment les chats ont conquis le monde, pourquoi on trouve des chats sans queue au Japon, ce qu’est un maneki neko, bref, vous allez pouvoir assouvir votre passion pour les chats.

>> Au programme :

  • Du 12 mars au 21 avril 2024 – Exposition : Chat et manga, félin pour l’autre !
    BU Sciences La Doua / Galerie BU
  • 12 mars 2024 

> A 18h30 : vernissage de l’exposition | Hall de la BU Sciences La Doua

> A 19h – Projection film  Kiki la petite sorcière | BU Sciences La Doua / Salle de conférences

  • 14 mars 2024 de 12h15 à 13h45 – Conférence-débat Le chat : entre indépendance et interdépendance | BU Sciences La Doua / Salle de conférences

Pour en savoir plus :

Festival Science et manga

ChatGPT, modèles de langage et données personnelles : quels risques pour nos vies privées ? | The Conversation

CChatGPT, modèles de langage et données personnelles : quels risques pour nos vies privées ? | The Conversation

Les immenses bases de données qui servent à l’apprentissage de grands modèles de langage ne sont pas toutes anonymisées.
Dmitry Ratushny, Unsplash, CC BY

 

Les grands modèles de langage ont récemment attiré beaucoup d’attention, notamment grâce à l’agent conversationnel ChatGPT. Cette plate-forme est devenue virale en seulement quelques mois et a déclenché une course effrénée pour développer de nouveaux modèles de langage toujours plus efficaces et puissants, rivalisant avec l’humain pour certaines tâches.

Cette croissance phénoménale est d’ailleurs jugée dangereuse par de nombreux acteurs du domaine, qui plaident pour une pause afin d’avoir le temps de débattre sur l’éthique en IA et de mettre à jour les réglementations.

Une des grandes questions qui se pose est l’articulation entre intelligence artificielle et vie privée des utilisateurs. En particulier, les prouesses des grands modèles de langage sont dues à un entraînement intensif sur d’énormes ensembles de données, qui contiennent potentiellement des informations à caractère personnel, car il n’y a pas d’obligation d’anonymiser les données d’entraînement.

Il est alors difficile de garantir en pratique que le modèle ne compromet pas la confidentialité des données lors de son utilisation. Par exemple, un modèle pourrait générer des phrases contenant des informations personnelles qu’il a vues pendant sa phase d’entraînement.

AApprendre à imiter le langage humain

Les modèles de traitement du langage sont une famille de modèles basés sur l’apprentissage automatique (machine learning en anglais), entraînés pour des tâches telles que la classification de texte, le résumé de texte et même des chatbots.

Ces modèles apprennent d’une part à encoder les mots d’une phrase sous la forme de vecteurs, en tenant compte de l’ensemble du contexte. Dans les phrases « J’ai mangé une orange » et « Son manteau orange est beau », le mot « orange » se verra attribuer deux encodages différents, puisque la position et le sens ne sont pas les mêmes.

orange bleue a l’extérieur
La Terre est bleue comme une orange. Les modèles de langage apprenne à générer des phrases en faisant suivre les mots les plus probable. Auraient-ils proposé cette ligne de Paul Éluard ?
pixabay, CC BY

Ces modèles apprennent également à décoder ces ensembles de vecteurs contextualisés et leurs relations, pour générer de nouveaux mots. Une phrase est générée séquentiellement, en prédisant le prochain mot en fonction de la phrase d’entrée et des mots prédits précédemment.

L’architecture de ces modèles peut être spécialisée pour certaines tâches. Par exemple, les modèles de type BERT sont souvent « affinés » en apprenant sur des données spécialisées, par exemple sur des dossiers de patients pour développer un outil de diagnostic médical, et sont plus performants sur des tâches de classification de texte tandis que les modèles GPT sont utilisés pour générer de nouvelles phrases. Avec l’essor des applications exploitant les modèles de langage de langage, les architectures et les algorithmes d’entraînement évoluent rapidement. Par exemple, ChatGPT est un descendant du modèle GPT-4, son processus d’apprentissage ayant été étendu pour se spécialiser dans la réponse aux questions.

CConfidentialité des informations utilisées pendant la phase d’entraînement du modèle

Les modèles de traitement du langage naturel ont besoin d’une quantité énorme de données pour leur entraînement. Pour ChatGPT par exemple, les données textuelles du web tout entier ont été récoltées pendant plusieurs années.

Dans ce contexte, la principale préoccupation en matière de confidentialité est de savoir si l’exploitation de ces modèles ou les informations qu’ils produisent peuvent dévoiler des données personnelles ou sensibles utilisées pendant la phase d’apprentissage et « recrachées » ou inférées pendant la phase d’utilisation.

ombre humaine devant lignes de codes
Quelle est la probabilité qu’un grand modèle de langage donne une information personnelle acquise lors de son apprentissage ?
Chris Yang/Unsplash, CC BY

Considérons d’abord les chatbots (exploitant les modèles de type GPT) qui ont appris à générer des phrases à partir d’un texte d’entrée. D’un point de vue mathématique, chaque mot est prédit séquentiellement, sur la base de probabilités qui auront été apprises durant la phase d’entraînement.

Le problème principal est que des données potentiellement personnelles peuvent parfois constituer la réponse la plus probable. Par exemple, si le modèle a vu la phrase « Monsieur Dupont habite 10 rue de la République » et qu’on lui demande « Où habite Monsieur Dupont ? », le modèle sera naturellement enclin à répondre l’adresse de celui-ci. Dans la pratique, le modèle aura aussi vu de nombreuses phrases de la forme « X habite à Y » et on s’attend plutôt à ce qu’il réponde des connaissances générales plutôt que des adresses spécifiques. Néanmoins, le risque existe et il est nécessaire de pouvoir le quantifier.

ÉÉvaluer les probabilités de fuites de données

Il existe tout d’abord des techniques pour évaluer en amont de l’entraînement final si des phrases rares ont le potentiel d’être anormalement mémorisées par le modèle. On réalise pour cela des micro-entraînements, avec et sans ces phrases, et l’on se débarrasse de celles qui auraient une influence trop grande.

Mais les gros modèles de traitement du langage naturel sont non déterministes et très complexes de nature. Ils sont composés de milliards de paramètres et l’ensemble des résultats possibles étant infini, il est en pratique impossible de vérifier manuellement le caractère privé de toutes les réponses. Néanmoins, il existe des métriques qui permettent d’approximer ou de donner une borne maximale sur les fuites de données potentielles.

Une première métrique est l’« extractibilité ». Nous disons qu’un texte est « k-extractible » s’il est possible de le générer à partir d’une entrée de longueur k (en nombre de mots). Par exemple, si le modèle renvoie « 10 rue république » lorsqu’on lui demande « Monsieur Dupont habite à », cette adresse est 3-extractible.

Pour les données personnelles ou sensibles, l’objectif est d’avoir un k le plus élevé possible, car un k faible implique une extraction facile. Une étude de ce type a été réalisée sur GPT-2 : elle a permis d’extraire facilement des informations personnelles sur des individus.

Un autre risque qu’on peut évaluer est l’« inférence d’appartenance ». L’objectif ici est d’identifier si une donnée a été utilisée lors de l’apprentissage du modèle. Supposons par exemple qu’un hôpital entraîne un modèle pour détecter la présence de cancer à partir d’extraits médicaux de patients. Si vous parvenez à découvrir que le modèle a été entraîné sur les données de Monsieur Dupont, vous apprendrez indirectement qu’il est probablement atteint de cancer.

Pour éviter cela, nous devons nous assurer que le modèle ne donne aucun indice quant aux données sur lesquelles il a été entraîné, ce qu’il fait par exemple lorsqu’il se montre trop confiant vis-à-vis de certaines réponses (le modèle va mieux se comporter sur des données qu’il a déjà vu pendant la phase d’entraînement).

TTrouver le bon compromis

Faire comprendre au modèle quelles données sont à caractère personnel n’est pas évident, puisque la frontière entre ces deux types de données dépend bien souvent du contexte (l’adresse d’Harry Potter est connue de tous, contrairement à celle de Monsieur Dupont).

L’entraînement d’un modèle qui respecte la confidentialité passe alors souvent par l’ajout de bruit à un moment ou un autre. L’ajout de bruit consiste à altérer l’information apprise ou bien les réponses du modèle, ce qui permet de réduire les risques d’extraction ou d’inférence. Mais cela implique aussi une légère baisse d’utilité. Il faut donc faire un compromis entre performance et respect des données personnelles.

Les applications potentielles des modèles de langage sont incroyablement vastes, mais il est nécessaire d’encadrer leur pratique en prenant compte les risques de fuites avant leur déploiement. De nouvelles méthodes d’entraînement, ainsi que l’anonymisation des données, voire l’utilisation de données synthétiques, sont toutes des solutions prometteuses et en cours d’étude, mais il faudra de toute manière les accompagner de métriques et de méthodologies pour valider non seulement les performances mais aussi la confidentialité des informations personnelles utilisées lors de l’entraînement des modèles.

 

 

Article publié sur The Conversation le 23 juin 2023

Cet article a été co-écrit par Gaspard Berthelier, en stage au centre Inria de l’Université Grenoble Alpes dans l’équipe Privactics, sur le natural language processing (NLP) et le respect des données personnelles.The Conversation

Antoine Boutet, Maitre de conférence, Privacy, IA, au laboratoire CITI, Inria, INSA Lyon – Université de Lyon

Cet article est republié à partir de The Conversation sous licence Creative Commons. Lire l’article original.

Nos animaux de compagnie peuvent-ils contracter la COVID-19 ?

NNos animaux de compagnie peuvent-ils contracter la COVID-19 ?

Grâce à l’implication de différents chercheurs et partenaires, en particulier le soutien financier « action COVID-19 » de l’IDEX Lyon dans le cadre du Programme Investissements d’Avenir (ANR-16-IDEX-0005), un projet de recherche en épidémiologie et santé publique vétérinaire a pu voir le jour à VetAgro Sup, le projet COVIDAC (COVID-19 et Animaux de Compagnie).

Le projet COVIDAC, coordonné par les Dr Vincent Legros, Emilie Krafft et Angeli Kodjo et rassemblant des médecins vétérinaires et des chercheurs du Centre International de Recherche en Infectiologie (CIRI), du laboratoire d’analyses vétérinaires (LAV) et de plusieurs services du Centre hospitalier Vétérinaire animaux de compagnie de VetAgro Sup, vise à clarifier le rôle potentiel des animaux de compagnie (chien, chat) vis-à-vis du SARS-CoV-2, l’agent responsable de la pandémie de COVID-19, dans un contexte épidémique massif observé aujourd’hui en Europe et particulièrement en France.

La première étude publiée en 2020 par cette équipe pluridisciplinaire en santé humaine et animale dans la revue One Health, a montré qu’une proportion relativement élevée de chiens et de chats particulièrement exposés au virus avaient été infectés par le SARS-CoV-2 (i.e. possédant des anticorps mais sans avoir eu de symptômes). En effet, parmi les chiens et les chats vivant dans un foyer où au moins une personne avait été diagnostiquée COVID-19+, plus d’un animal sur cinq possédaient des anticorps anti SARS-CoV-2, ce qui représente un taux 8 fois plus important que celui retrouvé dans la population générale de chiens et de chats. Les conclusions de cette étude pionnières ont depuis été confirmées par d’autres travaux réalisés dans d’autres pays.

Les animaux domestiques vivant au contact d’humains COVID-19 positifs ont 8 fois plus de risque de posséder des anticorps spécifiques du SARS-CoV-2.

La question du rôle potentiel des animaux de compagnie dans l’épidémiologie du SARS-CoV-2 a en effet fait l’objet d’une attention très précoce suite à l’émergence du virus fin 2019, à la fois en raison de la probable origine animale du virus mais aussi de l’existence de coronavirus proches circulant déjà chez les animaux domestiques. L’absence de risque lié aux animaux domestiques a rapidement fait consensus, malgré la démonstration que ceux-ci (notamment les chats) pouvaient, en laboratoire, transmettre le virus à leurs congénères ainsi que l’identification sporadique d’animaux infectés à Hong-Kong et en Belgique puis dans de nombreux autres pays (France, États-Unis, Espagne, Italie, Irlande, Japon…).

©VetAgro Sup

L’infection des animaux domestiques par le SARS-CoV-2 est largement asymptomatique.

Afin d’évaluer l’intensité de la circulation du SARS-CoV-2 parmi les animaux domestiques, l’équipe de chercheurs a prélevé des échantillons sanguins sur deux groupes d’animaux : le premier groupe dont les 47 animaux (13 chiens et 34 chats) étaient considérés comme à risque élevé car issus d’un foyer dans lequel a minima un cas de COVID-19 humain avait été diagnostiqué. Le second, à risque modéré, était constitué de 38 animaux (16 chats et 22 chiens) dont le statut des propriétaires était inconnu. Les deux groupes d’animaux ont été prélevés entre les mois de mai et juin 2020. Parmi les animaux à risque modéré, seul un chat présentait des anticorps contre le SARSCoV-2. En revanche, dans le groupe à risque élevé, plus de 20 % des animaux (8 chats et 2 chiens sur les 47 animaux) se sont révélés positifs, ce qui suggère une circulation virale plus importante qu’anticipée initialement. Ces infections ne se sont pas traduites par la présence de signes cliniques, ce qui confirme que l’infection des animaux domestiques par le SARS-CoV-2 est largement asymptomatique en conditions naturelles.

Le risque de transmission du SARS-CoV-2 d’un animal à l’humain est négligeable.

Cette enquête sérologique ne permet pas d’identifier de manière catégorique l’origine de la contamination, mais le fait que le risque pour un carnivore domestique d’être infecté par le SARS-CoV-2 soit 8,1 fois plus élevé s’il réside chez une personne positive au COVID-19 constitue un fort argument de l’origine humaine de l’infection. Il est donc établi que les chiens et les chats peuvent être infectés par le SARS-CoV-2 dans des conditions naturelles mais il est très rare qu’ils tombent malades. L’une des inconnues qui persistait était le risque que ces animaux pouvaient représenter pour l’humain. Pour préciser cela, VetAgro Sup a travaillé avec le Centre International de Recherche en Infectiologie à Lyon, l’Institut de Recherche pour le Développement à Montpellier et le Centre Hospitalo-Universitaire de Caen. Entre avril 2020 et avril 2021, afin de rechercher des traces du virus, des échantillons de salive ont été prélevés chez les animaux reçus dans les cliniques de VetAgro Sup avec l’accord de leur propriétaire. Plusieurs centaines de prélèvements ont ainsi été analysés et ont montré que le risque de transmission du SARS-CoV-2 d’un animal à l’humain est négligeable.

Article publié sur le site Viruses, Journal de virologie en « Open access », le 3 septembre 2021.

>> Pour en savoir plus :

Article Covidac   Article en anglais

Auteurs de l’étude : Émilie Krafft, Solène Denolly, Bertrand Boson, Sophie Angelloz-Pessey, Sophie Levaltier, Nicolas Nesi, Sandrine Corbet, Bryce Leterrier, Matthieu Fritz, Eric M. Leroy, Meriadeg Ar Gouilh, François-Loïc Cosset, Angeli Kodjo et Vincent Legros.