Pop’Sciences répond à tous ceux qui ont soif de savoirs, de rencontres, d’expériences en lien avec les sciences.

EN SAVOIR PLUS

« Le mystère des codes secrets » – Stage réservé aux filles…

«« Le mystère des codes secrets » – Stage réservé aux filles…

La Maison des Mathématiques et de l’Informatique propose un stage de deux jours, réservé aux filles, pour s’initier au chiffrement, déchiffrement, décryptage, à la stéganographie et aux subtiles différences entre ces activités.

Le stage de printemps a exactement le même contenu scientifique mais est réservé aux filles. Pourquoi ? Nous avons constaté, lors de nos stages, à la fois une faible présence de filles et une difficulté à être écoutées et prendre la parole pour elles. Nous avons donc décidé de leur consacrer un stage animé par une médiatrice. Lors de celui-ci, des chercheuses interviendront pour parler de leur métier, de leur parcours. Elles pourront répondre à toutes les questions sur les études et sur une carrière en science. Également, des temps de discussion autour de leur perception des sciences, leur rapport aux sciences en classe seront proposés.

Les participantes apprendront à chiffrer des messages, à les déchiffrer mais aussi à jouer aux espionnes pour décrypter les messages secrets envoyés par les autres. Un stage entre théorie et pratique, mêlant histoire, techniques de chiffrement et de décryptage et mise en pratique à travers des défis collectifs.

  • Public concerné : Jeunes filles – 12 à 15 ans
  • Durée : 2 jours / Tarif : 50 euros
  • 12 participantes maximum
  • Période du stage : 25 au 26 avril 2024

>> En savoir plus :

sur les stages proposés

Maison des Mathématiques et de l’Informatique – MMI

La cryptographie face à la menace quantique

LLa cryptographie face à la menace quantique

Faut-il s’inquiéter pour la sécurité de nos communications ? Comment renforcer les méthodes cryptographiques afin de les rendre résistantes face à l’avènement éventuel de l’ordinateur quantique ?

Benjamin Wesolowski, mathématicien et cryptologue à l’Unité de mathématiques pures et appliquées, évoque les nouveaux défis de sa discipline pour CNRS le Journal.

>> Lire l’article complet sur le site :

Cnrs le journal

De l’informatique sans ordinateur, c’est possible ?

DDe l’informatique sans ordinateur, c’est possible ?

Le 14 décembre prochain, pour la deuxième soirée scientifique de la saison 2023-2024 de l’Université Ouverte, Aline Parreau et Éric Duchêne vous feront jouer avec les concepts de l’informatique, mais sans ordinateur.

 

En 1997, une intelligence artificielle battait le champion du monde d’échecs. Vingt ans plus tard, c’était au tour du champion du monde de go de s’incliner face à l’IA AlphaGo. Mais comment entrainer une machine à devenir imbattable ? Aline Parreau et Éric Duchêne, tous deux membres du Laboratoire d’InfoRmatique en Image et Systèmes d’information, illustreront les concepts ayant permis de bâtir ces super-calculateurs. Et pour ça, pas besoin d’ordinateur !

Difficile aujourd’hui d’imaginer faire tourner des machines, des logiciels et des algorithmes sans ordinateur (ou smartphone). Dès le plus jeune âge, on les associe à l’informatique. Pourtant, l’informatique comme science existait bien avant la mise au point de ces premières machines dans les années 50. Ainsi, comprendre ce qu’est un algorithme, apprendre à programmer ne nécessite pas forcément d’ordinateur. C’est ce que prône « l’informatique débranchée ».

Née en Nouvelle-Zélande à la fin des années 90, cette approche ludique permet d’expliquer ou d’enseigner la science informatique en s’appuyant sur des objets concrets et tangibles (des allumettes, des cartes, des jetons…), ou une mise en jeu corporelle. Elle permet au public de s’abstraire de l’ordinateur pour mieux comprendre l’essence et les concepts de l’informatique et constitue ainsi un terrain d’apprentissage présent à la fois dans les contextes scolaires et extra-scolaires.

Au programme de cette soirée scientifique, un tour de mentalisme, une machine en bois qui deviendra imbattable à des jeux, des mécanismes d’intelligences artificielles illustrés, ou encore un comptage humain pour montrer comment les ordinateurs font pour accélérer l’exécution de certains algorithmes.

Tout au long de cette conférence en duo, le public sera mis à contribution pour rendre l’informatique accessible à toutes et tous en s’amusant !

 

Les intervenants

Aline Parreau est chargée de recherche au CNRS.

Éric Duchêne est Professeur en informatique à l’Université Lyon 1.

Tous deux membres du laboratoire LIRIS, leurs recherches portent principalement sur le domaine des jeux combinatoires et de la théorie des graphes.
Très sensibles à la médiation scientifique, ils font également partie du comité de pilotage de la Maison des Mathématiques et de l’Informatique (MMI). Ils sont responsables du projet de recherche ASMODEE, qui vise à présenter les grands concepts de la science informatique aux plus jeunes et au grand public, en faisant appel à des objets physiques ou des mises en scènes corporelles, sans outil numérique.

 

Les Soirées Scientifiques de l’Université Ouverte

Organisées avec le soutien de la ville de Villeurbanne, les Soirées Scientifiques de l’Université Ouverte ont pour objectif de rendre les sciences accessible au plus large public, à travers des conférences sur des sujets en lien avec les recherches menées notamment à l’Université Claude Bernard Lyon 1 et à Lyon.

Ces conférences ont lieu au Centre Culturel de la Vie Associative (CCVA) de Villeurbanne, de 19h00 à 21h00.

                            

Voir la programmation

Le hacker éthique au secours des petites entreprises | Visages de la science

LLe hacker éthique au secours des petites entreprises | Visages de la science

Devenue une priorité nationale en France, la cyberdéfense est le quotidien de Xavier Paquin, ingénieur informatique diplômé de l’INSA Lyon. Il donne aux petites entreprises les moyens de survivre dans une cyberguerre dont elles sont souvent les premières victimes. En 2020, ce passionné du Japon a créé le premier “dojo de cybersécurité”, pour leur donner les moyens de survivre dans cette cyberguerre. En pensant la lutte contre les cyberattaques comme un art martial, il forme les collaborateurs en leur apprenant les gestes qui sauvent.

  • La cybersécurité, le défi du 21e siècle

Le numérique est en train de devenir un nouveau terrain d’affrontement. Les états et les entreprises prennent conscience de la dimension stratégique de cet espace. De l’ordinateur à l’assistant vocal domestique en passant par le réfrigérateur, tous les objets connectés représentent une cible supplémentaire pour les hackers. « Le cyber far west, on y est déjà. Et dans cette bataille, chaque citoyen connecté est une victime potentielle ».

  • Faire de l’humain, le maillon fort de la cyberdéfense

« On dit tout le temps que le maillon faible de la cybersécurité se situe entre clavier et le fauteuil. Je n’aime pas cette expression car le collaborateur, humain, est la première ligne de défense. S’il est bien formé et a les bons réflexes, il sera le maillon fort. Son rôle est primordial lors d’une cyberattaque. »

  • Préparer demain face aux cyber-risques

Notre société, de plus en plus numérique, qui présente déjà une dépendance accrue aux services numériques : est-ce que l’insécurité numérique va progresser et s’accroître ? « Aujourd’hui, on peut attaquer tout ce qui est connecté. Et puisque tout se connecte, tout se met à risque. Il est urgent d’anticiper les concepts de cybersécurité. »

 

L’ingénieur diplômé de l’INSA Lyon et cofondateur de Kamae, était l’invité du podcast « Les cœurs audacieux », un contenu audio proposé par l’INSA Lyon (Saison 1 – Épisode 1).

 

>>Plus information sur le site :

AUSHA

Diagnostic 2.0 : quand l’Intelligence Artificielle intervient | Un dossier Pop’Sciences

DDiagnostic 2.0 : quand l’Intelligence Artificielle intervient | Un dossier Pop’Sciences

Pour son dossier consacré aux nouvelles applications de l’Intelligence Artificielle (IA) à la santé, Pop’Sciences est allé à la rencontre des scientifiques et professionnels de la santé de la région Lyon Saint-Étienne pour mieux comprendre ce que ces nouvelles technologies peuvent apporter (ou pas) à la médecine, notamment en termes de diagnostic…

L’IA tend à se démocratiser dans de multiples domaines professionnels, dont ceux de la santé. Entre espoirs, fantasmes, peurs et applications réelles, cette nouvelle assistance nécessite aujourd’hui d’être mieux décryptée tant auprès des médecins que de leurs patients. Pop’Sciences vous propose de revenir sur quelques applications concrètes pour comprendre ce que l’IA, et ses capacités de calcul, peut faire pour aider les professionnels de la santé dans le diagnostic de la santé mentale, pour fluidifier la prise en charge des patients ou pour apporter toujours plus de précisions en imagerie médicale… mais aussi d’en percevoir les limites, car elle est encore loin de remplacer votre médecin.

 Les articles du dossier

©Freepik

Dans un monde en constante évolution, les chercheurs et médecins se tournent vers l’intelligence artificielle (IA) pour les aider dans la pratique médicale. Pop’Sciences vous dévoile les coulisses du processus de création d’une IA prête au diagnostic, une innovation qui repose sur la précision de la consultation médicale, la richesse des bases de données, et l’entraînement minutieux de modèles IA. En somme, quelle est la recette pour une bonne IA appliquée au diagnostic médical ?

 

Image générée par IA (Dall-E) ©Pop’Sciences

Se classant au deuxième rang des causes de mortalité en France après les accidents cardiovasculaires, les troubles liés à la santé mentale sont aujourd’hui une préoccupation majeure en termes de santé publique. Dans cette quête du « mieux prévenir pour mieux guérir », l’intelligence artificielle (IA) pourrait s’imposer comme un précieux allié dans le diagnostic des troubles mentaux.

 

 

Imagé générée par IA (Dall-E) ©Pop’Sciences

Alors que les avancées technologiques continuent de redéfinir la manière dont les professionnels de la santé prennent en charge les patients, l’IA s’insère de plus en plus dans la relation entre le patient et son médecin. Au cœur de cette transformation, Loïc Verlingue, médecin et chercheur au Centre Léon Bérard partage son expertise de l’IA dans le domaine des essais cliniques en cancérologie.

 

 

©Pexel

Améliorer l’interprétation de l’imagerie médicale (IM) pour en optimiser l’exploitation est au cœur des enjeux de l’intelligence artificielle (IA) au service de l’IM. L’IA n’est plus “seulement” un domaine de recherche en plein essor… mais ses utilisations en sont multiples.  Objectifs affichés : augmenter la précision du diagnostic afin d’améliorer la prise en charge thérapeutique, en évitant les erreurs potentiellement lourdes de conséquences. La guerre des algorithmes est ouverte pour aller toujours plus loin !

 

©Freepik

Entre confiance aveugle et méfiance absolue, comment l’IA doit-elle être éthiquement acceptée et utilisée ? Comment s’affranchir de potentiels biais humains dans les systèmes d’IA utilisés à des fins de diagnostic, ou même thérapeutiques ? Autant de questions qui ne sont plus l’apanage de débats scientifiques, mais doivent être au cœur de débats politiques et sociétaux.

 

 

©Freepik

Dans cette série de questions et réponses, les étudiants de première année du cycle d’ingénieur de l’EPITA, école d’ingénierie informatique, répondent à nos questions concernant l’IA. A-t-elle toujours raison ? Peut-elle développer des sentiments ? Ou, est-elle capable de réelles créations ? Les étudiants nous éclairent.

 

 

 

—————————————————————

MMerci !

Ce dossier a été réalisé grâce à la collaboration de chercheurs et médecins du bassin de recherche Lyon Saint-Étienne :

Ainsi qu’avec la participation de :

  • Maëlle Moranges, docteure en neuroinformatique, apportant son expertise de l’IA en tant que référente sur ce dossier
  • Pascal Roy, chercheur en biostatistique au Laboratoire de Biométrie et Biologie Évolutive – LBBE (Université Claude Bernard Lyon 1) et praticien hospitalier aux Hospices Civils de Lyon. Intervenu lors des rendez-vous professionnels LYSiERES² : « L’intelligence artificielle peut-elle remplacer le médecin ? »
  • Antoine Coutrot, chercheur en neurosciences computationnelles, cognitives et comportementales au Laboratoire d’Informatique en Image et Systèmes d’information – LIRIS (CNRS, INSA Lyon, Université Claude Bernard Lyon 1, Université Lumière Lyon 2, École centrale Lyon). Intervenu lors des rendez-vous professionnels LYSiERES² : « L’intelligence artificielle peut-elle remplacer le médecin ? »
  • Les étudiants de première année du cycle d’ingénieur de l’École pour l’Informatique et les Techniques Avancées (EPITA) : Léo Arpin, Adrien Guinard, Arthur De Sousa, Raphaël Hatte, Pierre Raimondi, Maui Tadeja, Mehdi Ismaili, Gregoire Vest, Emil Toulouse, Todd Tavernier, Remi Decourcelle, Paul Gravejal, Aymen Gassem, Sandro Ferroni, Nathan Goetschy, Rémi Jeulin, Clovis Lechien, Garice Morin, Alice Cariou et Eliana Junker

Nous les remercions pour le temps qu’ils nous ont accordé.

Un dossier rédigé par :

  • Léo Raimbault, étudiant en Master 2 Information et Médiation Scientifique et Technique (IMST) à l’Université Claude Bernard Lyon 1, en contrat d’apprentissage à Pop’Sciences – (Introduction, articles #1, #2, #3 et co-écriture des articles #5 et #6)
  • Nathaly Mermet, journaliste scientifique – (Articles #4 et #5)

L’Intelligence Artificielle en santé : du médecin à l’algorithme | #1 Dossier Pop’Sciences « Diagnostic 2.0 : Quand l’IA intervient »

LL’Intelligence Artificielle en santé : du médecin à l’algorithme | #1 Dossier Pop’Sciences « Diagnostic 2.0 : Quand l’IA intervient »

Article #1 – Dossier Pop’Sciences Diagnostic 2.0 : Quand l’IA intervient

Dans un monde en constante évolution, les chercheurs et médecins se tournent vers l’intelligence artificielle (IA) pour les aider dans la pratique médicale. Pop’Sciences vous dévoile les coulisses du processus de création d’une IA prête au diagnostic, une innovation qui repose sur la précision de la consultation médicale, la richesse des bases de données, et l’entraînement minutieux de modèles IA. En somme, quelle est la recette pour une bonne IA appliquée au diagnostic médical ?

  Quel est le rôle du médecin ? Qu’est-ce que l’IA ?

Extrait de la table ronde « IA et santé » organisée par Pop’Sciences le 26 juin 2023. Un rendez-vous professionnel chercheur / journaliste, développé en collaboration avec le Club de la presse de Lyon (Projet LYSiERES²).

L’Intelligence artificielle au service de l’imagerie médicale : Des apports majeurs | #4 Dossier Pop’Sciences « Diagnostic 2.0 : Quand l’IA intervient »

LL’Intelligence artificielle au service de l’imagerie médicale : Des apports majeurs | #4 Dossier Pop’Sciences « Diagnostic 2.0 : Quand l’IA intervient »

Article #4 – Dossier Pop’Sciences Diagnostic 2.0 : Quand l’IA intervient

Améliorer l’interprétation de l’imagerie médicale (IM) pour en optimiser l’exploitation est au cœur des enjeux de l’intelligence artificielle (IA). L’IA n’est plus “seulement” un domaine de recherche en plein essor et ses applications en sont, aujourd’hui, multiples.  Objectifs affichés : augmenter la précision du diagnostic afin d’améliorer la prise en charge thérapeutique, en évitant les erreurs potentiellement lourdes de conséquences. La guerre des algorithmes est ouverte pour aller toujours plus loin !

Un article de Nathaly Mermet, journaliste scientifique, rédigé
pour Pop’Sciences – 5 septembre 2023

 

Améliorer l’interprétation de l’imagerie médicale pour en optimiser l’exploitation est au cœur des enjeux de l’intelligence artificielle ©Unsplash

 

Initialement réservée au diagnostic des fractures des os, l’imagerie médicale a bénéficié d’avancées majeures dans l’ensemble des domaines thérapeutiques. Aujourd’hui, cette spécialité comprend la radiologie diagnostique (radiographies, scanners, IRM, échographie) et la radiologie interventionnelle, à savoir une forme de chirurgie mini-invasive qui utilise l’imagerie pour se repérer, comme pour déboucher une artère en cas d’AVC (accident vasculaire cérébral).

L’imagerie fonctionnelle en est le dernier exemple. Encore émergente et faisant l’objet de projets de recherche, elle vise à révéler les propriétés d’une zone étudiée, notamment sa fonctionnalité (par IRM, Rayons X…) ou à restituer des informations fonctionnelles (par TEP, IRM Fonctionnelle…).

“ L’IA d’aujourd’hui n’est pas la même que celle d’il y a 10 ans, et également différente de celle dont on disposera dans 10 ans” souligne le Dr Alexandre Nérot, médecin radiologue issu de l’Université de Lyon, spécialiste de radiologie interventionnelle et auteur d’une thèse d’exercice sur l’IA (développement d’intelligences artificielles par réseau de neurones). Actuellement en activité au Centre Hospitalier d’Annecy, il nous indique qu’en radiologie, l’usage de l’IA pour l’analyse d’image est attendu et à la fois craint depuis la révolution technologique qu’elle a généré en 2012. “L’évolution se fait par marche, déclenchant à chaque fois des développements de manière exponentielle, mais l’IA actuelle reste un outil et est encore loin de remplacer le radiologue” déclare-t-il, indiquant que si un jour la radiologie venait à être renversée par l’IA alors le problème sera sociétal et pas uniquement cantonné à la radiologie.

En pratique, “l’intérêt, déjà énorme, de l’IA en imagerie médicale est double : elle permet à la fois l’analyse des images, mais peut aussi améliorer de la qualité d’image, grâce à ses « connaissances » acquises en anatomie. Cela nous permet un gain de temps considérable dans la réalisation des images, jusqu’à 14 fois plus rapide ” reconnaît-il, indiquant que pour une fracture, par exemple, le radiologue n’interprète que rarement la radio, mais analyse davantage l’échographie, l’IRM et le scanner. Autre exemple, une mammographie bénéficiera quant à elle d’une double lecture : par le radiologue et par une IA. “L’intérêt n’est pas de remplacer le radiologue, mais d’apporter une nouvelle lecture” insiste Alexandre.

Parmi les perspectives d’applications séduisantes de l’IA pour l’IM : la surveillance de l’activité cérébrale et notamment ses réactions aux stimuli moteurs, émotionnels et mentaux. L’extension de l’IA au service de l’IM dans tous les champs médicaux est donc vertigineuse !

<Les biais à l’épreuve des algorithmes

Les algorithmes ont pour “mission” d’apprendre à repérer des anomalies sur les images, et à détecter de manière fiable et rapide certaines structures subtiles. ©Pexel

Les algorithmes de machine learning, ou apprentissage automatique, ont pour “mission” d’apprendre à repérer des anomalies sur les images, et à détecter de manière fiable et rapide certaines structures subtiles. Grâce aux applications de l’IA à la médecine, il est désormais possible d’analyser massivement toutes sortes d’images dans le but de dépister les tumeurs et autres anomalies. Mais paradoxalement, les algorithmes ne sont pas toujours cliniquement pertinents. C’est ce qu’explique l’étude « Machine learning for medical imaging: methodological failures and recommendations for the future » (en français : Apprentissage automatique pour l’imagerie médicale : échecs méthodologiques et recommandations pour l’avenir), qui décortique les mécanismes à l’œuvre derrière ce paradoxe [1]. Selon les auteurs, face aux biais qui faussent les modèles, en particulier l‘insuffisance des données (quantitative et/ou qualitative) pour entraîner l’algorithme, l’informaticien doit sortir de sa zone de confort et communiquer avec le médecin qui est l’utilisateur de ces algorithmes. “Le manque de données est plutôt de l’imprécision, mais peut créer des biais si les données ne sont pas représentatives du cas réel” précise Alexandre Nérot.

Par ailleurs, dès lors qu’interviennent le Deep Learning et les réseaux de neurones artificiels*, on est en « zone d’opacité », dans laquelle l’explicabilité des résultats n’est pas évidente et où le médecin n’est pas toujours en mesure de comprendre comment l’outil a transformé les données en résultat. Il est donc nécessaire que développeurs et professionnels de santé utilisateurs parviennent à adopter un langage commun pour marier performance et sens. “De plus en plus, il y aura besoin de profils hybrides à l’interface des deux mondes” analyse le Dr Nérot, lui-même développeur, en capacité d’échanger avec les sociétés de développement, indiquant que, grâce à la mise en place d’un diplôme d’IA pour les radiologues, il y aura chaque année une promotion dotée de la double compétence. “Sans devenir un spécialiste, mais avec la volonté de s’y intéresser, chaque médecin devra à l’avenir avoir une petite culture d’IA” affirme-t-il.

ÀÀ l’aube de l’IA 4 IM : déjà des apports majeurs, mais tellement plus à attendre encore !

Si en une décennie, la reconnaissance automatique d’images a bénéficié de progrès fulgurants, la puissance des algorithmes reste le nerf de la guerre pour “aller plus loin”. La compétition fait rage pour quantifier l’erreur et réduire l’incertitude en imagerie médicale afin de garantir la fiabilité et la précision des résultats obtenus.

Outre la quantité, il convient de disposer de données de haute qualité, contrôlées, afin d’entraîner des algorithmes d’IA à délivrer des résultats justes et précis… et leur validation reposera nécessairement sur la comparaison avec ceux obtenus par des experts humains, qui doivent rester les référents. CQFD :  l’IA reste tributaire à la fois des données et de la puissance des algorithmes.  La “data” est donc au cœur des enjeux, et c’est de fait là où le bât blesse si elle s’avère insuffisante, incomplète ou manquante. Composante faisant partie intégrante de l’IA, le machine learning va consister à alimenter le logiciel de milliers de cas cliniques grâce à la contribution des professionnels de santé afin qu’il soit en mesure d’effectuer des tâches de classement, permettant, par exemple, d’identifier des grains de beauté ou des mélanomes malins.

Si on estime que le médecin “réussit à 80%” une identification de cellules, la valeur ajoutée de l’IA n’existe que si elle dépasse largement cette probabilité, pour idéalement s’approcher d’une fiabilité à 100% et apporter une véritable sécurité. Précieux outil pour aider les médecins à diagnostiquer avec plus de précision et de rapidité, l’IA garde pour l’heure le statut… d’outil !

LL’IA appliquée à un monde de variables : l’imagerie médicale

Extrait de la table ronde « IA et santé » organisée par Pop’Sciences le 26 juin 2023. Un rendez-vous professionnel chercheur / journaliste, développé en collaboration avec le Club de la presse de Lyon (Projet LYSiERES²).


—————————————————————

Notes :

[1] Le “machine learning” consiste à apporter une solution à un problème donné en s’appuyant sur un réseau de neurones organisés selon une architecture particulière. Le deep learning est une façon de faire du machine learning en intégrant une quantité importante de données (Big Data)

 

PPour aller plus loin :

[1] https://www.inria.fr/fr/imagerie-medicale-intelligence-artificielle-apprentissage-automatique

Une médecine revisitée à l’aune des algorithmes : Quelles questions éthiques soulève l’IA ? | #5 Dossier Pop’Sciences « Diagnostic 2.0 : Quand l’IA intervient »

UUne médecine revisitée à l’aune des algorithmes : Quelles questions éthiques soulève l’IA ? | #5 Dossier Pop’Sciences « Diagnostic 2.0 : Quand l’IA intervient »

Article #5 – Dossier Pop’Sciences Diagnostic 2.0 : Quand l’IA intervient

Entre confiance aveugle et méfiance absolue, comment l’IA doit-elle être éthiquement acceptée et utilisée ? Comment s’affranchir de potentiels biais humains dans les systèmes d’IA utilisés à des fins de diagnostic, ou même thérapeutiques ? Autant de questions qui ne sont plus l’apanage de débats scientifiques, mais doivent être au cœur de débats politiques et sociétaux. Éclairage avec Mathieu Guillermin, physicien et philosophe, chercheur en éthique au sein de l’Unité de Recherche CONFLUENCE Sciences et Humanités (EA1598) de l’Institut Catholique de Lyon (UCLy) et coordinateur du projet international de recherche-action NHNAI qui vise à mettre les ressources des universités participantes au service de la réflexion éthique sociétale.

À l’heure où la médecine 4.0 1 est en marche, le dialogue avec la société s’impose afin de définir les limites dans l’adoption des technologies d’IA et le développement des interactions humains-machines. Les chercheurs, qui sont partie prenante, doivent jouer leur rôle de garde-fou, l’enjeu premier étant de démystifier l’IA, d’en faire comprendre les mécanismes et de la présenter comme une palette d’outils. “Aujourd’hui, la majorité des technologies d’IA s’appuie sur un apprentissage machine (ou machine learning)” rappelle Mathieu Guillermin, soulignant que l’on peut considérer celui-ci comme un apprentissage automatique pour la réalisation d’une tâche précise à partir de données fournies à l’IA.

 

Un article de Nathaly Mermet, journaliste scientifique, et Léo Raimbault, rédigé
pour Pop’Sciences – 5 septembre 2023

<Quelles promesses de l’IA ? … et quels réels enjeux éthiques ?

Les technologies d’IA sont susceptibles d’améliorer la qualité et l’efficacité aussi bien de la prise en charge des patients (diagnostics, pronostics, choix des stratégies thérapeutiques) que la recherche biomédicale. On parle alors de « precision medicine« , médecine de précision ou encore de médecine personnalisée.

Pour autant, “les techniques d’IA ne sont pas infaillibles et soulèvent de nombreux enjeux éthiques, dans le domaine de la santé certes, mais aussi plus largement” alerte Mathieu Guillermin. Par exemple, les logiciels produits par apprentissage automatique sont rarement « meilleurs » que ceux produits par un programmeur, même débutant. Ainsi, on ne peut encore se soustraire aux qualités de travail humaines, notamment en programmation. “Si l’IA est présentée comme quelque chose d’autonome et indépendant de l’intelligence humaine, on égare beaucoup de monde” prévient Mathieu Guillermin.

<Les enjeux éthiques sont donc de natures variées !

Au-delà de la programmation, l’IA répète les schémas présents dans les bases de données d’apprentissages. Par conséquent, si les bases de données servant à guider l’apprentissage sont biaisées, incomplètes ou non représentatives, les prédictions de l’IA seront… d’aussi mauvaise qualité. Or, en médecine, une base de données ne peut être exhaustive et représenter fidèlement la réalité. Par exemple, si une certaine catégorie de personnes est sous-représentée dans les bases de données d’apprentissages, alors l’IA aura bien plus de mal à faire des prédictions correctes pour cette population et génère, de fait, « des biais discriminant injustement ce type de personnes » selon Mathieu Guillermin.

Enfin, “même quand il n’y a pas de discrimination ou de biais, que le niveau de performance est bon, tout n’est pas encore résolu au niveau éthique” examine Mathieu Guillermin. Dans le contexte de l’automatisation des tâches, la substitution d’un être humain, doté d’émotions, de réflexion, de jugement et parfois sujet à l’erreur, par un logiciel qui opère de manière mécanique, ne peut être considérée comme une démarche anodine. La capacité de ces technologies à égaler, voire à surpasser les compétences humaines dans certaines missions soulève des interrogations essentielles en matière d’éthique.

<Comment définir les limites éthiques ?

Promettant de compléter la précision des professionnels de la santé, l’utilisation de l’IA nécessite donc de définir le niveau d’acceptabilité de l’erreur et la responsabilité morale. L’exploration d’un “Nouvel Humanisme à l’Heure des Neurosciences et de l’Intelligence Artificielle” (NHNAI), telle est l’ambition d’un vaste projet international réunissant les universités catholiques de 9 pays 2, dont celle de Lyon : l’UCLy. “À l’origine, la volonté est d’amener la société dans une réflexion éthique autour des neurosciences et de l’intelligence artificielle, et le projet s’inspire de ce que nous faisions déjà en éthique embarquée 3, c’est-à-dire d’amener et animer la réflexion éthique au sein des projets de recherche” explique Mathieu Guillermin.

Le projet du NHNAI cherche ainsi à définir un nouvel humanisme qui embrasserait les avancées technologiques, dont l’IA, tout en préservant les valeurs essentielles de dignité, de liberté et de responsabilité humaine. Il aspire à guider la société vers un avenir où la symbiose entre la technologie et l’humanité s’inscrit dans une perspective éthique et sociale claire.

Alors que l’IA progresse rapidement, il est essentiel de ne pas perdre de vue les valeurs et les préoccupations humaines. À ce titre, le projet remet l’humain au centre des problématiques liées aux nouvelles technologies. Il invite donc non seulement les chercheurs de toutes disciplines, mais également les citoyens à se joindre à la discussion et au débat. Tout un chacun ayant désormais accès à des outils IA à porter de clic (citons ChatGPT), les décisions concernant l’IA ne peuvent se réfléchir uniquement entre experts, mais doivent également refléter les valeurs, les préoccupations et les opinions de la société dans son ensemble.

<Une intelligence artificielle peut-elle être vraiment… intelligente ?

Objet d’un réel engouement médiatique, fascination pour les uns et inquiétude pour d’autres, l’IA est un terme de plus en plus galvaudé, or tout n’est pas Intelligence Artificielle. Alors que le terme “intelligence” désigne initialement une faculté cognitive humaine (ou du moins animale), l’apposition au qualificatif “artificiel” semble antinomique, voire un non-sens. Mais comment apprécier objectivement l’intelligence ? C’est une réflexion qui nous renvoie à un questionnement métaphysique concernant notre existence humaine. “La sémantique obscurcit le débat, mais reste qu’avec les technologies d’IA, le traitement d’information conscient, humain, est remplacé par le traitement d’information automatique” résume Mathieu Guillermin, ce qui en matière de santé mérite toute notre attention.

Considérée comme un algorithme apprenant, conçu par un humain, l’IA reste un outil dont la performance est liée à celle de son concepteur. En revanche, le questionnement est plus ardu dès lors que la performance de l’IA dépasse la performance humaine. In fine, une machine peut-elle avoir un pouvoir de décision ?

En santé, “La réelle question est de savoir comment la modélisation mathématique peut accompagner chacune des trois dimensions du rôle du médecin que sont le diagnostic, le suivi de l’efficacité thérapeutique et le pronostic, en particulier dans le cas de pathologies graves” pointe Pascal Roy, médecin et chercheur en biostatistiques au sein du Laboratoire Biologie Biométrie Evolutive (LBBE) à Villeurbanne (CNRS, Université Claude Bernard Lyon 1, VetAgro Sup). L’IA ne peut donc rester qu’un outil aidant à préciser ou accélérer l’expertise des médecins.

<L’IA est un outil, mais pas une finalité

Mathieu Guillermin nous rappelle l’importance de prendre en compte les questions éthiques dès le début du processus de création d’une IA par les développeurs. En effet, si le code de programmation est mal conçu ou si les exemples utilisés pour entraîner l’IA ne sont pas représentatifs, biaisant l’outil, les résultats de celle-ci seront peu fiables.

« Avoir un esprit ne semble entretenir que peut de liens avec le fait d’exécuter un programme » explique-t-il, faisant référence au philosophe américain John Searle et à sa célèbre expérience de pensée dite « de la chambre chinoise ». L’expérience de Searle vise à démontrer que l’intelligence artificielle est limitée à être une forme d’intelligence artificielle faible et qu’elle est uniquement capable de simuler la conscience, sans être capable de véritables états mentaux, de conscience et d’intentionnalité. En d’autres termes : pour obtenir des résultats fiables et éthiques avec l’IA, c’est à l’Humain de s’assurer que le processus de conception et de formation de l’IA est bien pensé dès le départ pour éviter les biais et les problèmes éthiques ultérieurs. Il faut mettre du sens derrière l’outil.

LLes biais de l’IA : quand l’esprit humain plane sur les données

Extrait de la table ronde « IA et santé » organisée par Pop’Sciences le 26 juin 2023. Un rendez-vous professionnel chercheur / journaliste, développé en collaboration avec le Club de la presse de Lyon (Projet LYSiERES²).

—————————————————————

Notes :

[1] La « Médecine 4.0 » combine l’électronique, les technologies de l’information et de la communication et les microsystèmes dans une médecine moderne. Les progrès électroniques des cent dernières années ont apporté d’énormes contributions à la recherche médicale et au développement de nouveaux procédés thérapeutiques. Ainsi, les capteurs intelligents dotés d’interfaces radio appropriées permettront de relier entre eux les processus diagnostiques et thérapeutiques en médecine, rendant possible le développement de toutes nouvelles formes de traitements. Cette nouvelle « médecine 4.0 » intègre les progrès acquis grâce à la fusion de la technologie des micro-capteurs, de la microélectronique et des technologies de l’information et de la communication, au service d’applications pratiques dans de multiples aires thérapeutiques (chimiothérapie personnalisée, entre autres). La moyenne d’âge des médecins étant actuellement supérieure à 50 ans, le renouvellement par une génération « Digital Native » interviendra d’ici 15 ans, ce qui permettra certainement de transformer l’essai de la médecine 4.0.

[2] Belgique, Chili, États-Unis, France, Italie, Kenya, Portugal, Québec, Taïwan

[3] L’éthique embarquée désigne l’intégration de principes éthiques et de considérations morales directement dans le développement et le fonctionnement de technologies, notamment des systèmes d’intelligence artificielle et des dispositifs autonomes. Cela vise à garantir que ces technologies agissent de manière conforme à des normes éthiques prédéfinies, comme la sécurité, la transparence, la responsabilité, et le respect des droits de l’homme, tout en minimisant les risques liés à des comportements non éthiques.

PPour aller plus loin

L’IA en FAQ, les étudiants nous répondent | #6 Dossier Pop’Sciences « Diagnostic 2.0 : Quand l’IA intervient »

LL’IA en FAQ, les étudiants nous répondent | #6 Dossier Pop’Sciences « Diagnostic 2.0 : Quand l’IA intervient »

Article #6 – Dossier Pop’Sciences Diagnostic 2.0 : Quand l’IA intervient

Dans cette série de questions et réponses, les étudiants de première année du cycle d’ingénieur de l’EPITA, école d’ingénierie informatique, répondent à nos questions concernant l’IA. A-t-elle toujours raison ? Peut-elle développer des sentiments ? Ou, est-elle capable de réelles créations ? Les étudiants nous éclairent.

SSommaire :

  1. L’IA peut-elle éprouver des sentiments ?
  2. L’IA est-elle toujours infaillible ?
  3. L’IA est-elle écologique ?
  4. L’IA favorise-t-elle la désinformation ?
  5. L’IA peut-elle être créative ?
  6. Peut-on reconnaitre une image générée par IA ?
  7. L’IA va-t-elle abolir le travail ?

11. l’IA peut-elle éprouver des sentiments ?

Les chercheurs s’accordent sur le fait que l’IA ne possède ni conscience de soi, ni expérience personnelle, remettant ainsi en question sa capacité à ressentir des sentiments. Cynthia Breazeal, professeure au MIT et experte en robotique sociale, souligne que l’IA est une simulation programmée de comportements émotionnels, dépourvue de l’expérience intérieure propre aux humains. Si elle peut détecter et répondre aux émotions humaines, cela reste une imitation basée sur des règles préétablies.

Par exemple, Sophia, un robot développé par Hanson Robotics, peut donner l’impression de ressentir des émotions grâce à des expressions faciales et des réponses préprogrammées. Elle crée une apparence d’émotion basée sur des règles préétablies, sans réelle expérience émotionnelle.

En outre, les sentiments humains sont influencés par des facteurs biologiques, sociaux et culturels, des capacités qui font défaut à l’IA statique qui ne peut évoluer avec le temps. En somme, les recherches soulignent que l’IA ne peut ressentir d’émotions véritables, ne pouvant que les feindre, tout au plus.

Léo Arpin & Adrien Guinard

22. L’IA est-elle toujours infaillible ?

Exemple d’une image capturée sous une lumière idéale (en haut) et d’image prise d’une image prise dans des conditions de faible éclairage (en bas). ©Lars Karlsson

Les capacités de l’IA dépendent avant tout des données avec lesquelles elle a été entraînée. De fait, elle est susceptible d’être influencée par les biais présents dans ces mêmes données. Donc, si les données sont biaisées ou reflètent des préjugés humains, l’IA risque de reproduire ces même biais dans ses prédictions. Par exemple, si un système de recrutement automatisé est entraîné sur des données historiques qui favorisent certains groupes au détriment d’autres, il peut perpétuer ces inégalités lors de l’évaluation des candidatures.

De même, l’IA est limitée par les situations étrangères à celles sur lesquelles elle a été formée. Si un modèle d’IA est entraîné pour reconnaître des objets sur une image prise dans des conditions de lumière optimales, celui-ci peut peiner les reconnaître sur des images prises dans un contexte différent.

 

Non seulement les conditions de l’environnement d’entraînement influent sur les résultats, mais il faut aussi tenir compte du fait qu’une IA n’est jamais précise à 100%. En effet, au cours de son entraînement, lorsque l’on teste l’algorithme avec une base de données complète (dont on connaît le résultat), celui-ci montre déjà des incohérences. On s’approche toujours, mais on n’atteint jamais la perfection, il est donc impossible d’avoir une IA totalement fiable.

Pour pallier ces limites, la supervision humaine est cruciale. Les experts doivent continuer à surveiller et à évaluer les performances de l’IA, en s’assurant qu’elle prend des décisions justes, transparentes et éthiques. Il est nécessaire de mettre en place des mécanismes de contrôle et de réglementation pour garantir une juste utilisation de l’IA. Des techniques telles que l’apprentissage par renforcement et l’apprentissage fédéré sont justement développées pour réduire les biais et améliorer la capacité de l’IA à généraliser dans de nouvelles situations.

Arthur De Sousa, Raphaël Hatte, Pierre Raimondi & Maui Tadeje

 

33. L’IA est-elle écologique ?

©Freepik

Aux vues de la crise climatique que nous traversons, la croissance de l’Intelligence Artificielle pose question. Les modèles d’apprentissage automatique, et notamment les Large Language Models (LLM) sont très gourmands en énergie. L’entraînement de ces mastodontes, la fabrication du matériel, la maintenance de l’infrastructure, son déploiement ou encore le type d’énergie utilisé sont autant de facteurs pesant dans la balance de leur empreinte carbone. Et cela représente un coût non-négligeable en termes d’émissions de dioxyde de carbone.

Par exemple, l’entreprise Hugging Face a estimé l’empreinte carbone l’entraînement de sa propre LLM (dénommé BLOOM), à environ 25 tonnes de dioxyde de carbone, soit autant qu’une voiture ayant parcourue 130 000km. En comparaison à BLOOM, l’empreinte carbone liée à l’entraînement de ChatGPT-3 et d’OPT de META sont respectivement estimés à 500 et 70 tonnes de dioxyde de carbone. Ce bilan colossal attribué à GPT-3 est entre autres dû à l’ancienneté de l’équipement utilisé. L’optimisation des LLM est un autre paramètre jouant largement sur l’empreinte carbone. Par exemple, LLaMA est un LLM qui peut compter tout au plus 65 milliards de paramètres et ayant tout de même les capacités de rivaliser contre GPT-3 d’Open-AI malgré ses 162 milliards de paramètres. Or, le nombre de paramètres d’une LLM impacte grandement sa consommation en énergie.

Pour autant, l’IA peut être mise au service de pratiques plus écologiques. Elle est notamment capable d’optimiser l’utilisation des ressources dans divers secteurs, comme l’énergie, la logistique ou l’agriculture. Cette aide à la gestion des ressources agricoles par IA en fonction des besoins réels, tels que l’eau ou les pesticides, permet de réduire les gaspillages et de minimiser l’impact environnemental.

En investissant dans des solutions énergétiques durables, en favorisant la recherche sur des modèles plus efficaces et en réglementant judicieusement l’utilisation de l’IA, nous pourrons peut-être exploiter son potentiel tout en agissant de manière responsable vis-à-vis de notre planète et des générations futures.

Mehdi Ismaili & Gregoire Vest

44. L’IA favorise-t-elle la désinformation

L’IA possède la capacité de générer du contenu de manière automatisée, y compris des textes, des images et des vidéos. Cette fonctionnalité, bien qu’offrant des possibilités intéressantes, peut également être détournée pour créer et diffuser de fausses informations. Des algorithmes d’apprentissage automatique peuvent être entraînés pour produire des articles, des tweets ou des vidéos qui semblent authentiques, mais qui sont en réalité des faux. Cette situation ouvre la porte à une propagation rapide de désinformation à grande échelle, comme les célèbres « photos » du pape en doudoune ou de Donald Trump se faisant arrêter.

Outre la production de contenus, l’IA peut être utilisée pour manipuler l’opinion publique. Les algorithmes peuvent analyser les comportements en ligne des utilisateurs et cibler des publicités ou des contenus spécifiques afin d’influencer leurs opinions. En comprenant les préférences d’un individu, l’IA peut personnaliser les messages pour maximiser leur impact. Cela peut entraîner la création d’une bulle informationnelle dans laquelle les individus sont exposés à des idées similaires, renforçant leurs croyances et limitant la diversité des opinions.

Heureusement, l’IA peut également être utilisée pour détecter la désinformation. Des algorithmes peuvent analyser les caractéristiques des contenus suspects pour les identifier. Le traitement du langage naturel et l’apprentissage automatique permettent de repérer les incohérences, les biais et manipulations dans les articles, les images ou les vidéos. Toutefois, ces outils doivent être constamment améliorés pour rester efficaces face au progrès technique de la désinformation.

Emil Toulouse, Todd Tavernier & Remi Decourcelle

 

55. L’IA peut-elle être créative ?

Tableau généré via Dall-E ©Léo Raimbault

La créativité, généralement définie comme la capacité à produire quelque chose de nouveau et de valeur, concerne des domaines tels que les arts, la musique ou la littérature. L’IA est désormais souvent utilisée pour susciter, inspirer ou créer des œuvres dans ces sphères. Elle peut même être entraînée à reconnaître divers styles artistiques afin de générer des peintures fidèles à un courant ou à un artiste précis. À titre d’exemple, des réalisations comme “The next Rembrandt” ou “Le portrait d’Edmond de Belamy” se sont vendues aux enchères en 2018 pour 432 500$. La sphère musicale est également concernée, notamment avec la chanteuse “IA” qui, comme son nom l’indique est une IA, dont le premier album ‘00’ s’est vendu à plus de 2 millions d’exemplaires en l’espace d’un mois.

Cependant, il est important de comprendre que l’IA ne crée pas intrinsèquement quelque chose de nouveau. En effet, elle utilise des algorithmes pour générer des créations « mélangeant » des parties d’œuvres préexistantes sur lesquels elle a fait son apprentissage. On peut donc toujours considérée la créativité comme une caractéristique propre à l’humain. Cependant, cela ne signifie pas que l’IA n’a pas de valeur dans la création artistique. Ces programmes peuvent grandement soutenir les artistes en favorisant la génération d’idées novatrices et l’expérimenter de nouvelles approches.

Il est également difficilement envisageable que l’IA puisse remplacer la créativité humaine. Les êtres humains ont la capacité d’effectuer des associations inattendues, de casser les codes, et de concevoir des concepts jusqu’alors inexistants. L’IA, quant à elle, est limitée par les algorithmes et les données qu’elle utilise pour générer ses créations.

En somme, l’IA peut être utilisée pour générer des créations qui ressemblent à celles qui ont été produites par des êtres humains, mais elle ne peut pas supplanter la créativité humaine. Les programmes d’IA restent néanmoins de précieux outils pour nourrir la créativité et la technique des artistes.

Paul Gravejal, Aymen Gassem & Sandro Ferroni

 

66. Peut-on reconnaitre une image générée par IA ?

L’intelligence artificielle (IA) a récemment connu des avancées spectaculaires dans la génération d’images de plus en plus réalistes. Il est aujourd’hui courant de voir des images de célébrités créées de toutes pièces ; le meilleur exemple étant celles du pape habillé d’une grande doudoune blanche. Cependant, le degré de réalisme atteint un tel niveau qu’il peut être difficile de reconnaître une image générée par une IA.

Saurez-vous repérer l’anomalie sur cette image générée par IA ? ©Pop’Sciences

Cette difficulté dans la distinction d’une image générée par IA réside dans le fait qu’elle travaille avec un volume colossal de données. Les modèles IA analysent et apprennent les caractéristiques communes d’images existantes, puis les reproduisent dans leurs créations. Par exemple, l’IA Stable Diffusion a été entrainée à partir d’une base de données de 2,3 milliards d’images.

Néanmoins, lorsqu’il s’agit de créer l’image d’une personne, l’IA a encore beaucoup de difficultés pour certaines zones spécifiques comme les mains. Même pour un dessinateur humain, les mains demeurent la partie du corps la plus complexe et difficile à représenter. Les défis sont nombreux, que ce soit en termes de forme, de nombre de doigts visibles, de perspectives variées ou de proportions.

Étant donné que les IA sont entrainées sur de gigantesques bases de données, elles font face à des millions de combinaisons différentes de mains et n’arrivent donc pas à modéliser correctement cette partie du corps humain. Ainsi, dans les images générées incluant des mains, il est très courant d’observer des moignons, des articulations improbables, ainsi que des doigts déformés ou en quantité inexacte.

Une autre manière de déceler une image générée est d’étudier les pixels de cette dernière. En effet, l’IA ne va pas créer, comme un humain le ferait, en dessinant des zones de couleurs unies.  Elle commence par une « bouillie » de pixels, puis en cherche à lier ces derniers pour obtenir l’image voulue : on appelle cela la réduction du bruit de l’image. Ainsi, par une simple sélection de couleur sur un logiciel d’édition d’image, on peut parfois permettre de retrouver cette « bouillie » de pixels.

Or, s’il existe également des logiciels permettant de détecter ces artefacts automatiquement comme « AI or Not », la frontière entre la réalité et ce qui est généré par l’IA continue de se réduire, risquant de créer de plus en plus de confusions concernant la véracité des contenus que nous ingérons au quotidien.

Nathan Goetschy, Rémi Jeulin & Clovis Lechien

77. L’IA va-t-elle abolir le travail ?

Dans l’ombre de l’IA grandit une certaine inquiétude : l’IA ne va-t-elle pas finir par nous remplacer ? Mais l’intelligence artificielle qui représente tout outil utilisé par une machine afin de « reproduire des comportements liés aux humains, tels que le raisonnement, la planification et la créativité » est-elle réellement capable de rendre le travail des humains obsolètes ?

Mouvement de boycott des technologies IA par des illustrateurs. source: “Is AI Art Here to Steal Your Career Away?” by Polydin Studio

L’IA est de plus en plus présente au niveau des travaux répétitifs ou dangereux puisqu’elle se montre parfois plus efficace ou rencontrant moins de risques qu’un humain. Elle fait également son entrée dans les domaines artistiques et informatiques. Citons Midjourney ou ChatGpt, par exemple, à l’origine de plusieurs scandales qui ont levé le voile sur cette problématique émergente.

Nous sommes pour autant bien loin d’une abolition du travail « humain ». De nouveaux emplois voient le jour pour créer ou gérer ces nouvelles technologies liées à l’IA (ingénieurs, gestionnaires de bases de données d’apprentissage, etc.). Et, bien que plus efficaces que nous pour certaines tâches, l’IA a encore du chemin à faire avant de nous remplacer, notamment dans les métiers nécessitant de l’empathie ou ceux demandant beaucoup de capacités d’adaptation. À l’heure actuelle, elle demande une immense puissance de calcul, ce qui en fait rarement la meilleure solution, quand elle n’est pas simplement hors de propos. La méfiance envers l’IA freine également l’intégration de cette technologie dans le monde du travail.

L’abolition du travail par l’IA ne risque donc pas d’arriver de sitôt. De plus, avec un bon équilibre, l’IA peut au contraire devenir un outil et une aide extrêmement efficace plutôt qu’une menace.

Garice Morin, Alice Cariou, Eliana Junker

 

 

 

ChatGPT, modèles de langage et données personnelles : quels risques pour nos vies privées ? | The Conversation

CChatGPT, modèles de langage et données personnelles : quels risques pour nos vies privées ? | The Conversation

Les immenses bases de données qui servent à l’apprentissage de grands modèles de langage ne sont pas toutes anonymisées.
Dmitry Ratushny, Unsplash, CC BY

 

Les grands modèles de langage ont récemment attiré beaucoup d’attention, notamment grâce à l’agent conversationnel ChatGPT. Cette plate-forme est devenue virale en seulement quelques mois et a déclenché une course effrénée pour développer de nouveaux modèles de langage toujours plus efficaces et puissants, rivalisant avec l’humain pour certaines tâches.

Cette croissance phénoménale est d’ailleurs jugée dangereuse par de nombreux acteurs du domaine, qui plaident pour une pause afin d’avoir le temps de débattre sur l’éthique en IA et de mettre à jour les réglementations.

Une des grandes questions qui se pose est l’articulation entre intelligence artificielle et vie privée des utilisateurs. En particulier, les prouesses des grands modèles de langage sont dues à un entraînement intensif sur d’énormes ensembles de données, qui contiennent potentiellement des informations à caractère personnel, car il n’y a pas d’obligation d’anonymiser les données d’entraînement.

Il est alors difficile de garantir en pratique que le modèle ne compromet pas la confidentialité des données lors de son utilisation. Par exemple, un modèle pourrait générer des phrases contenant des informations personnelles qu’il a vues pendant sa phase d’entraînement.

AApprendre à imiter le langage humain

Les modèles de traitement du langage sont une famille de modèles basés sur l’apprentissage automatique (machine learning en anglais), entraînés pour des tâches telles que la classification de texte, le résumé de texte et même des chatbots.

Ces modèles apprennent d’une part à encoder les mots d’une phrase sous la forme de vecteurs, en tenant compte de l’ensemble du contexte. Dans les phrases « J’ai mangé une orange » et « Son manteau orange est beau », le mot « orange » se verra attribuer deux encodages différents, puisque la position et le sens ne sont pas les mêmes.

orange bleue a l’extérieur
La Terre est bleue comme une orange. Les modèles de langage apprenne à générer des phrases en faisant suivre les mots les plus probable. Auraient-ils proposé cette ligne de Paul Éluard ?
pixabay, CC BY

Ces modèles apprennent également à décoder ces ensembles de vecteurs contextualisés et leurs relations, pour générer de nouveaux mots. Une phrase est générée séquentiellement, en prédisant le prochain mot en fonction de la phrase d’entrée et des mots prédits précédemment.

L’architecture de ces modèles peut être spécialisée pour certaines tâches. Par exemple, les modèles de type BERT sont souvent « affinés » en apprenant sur des données spécialisées, par exemple sur des dossiers de patients pour développer un outil de diagnostic médical, et sont plus performants sur des tâches de classification de texte tandis que les modèles GPT sont utilisés pour générer de nouvelles phrases. Avec l’essor des applications exploitant les modèles de langage de langage, les architectures et les algorithmes d’entraînement évoluent rapidement. Par exemple, ChatGPT est un descendant du modèle GPT-4, son processus d’apprentissage ayant été étendu pour se spécialiser dans la réponse aux questions.

CConfidentialité des informations utilisées pendant la phase d’entraînement du modèle

Les modèles de traitement du langage naturel ont besoin d’une quantité énorme de données pour leur entraînement. Pour ChatGPT par exemple, les données textuelles du web tout entier ont été récoltées pendant plusieurs années.

Dans ce contexte, la principale préoccupation en matière de confidentialité est de savoir si l’exploitation de ces modèles ou les informations qu’ils produisent peuvent dévoiler des données personnelles ou sensibles utilisées pendant la phase d’apprentissage et « recrachées » ou inférées pendant la phase d’utilisation.

ombre humaine devant lignes de codes
Quelle est la probabilité qu’un grand modèle de langage donne une information personnelle acquise lors de son apprentissage ?
Chris Yang/Unsplash, CC BY

Considérons d’abord les chatbots (exploitant les modèles de type GPT) qui ont appris à générer des phrases à partir d’un texte d’entrée. D’un point de vue mathématique, chaque mot est prédit séquentiellement, sur la base de probabilités qui auront été apprises durant la phase d’entraînement.

Le problème principal est que des données potentiellement personnelles peuvent parfois constituer la réponse la plus probable. Par exemple, si le modèle a vu la phrase « Monsieur Dupont habite 10 rue de la République » et qu’on lui demande « Où habite Monsieur Dupont ? », le modèle sera naturellement enclin à répondre l’adresse de celui-ci. Dans la pratique, le modèle aura aussi vu de nombreuses phrases de la forme « X habite à Y » et on s’attend plutôt à ce qu’il réponde des connaissances générales plutôt que des adresses spécifiques. Néanmoins, le risque existe et il est nécessaire de pouvoir le quantifier.

ÉÉvaluer les probabilités de fuites de données

Il existe tout d’abord des techniques pour évaluer en amont de l’entraînement final si des phrases rares ont le potentiel d’être anormalement mémorisées par le modèle. On réalise pour cela des micro-entraînements, avec et sans ces phrases, et l’on se débarrasse de celles qui auraient une influence trop grande.

Mais les gros modèles de traitement du langage naturel sont non déterministes et très complexes de nature. Ils sont composés de milliards de paramètres et l’ensemble des résultats possibles étant infini, il est en pratique impossible de vérifier manuellement le caractère privé de toutes les réponses. Néanmoins, il existe des métriques qui permettent d’approximer ou de donner une borne maximale sur les fuites de données potentielles.

Une première métrique est l’« extractibilité ». Nous disons qu’un texte est « k-extractible » s’il est possible de le générer à partir d’une entrée de longueur k (en nombre de mots). Par exemple, si le modèle renvoie « 10 rue république » lorsqu’on lui demande « Monsieur Dupont habite à », cette adresse est 3-extractible.

Pour les données personnelles ou sensibles, l’objectif est d’avoir un k le plus élevé possible, car un k faible implique une extraction facile. Une étude de ce type a été réalisée sur GPT-2 : elle a permis d’extraire facilement des informations personnelles sur des individus.

Un autre risque qu’on peut évaluer est l’« inférence d’appartenance ». L’objectif ici est d’identifier si une donnée a été utilisée lors de l’apprentissage du modèle. Supposons par exemple qu’un hôpital entraîne un modèle pour détecter la présence de cancer à partir d’extraits médicaux de patients. Si vous parvenez à découvrir que le modèle a été entraîné sur les données de Monsieur Dupont, vous apprendrez indirectement qu’il est probablement atteint de cancer.

Pour éviter cela, nous devons nous assurer que le modèle ne donne aucun indice quant aux données sur lesquelles il a été entraîné, ce qu’il fait par exemple lorsqu’il se montre trop confiant vis-à-vis de certaines réponses (le modèle va mieux se comporter sur des données qu’il a déjà vu pendant la phase d’entraînement).

TTrouver le bon compromis

Faire comprendre au modèle quelles données sont à caractère personnel n’est pas évident, puisque la frontière entre ces deux types de données dépend bien souvent du contexte (l’adresse d’Harry Potter est connue de tous, contrairement à celle de Monsieur Dupont).

L’entraînement d’un modèle qui respecte la confidentialité passe alors souvent par l’ajout de bruit à un moment ou un autre. L’ajout de bruit consiste à altérer l’information apprise ou bien les réponses du modèle, ce qui permet de réduire les risques d’extraction ou d’inférence. Mais cela implique aussi une légère baisse d’utilité. Il faut donc faire un compromis entre performance et respect des données personnelles.

Les applications potentielles des modèles de langage sont incroyablement vastes, mais il est nécessaire d’encadrer leur pratique en prenant compte les risques de fuites avant leur déploiement. De nouvelles méthodes d’entraînement, ainsi que l’anonymisation des données, voire l’utilisation de données synthétiques, sont toutes des solutions prometteuses et en cours d’étude, mais il faudra de toute manière les accompagner de métriques et de méthodologies pour valider non seulement les performances mais aussi la confidentialité des informations personnelles utilisées lors de l’entraînement des modèles.

 

 

Article publié sur The Conversation le 23 juin 2023

Cet article a été co-écrit par Gaspard Berthelier, en stage au centre Inria de l’Université Grenoble Alpes dans l’équipe Privactics, sur le natural language processing (NLP) et le respect des données personnelles.The Conversation

Antoine Boutet, Maitre de conférence, Privacy, IA, au laboratoire CITI, Inria, INSA Lyon – Université de Lyon

Cet article est republié à partir de The Conversation sous licence Creative Commons. Lire l’article original.