« Je joue en effet avec le feu »

Lydia-Chen_480.jpg

Rencontre avec Lydia Y. Chen, chaire d’apprentissage automatique

« Systèmes d’apprentissage collaboratif dignes de confiance », c’est le titre de la leçon inaugurale que proposera Lydia Chen mercredi 30 octobre 2024. Attention, on ne parle pas de système scolaire, mais bien d’une nouvelle approche du « machine learning », donc d’intelligence artificielle, cette AI qui fait tant parler d’elle.

Enfant, à Taïwan, elle s’imaginait devenir un jour femme au foyer. « Les Quatre filles du docteur March », répond-elle lorsqu’on lui demande quel livre à participé à la construire en tant que personne. Et de préciser : « Nous étions quatre sœurs et je suis l'aînée – tout comme dans le livre. Celui-ci m'a appris à être responsable des personnes qui dépendent de moi et à rester positive dans les moments difficiles. »

Ses talents pour l’informatique et les mathématiques l’ont amenée au Canada, puis aux Etats-Unis, et enfin en Europe. Et à plonger dans le vaste champ, à la fois fascinant et inquiétant, de l’intelligence artificielle.

Votre parcours vous a fait passer par trois continents… c’est l’informatique qui est désormais le meilleur pont entre les cultures ?

Oui, c'est intéressant de voir comment les technologies de l'information peuvent jeter un pont entre les cultures et les lieux géographiques. En effet, l'informatique est un langage universel commun utilisé par de nombreuses personnes, avec par exemple, « Python » en tant que langage de programmation pour les experts en sciences des données du monde entier. Cette observation coïncide également avec la tendance récente du nomadisme numérique, qui permet aux spécialistes des technologies de l'information de travailler partout, à l'endroit de leur choix.

Votre leçon inaugurale porte sur l’apprentissage fédéré (« federated learning »). Pouvez-vous nous en donner une définition simple ?

L'apprentissage fédéré est un paradigme d'apprentissage automatique qui permet à des propriétaires de données géographiquement dispersés de former ensemble un modèle d'apprentissage automatique sans échanger les données brutes.

Plus précisément, quelle différence entre le « federated learning » et  le « machine learning » en général, soit le fait d’apprendre aux ordinateurs à tirer des enseignements des données et à s'améliorer avec l'expérience.

L'apprentissage automatique traditionnel implique l'apprentissage centralisé – qui rassemble d'abord les données des différents sites de données en un lieu central et développe ensuite le modèle d'apprentissage automatique. En revanche, dans le cadre de l'apprentissage fédéré, les données brutes restent dans les locaux et leur confidentialité est donc préservée du fait de la conception même de la démarche.

Pourquoi la précision « dignes de confiance » dans le titre de leçon inaugurale ? 

L’expression « digne de confiance », « trustworthy » en anglais, se compose de deux éléments : la confiance et la valeur. Je démontrerai tout d'abord la valeur ou l'intérêt de concevoir les modèles génératifs selon une méthode d'apprentissage fédéré. Ensuite, je montrerai les problèmes posés par les données malveillantes et les solutions pour s'en défendre.

Pouvez-vous nous donner un ou deux exemples où l’utilisation de ces systèmes collaboratifs est particulièrement importante ?

Dans les secteurs où les données brutes sont soumises à des contraintes de confidentialité ou de respect de la vie privée. Par exemple, les hôpitaux possèdent une grande quantité de données sensibles sur le COVID. Le cadre d'apprentissage fédéré permettra à différents hôpitaux de dépasser les limites imposées par le partage des données et de construire en collaboration un modèle prédictif du COVID. 

Autre exemple… j'ai plusieurs projets d'apprentissage fédéré avec ASML, le leader mondial des fabricants de machines pour l’industrie des semi-conducteurs. Les fabricants de puces, comme Intel, utilisent des machines de photolithographie d'ASML pour produire les puces. Bien qu'ASML et Intel souhaitent construire un modèle pour prédire les éléments défectueux, ils ne veulent pas partager les données collectées sur les machines pour des raisons de confidentialité. L'apprentissage fédéré sur les séries temporelles, des suite de valeurs numériques, lève ces barrières et permet la collaboration entre ASML et Intel.

Vous travaillez dans LE secteur qui passionne le monde actuellement… et qui lui fait peur également. Vous n’avez jamais le sentiment de jouer avec le feu ?

Les données sont le nouveau pétrole de la technologie d'aujourd'hui. Je joue avec différents types de données – bonnes, mauvaises et malveillantes. Je joue en effet avec le feu. Par exemple, mon groupe développe différents types de modèles génératifs pour générer des données synthétiques, qu'il s'agisse d'images, de tables numériques, de séries chronologiques ou de graphiques, afin d'étendre la quantité et les types de données.

En même temps, les données synthétiques peuvent être considérées comme de fausses données susceptibles de nuire à la société, comme le deepfake par exemple. Cela explique également mes récents travaux sur l'amélioration de la contrôlabilité des données synthétiques issues des modèles génératifs.

Le métier de professeur d’université est double : recherche et enseignement. Qu’est-ce qui vous passionne le plus dans vos recherches et de là, dans la transmission ?

Je suis très enthousiaste à l'idée de combiner l'IA générative et l'apprentissage distribué, ce qui nous permet d'accéder aux données et de partager les connaissances sans craindre pour la protection de la vie privée. Pour aborder les questions de recherche dans ces domaines, il faut des compétences pratiques en programmation afin de construire des modèles d'apprentissage automatique. Et également une bonne compréhension des mathématiques qui sous-tendent ces modèles. C'est pourquoi je mets l'accent sur la conception de cours qui permettent aux étudiant-e-s d'acquérir ces deux compétences. 

Dans mes cours de bachelor, les étudiant-e-s ont le défi de dériver des formules mathématiques et de les valider par simulation informatique. Dans mes cours de master, centrés sur l'IA générative et l'apprentissage automatique distribué, elles et ils apprennent à construire différents types de modèles et à valider les théories qui les sous-tendent par le biais d'expérimentations.

Le souvenir d’un moment particulièrement fort vécu dans le cadre universitaire, en tant qu’étudiante ou en tant que professeure ?

J'ai passé un an à l'université de Colombie-Britannique dans le cadre d'un programme d'échange au début des années 2000. La façon dont les universités occidentales sont organisées a été pour moi un véritable choc culturel. C'était ma première expérience d'un environnement d'apprentissage multiculturel. Des étudiants d'origines différentes s'assoient dans la même classe, puis se retrouvent ensemble lors d'événements sociaux. Cette expérience m'a motivé à poursuivre plus tard des études supérieures aux États-Unis.

Pour conclure, les genres musicaux qui vous accompagnent en général, par exemple en voyageant ou en travaillant ?

J'aime la musique classique et j'écoute Radio Swiss Classic partout où je vais, en particulier pendant mon trajet entre Zurich et Neuchâtel !

Interview UniNE / Bernard Léchot 2024

Leçon inaugurale

« Systèmes d’apprentissage collaboratif dignes de confiance », leçon inaugurale de Lydia Chen, Chaire d’apprentissage automatique


Mercredi 30 octobre 2024 à 18h15
UniMail, rue Emile-Argand 11

Bio express

Lydia Y. Chen a suivi ses études à la National Taiwan University ainsi qu’à l’Université de Colombie-Britannique (Canada), et a obtenu un doctorat à la Penn State University (USA) en 2006. De 2007 à 2018, elle a été membre du personnel de recherche du laboratoire IBM Research Zurich. Elle est professeur au département d'informatique de l'Université de Neuchâtel depuis 2023 et professeure associée de l'Université de technologie de Delft (Pays-Bas) depuis 2018.


Ses domaines de recherche

  • Federated learning (apprentissage fédéré)
  • Generative adversarial learning (apprentissage génératif contradictoire)
  • Meta learning (méta-apprentissage)
  • Auto-ML (machine learning automatisé)
  • Cloud computing (informatique en nuage)
  • Model inference (inférence IA)

Liens