RESEARCH SCHOOL
ÉCOLE DE RECHERCHE
Summer school on natural language processing
Ecole d’été en traitement automatique des langues (ETAL)
12-16 June 2023
Scientific Committee
Comité scientifique
Catherine Berrut (LIG, Université Grenoble Alpes)
Philippe Boula de Mareüil (CNRS, LIMSI)
Max Chevalier (IRIT)
Jean-Pierre Chevallet (LIG,Université Grenoble Alpes)
Vincent Claveau (IRISA Rennes)
Béatrice Daille (Université de Nantes)
Géraldine Damnati (Orange Labs)
Benoit Favre (Aix-Marseille Université)
Guillaume Gravier (IRISA Rennes)
Emmanuel Morin (LS2N, Université de Nantes)
Philippe Muller (IRIT)
François Yvon (CNRS, LISN)
Haïfa Zargayouna (LIPN, Université Paris 13)
Organizing Committee
Comité d’organisation
Leonor Becerra (CNRS – Aix-Marseille Université)
Frédéric Béchet (Aix-Marseille Université)
Béatrice Daille (Université de Nantes)
Abdellah Fourtassi (Aix-Marseille Université)
Benoit Favre (Aix-Marseille Université)
Magalie Ochs (Aix-Marseille Université)
Carlos Ramisch (Université de Toulon)
Natural language processing has become one of the flagship applications in the field of artificial intelligence, bringing new fundamentals, new approaches and new ethical questions. The objective of the Summer school on Natural Language Processing (ETAL) is to provide academics and industry members with access to the latest developments in the field.
The strong convergence of scientific tooling in the communities of automatic written or spoken language processing and information retrieval, driven in particular by statistical and deep learning approaches, and through the types of data manipulated, have brought the associated communities closer together. They are reflected in particular by:
- New advances in the joint processing of spoken and written language based on large corpora of speech and written texts;
- New statistical or mixed approaches and methods for speech, language and information retrieval, to produce new interaction modalities;
- Specificities of spoken dialogues but also written conversations such as email, micro-blogging (tweets), forums and chat.
These topics are addressed during ETAL through lectures given by renowned experts in the field, associated with systematic implementation according to realistic use cases. Particular care is given to the contextualization of these courses in a societal and ethical development process. The training consists of 4.5 days of lectures and practical work (50% lessons, 50% practical work) divided into fundamental modules presenting the essential concepts, the latest advances in statistical methods and thematic modules dedicated to new interfaces.
Le traitement du langage naturel est devenu une des applications phares du domaine de l’intelligence artificielle, amenant de nouvelles méthodes fondamentales, de nouvelles approches et de nouvelles questions éthiques. L’objectif de l’école d’été en Traitement automatique des langues (ETAL) est de donner accès aux académiques et industriels aux derniers développements dans le domaine.
La forte convergence des outils scientifiques dans les communautés du traitement automatique de langue écrite ou parlée et de la recherche d’informations, portées notamment par les approches en apprentissage statistique et neuronal, et à travers les types de données manipulées, ont rapproché les communautés associées et se traduisent notamment par :
- des nouvelles avancées dans le traitement conjoint de l’oral et de l’écrit s’appuyant sur de grands corpus de parole et de textes écrits ;
- des nouvelles approches et méthodes statistiques ou mixtes de la parole, de la langue et de la recherche d’informations, pour produire de nouvelles interfaces ;
- des spécificités des dialogues oraux mais aussi des conversations écrites de type courrier électronique, micro-blog (tweets), forum et chat.
Ces thèmes sont traités pendant ETAL à travers des cours magistraux donnés par des experts renommés du domaine, associés à une mise en pratique systématique selon des cas d’utilisation réalistes. Un soin particulier est donné à la contextualisation de ces cours dans une démarche de développement sociétal et éthique.
La formation consiste en 4,5 jours de cours magistraux et de travaux pratiques (50 % cours, 50 % TP) divisés en modules fondamentaux présentant les notions essentielles, les dernières avancées des méthodes statistiques et des modules thématiques dédiés aux nouvelles interfaces.
INTERVENANTS
La formation consiste en 4,5 jours de cours magistraux et de travaux pratiques (50% cours, 50% TP) divisés en modules fondamentaux présentant les notions essentielles, les dernières avancées des méthodes statistiques et des modules liés au thème de l’édition :
La première partie consacrée aux approches par apprentissage automatique présentera les architectures de réseaux de neurones pour (1) la modélisation acoustique pour la reconnaissance et la synthèse de la parole, et (2) les représentations textuelles vectorielles au niveau lexical (plongements de mots simples, non contextuels) et acoustique. Ce cours présente les approches fondamentales mais aussi les limites et les biais introduits par ces techniques pour le TAL. Le cours est accompagné de séances mettant en pratique les approches présentées sur des données de petite taille et la manipulation de modèles pré-entraînés plus larges.
La suite du cours précédent est consacrée aux architectures plus complexes visant des représentations au niveau de phrases ou d’éléments textuels plus importants (textes, dialogues) : réseaux de neurones récurrents, encodeurs/décodeurs à mécanisme d’attention, réseaux convolutifs et leurs utilité pour la classification de textes, l’étiquetage de séquences, ainsi que pour des approches de prédiction structurée : modèle séquence-à-séquence, encodage-décodage, et les applications. Ce cours est également accompagné de séances pratiques.
Un module optionnel permettra aux participants d’attaquer un problème concret en équipe :
Hackathon sur le développement d’agents conversationnels oraux, exploitant des données conversationnelles issues du projet ORFEO (session complémentaire).
Ce cours sera consacré à la présentation des enjeux éthiques des recherches, que ce soit dans les pratiques méthodologiques, la création de données, leur exploitation, l’utilisation des modèles et la portée sociale de leurs applications. Les bonnes pratiques incluent aussi une prise de conscience des enjeux et moyens de la reproductibilité des recherches en
Ce cours est consacré aux interactions entre TAL et sciences cognitives sur le développement du langage chez l’enfant. Il fait un tour d’horizon des concepts issus des sciences cognitives et présente les grands enjeux et problématiques liés à l’étude du développement du langage et de l’interaction conversationnelle chez l’enfant, s’appuyant sur les résultats et expériences à l’état de l’art, fondés sur le TAL. En particulier, ce cours explore une vision multimodale du développement du langage, et repose sur des activités pratiques exploitant des ressources de cette nature. Il discute en profondeur de l’idée d’informer la création des modèles de TAL par les résultats issus de sciences cognitives.
Ce cours présente les fondamentaux de la caractérisation et de la synthèse d’interactions multimodales. Il permet d’explorer les modèles pour les agents artificiels manipulant le langage dans un contexte multimodal, en particulier d’un point de vue de l’interaction humain-humain et humain-machine, à travers les dernières avancées méthodologiques dans le domaine. Le cours est complété par une séance pratique de mise en application sur le thème de la lutte contre les biais de genre.
Ce cours introductif présente les objets d’étude dans les domaines concernés, notamment les niveaux d’analyse de la parole et du langage, qui fournissent classiquement des informations pour les traitements applicatifs. Seront aussi abordées ici les méthodes classiques de traitement et prétraitement, les ressources existantes, les corpus oraux et textuels. Les problématiques d’évaluation dans différents contextes et applications seront également traitées.