The videos can be watched by clicking on « Videos of the day », at the end of each day, in the detailed programme
HYBRID WORKSHOP

New directions of AI in structural biology
Nouvelles directions de l’IA pour biologie structurale

2 – 6 August 2021

Organizing Committee
Comité d’organisation

Krzysztof Fidelis (University of California, Davis)
Serge Grudinin (CNRS, INRIA Grenoble)
Elodie Laine (Sorbonne Université)
John Moult (University of Maryland)

Description
Results from the most recent CASP (Critical Assessment of Structure Prediction) experiment show dramatic improvement in computing the threedimensional structure of proteins from amino acid sequence, with many models rivaling experimental structures in accuracy. These results suggest that deep learning approaches will also be effective for a range of related structural biology applications, including macromolecular assemblies, ligand docking, alternative conformations, disordered states, interpretation of genetic variants, and protein design. This workshop will bring together researchers from machine learning and the computational structural biology communities to explore this new landscape. We invite contributions addressing relevant questions of methodology, applications, and synergies with experimental structural biology.

Classical machine-learning (ML) conferences, such as ICML and NeurIPS, have separate workshops dedicated to natural language processing, geometric learning, and computer vision. Generally, they present methods specifically developed for recognized ML datasets. Unfortunately, protein structure prediction tasks, and structural bioinformatics in general, have not been widely recognized by the ML community just yet. This workshop will allow discussing problems, formulations, and formats, which can be more accessible by the ML community.

On the side of CASP meetings, they do not provide a sufficient platform for presenting and discussing method development in very detail. Indeed, they are mostly dedicated to the assessment of the CASP challenge results and allow little room for technical talks. Also, this conference has never attracted the attention of the general ML community. This workshop will be our first attempt to federate the ML community working with the data and applications directly applicable or adjacent to structural bioinformatics.

The goal of this workshop is to bring together researchers from computational structural biology and several machine learning communities, including natural language processing, computer vision, and geometric learning, to discuss the current state of the protein structure prediction field and future challenges. Despite apparent dramatic progress, many challenges remain. They include the understanding of multiple functional states, protein flexibility and transitions, associations with other proteins, and protein design for a specific function. ML holds great promise in addressing these challenges, and we welcome contributions pushing the field forward in these directions.

On the international level, the expected impact of this event is twofold. First, the workshop will allow researchers from the two communities to discuss the recent progress in protein structure prediction, specificity and amount of structural biology data, and the applicability of the recent ML algorithms and architectures to these data. Second, the workshop will trigger the exchange of ideas toward the future developments in data science, and specifically in geometric learning and natural language processing, for the very challenging and unsolved problems in computational structural biology and bioinformatics. On the national scale, this will be the first time CASP (and protein structure prediction)-related activities will be discussed in France.

​Les résultats de la dernière édition de CASP (Critical Assessment of Structure Prediction) montrent une amélioration spectaculaire du calcul de la structure tridimensionnelle des protéines à partir de la séquence d’acides aminés, de nombreux modèles rivalisant de précision avec les structures expérimentales. Ces résultats suggèrent que les approches d’apprentissage profond seront également efficaces pour une gamme d’applications connexes de biologie structurale, y compris les assemblages macromoléculaires, l’amarrage des ligands, les conformations alternatives, les états désordonnés, l’interprétation des variants génétiques et la conception des protéines. Cet atelier réunira des chercheurs de l’apprentissage automatique et des communautés de biologie structurale computationnelle pour explorer ce nouveau paysage. Nous invitons les contributions abordant des questions pertinentes de méthodologie, d’applications et de synergies avec la biologie structurale expérimentale.

Les conférences d’apprentissage automatique (ML) classiques, telles que ICML et NeurIPS, ont des ateliers séparés dédiés au traitement du langage naturel, à l’apprentissage géométrique et à la vision par ordinateur. En général, ils présentent des méthodes spécifiquement développées pour des ensembles de données ML reconnus. Malheureusement, les tâches de prédiction de la structure des protéines et la bioinformatique structurale en général n’ont pas encore été largement reconnues par la communauté ML. Cet atelier permettra de discuter des problèmes, des formulations et des formats, qui peuvent être plus accessibles par la communauté ML. Pour ce qui est des réunions de CASP, elles ne fournissent pas une plate-forme suffisante pour présenter et discuter du développement méthodologique de manière très détaillée. En effet, elles sont principalement dédiées à l’évaluation des résultats du défi CASP et laissent peu de place aux discussions techniques. De plus, cette conférence n’a jamais attiré l’attention de la communauté du ML en général. Cet atelier sera notre première tentative de fédérer la communauté ML travaillant avec les données et applications directement applicables ou adjacentes à la bioinformatique structurale.

L’objectif de cet atelier est de rassembler des chercheurs de la biologie structurale computationnelle et de plusieurs communautés d’apprentissage automatique, y compris le traitement du langage naturel, la vision par ordinateur et l’apprentissage géométrique, pour discuter de l’état actuel du domaine de la prédiction de la structure des protéines et des défis futurs. Malgré des progrès spectaculaires apparents, de nombreux défis demeurent. Ils comprennent la compréhension de plusieurs états fonctionnels, la flexibilité et les transitions des protéines, les associations avec d’autres protéines et la conception de protéines pour une fonction spécifique. Le ML est très prometteur pour relever ces défis, et nous nous félicitons des contributions qui font avancer le domaine dans ces directions.