Où docteurs et entreprises se rencontrent
Menu
Connexion

Modélisation du bruit et apprentissage automatique pour les paysages de fitness protéiques: application à la conception d'anticorps multi-spécifiques // Noise modeling and machine learning for protein fitness landscapes: application to multi-specific anti

ABG-131535
ADUM-65497
Sujet de Thèse
29/04/2025 Contrat doctoral
Université Grenoble Alpes
Grenoble Cedex 9 - Auvergne-Rhône-Alpes - France
Modélisation du bruit et apprentissage automatique pour les paysages de fitness protéiques: application à la conception d'anticorps multi-spécifiques // Noise modeling and machine learning for protein fitness landscapes: application to multi-specific anti
  • Biologie
Biologie computationnelle, Intelligence artificielle, Modélisation statistique
Computational Biology, Artificial Intelligence, Statistical modeling

Description du sujet

La conception de protéines thérapeutiques nécessite de naviguer dans des paysages de fitness complexes où plusieurs propriétés physiques doivent être optimisées simultanément. Les récentes avancées technologiques en matière de criblage à haut débit et de séquençage profond ont généré d'énormes quantités de données reliant les variations génétiques aux résultats phénotypiques. Cependant, ces ensembles de données expérimentales sont caractérisés par des distributions de bruit non-poissoniennes à queue épaisse, qui impactent significativement l'entraînement des modèles et l'inférence de la relation séquence-fonction.
Ce projet de doctorat vise à développer de nouvelles approches d'apprentissage automatique pour la caractérisation et la modélisation robustes du bruit dans les données de séquençage profond issues d'expériences de sélection-amplification. En abordant les biais inhérents et les structures de bruit dans ces ensembles de données, nous créerons des cadres computationnels plus précis pour la modélisation du paysage de fitness des protéines.
Le projet s'appuiera sur des collaborations en cours avec Sorbonne Université et LSPCI Paris, en utilisant des données expérimentales provenant de la sélection d'anticorps multi-spécifiques comme domaine d'application principal. Cet ensemble de données réelles fournira un excellent banc d'essai pour développer et valider nos méthodes computationnelles.
Dans la première phase, le projet se concentrera sur la caractérisation des propriétés statistiques du bruit dans les données de séquençage profond et le développement de cadres mathématiques robustes pour modéliser ces distributions. Nous explorerons des distributions de bruit (comme la binomiale négative) qui peuvent modéliser de manière plus flexible le bruit de séquençage corrélé (par exemple, résultant des cycles d'amplification PCR). Notre objectif est de comprendre comment ce bruit impacte notre inférence des paramètres biophysiques caractérisant les protéines criblées, et de développer de meilleures techniques d'inférence plus robustes au bruit.
Dans une seconde phase, nous appliquerons ces modèles améliorés pour générer des variants de protéines optimisés, en nous concentrant particulièrement sur les anticorps avec des profils de multi-spécificité prescrits. Nous mettrons en œuvre des approches génératives qui naviguent efficacement dans le paysage de fitness pour proposer de nouvelles séquences aux propriétés moléculaires améliorées.
Cette recherche sera menée entre le groupe Gen&Chem (BGE/IRIG) au CEA-Grenoble et de l'IPhT au CEA-Saclay, combinant des expertises en physique statistique, biologie computationnelle et informatique.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

The design of therapeutic proteins requires navigating complex fitness landscapes where multiple physical properties must be simultaneously optimized. Recent technological advances in high-throughput screening and deep sequencing have generated vast amounts of data linking genetic variations to phenotypic outcomes. However, these experimental datasets are characterized by non-Poissonian noise distributions with fat tails, which significantly impact model training and sequence-function relationship inference.
This PhD project aims to develop novel machine learning approaches for robust characterization and modeling of noise in deep sequencing data from selection-amplification experiments. By addressing the inherent biases and noise structures in these datasets, we will create more accurate computational frameworks for protein fitness landscape modeling.
The project will leverage ongoing collaborations with Sorbonne Université and LSPCI Paris, utilizing experimental data from the selection of multi-specific antibodies as a primary application domain. This real-world dataset will provide an excellent testbed for developing and validating our computational methods.
In the first phase, the project will focus on characterizing the statistical properties of noise in deep sequencing data and developing robust mathematical frameworks to model these distributions. We will explore noise distributions (such as Negative Binomial) that can more flexibly model correlated sequencing noise (e.g., arising from PCR amplification rounds). Our aim is to understand how this noise impacts our inference of biophysical parameters characterizing the screened proteins, and to develop better inference techniques that are more robust to noise.
In a second phase we will apply these improved models to generate optimized protein variants, particularly focusing on antibodies with prescribed multi-specificity profiles. We will implement generative approaches that efficiently navigate the fitness landscape to propose novel sequences with enhanced molecular properties.
This research will be conducted between the Gen&Chem group (BGE/IRIG) at CEA-Grenoble and IPhT at CEA-Saclay, combining expertise in statistical physics, computational biology and computer science.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Début de la thèse : 01/10/2025

Nature du financement

Contrat doctoral

Précisions sur le financement

Concours pour un contrat doctoral

Présentation établissement et labo d'accueil

Université Grenoble Alpes

Etablissement délivrant le doctorat

Université Grenoble Alpes

Ecole doctorale

216 ISCE - Ingénierie pour la Santé la Cognition et l'Environnement

Profil du candidat

Profil du candidat: Le candidat idéal devrait avoir une solide formation en modélisation mathématique et en programmation. Un diplôme de Master 2 Recherche dans l'un de ces domaines (ou apparentés) est requis: physique, mathématiques, informatique ou biologie computationnelle. Compétences essentielles: • Solide base en physique statistique et apprentissage automatique • Compétences avancées en programmation en Julia ou Python et expérience avec des frameworks d'apprentissage automatique (Flux, PyTorch, Jax ou TensorFlow) • Connaissance de la théorie des probabilités et de la modélisation statistique • Familiarité avec l'analyse de séquences biologiques, bioinformatique • Niveau d'anglais B2 ou supérieur Compétences regardées: • Connaissances générales en biologie moléculaire, et en particulier sur la structure et la fonction des protéines • Familiarité avec l'analyse de données de séquençage à haut débit • Expérience préalable avec les modèles génératifs • Connaissances de base en français Qualités personnelles: • Fortes capacités analytiques et de résolution de problèmes • Intérêt pour la recherche interdisciplinaire, alliant théorie et applications biologiques • Capacité à travailler efficacement dans des environnements collaboratifs • Bonnes compétences en communication pour présenter des méthodes complexes à des publics divers • Autonomie et initiative dans la recherche
Candidate Profile: The ideal candidate should have a strong background in mathematical modeling and programming. A Master's degree (M2R) in one of these fields (or related) is required: physics, mathematics, computer science, or computational biology. Essential Skills: • Solid foundation in statistical physics and machine learning • Strong programming skills in Julia or Python and experience with machine learning frameworks (any of Flux, PyTorch, Jax, or TensorFlow) • Knowledge of probability theory and statistical modeling • Familiarity with biological sequence analysis, bioinformatics • English proficiency (B2 or higher) Desirable Skills: • General knowledge in molecular biology, and in particular protein structure and function • Familiarity with high-throughput sequencing data analysis • Previous work with generative models • Basic knowledge of French Personal Qualities: • Strong analytical and problem-solving abilities • Interest in interdisciplinary research, spanning theory and biological applications • Ability to work effectively in collaborative environments • Good communication skills for presenting complex methods to diverse audiences • Independence and initiative in research
23/05/2025
Partager via
Postuler
Fermer

Vous avez déjà un compte ?

Nouvel utilisateur ?