Modélisation du bruit et apprentissage automatique pour les paysages de fitness protéiques: application à la conception d'anticorps multi-spécifiques // Noise modeling and machine learning for protein fitness landscapes: application to multi-specific anti
ABG-131535
ADUM-65497 |
Thesis topic | |
2025-04-29 | Public funding alone (i.e. government, region, European, international organization research grant) |
Université Grenoble Alpes
Grenoble Cedex 9 - Auvergne-Rhône-Alpes - France
Modélisation du bruit et apprentissage automatique pour les paysages de fitness protéiques: application à la conception d'anticorps multi-spécifiques // Noise modeling and machine learning for protein fitness landscapes: application to multi-specific anti
- Biology
Biologie computationnelle, Intelligence artificielle, Modélisation statistique
Computational Biology, Artificial Intelligence, Statistical modeling
Computational Biology, Artificial Intelligence, Statistical modeling
Topic description
La conception de protéines thérapeutiques nécessite de naviguer dans des paysages de fitness complexes où plusieurs propriétés physiques doivent être optimisées simultanément. Les récentes avancées technologiques en matière de criblage à haut débit et de séquençage profond ont généré d'énormes quantités de données reliant les variations génétiques aux résultats phénotypiques. Cependant, ces ensembles de données expérimentales sont caractérisés par des distributions de bruit non-poissoniennes à queue épaisse, qui impactent significativement l'entraînement des modèles et l'inférence de la relation séquence-fonction.
Ce projet de doctorat vise à développer de nouvelles approches d'apprentissage automatique pour la caractérisation et la modélisation robustes du bruit dans les données de séquençage profond issues d'expériences de sélection-amplification. En abordant les biais inhérents et les structures de bruit dans ces ensembles de données, nous créerons des cadres computationnels plus précis pour la modélisation du paysage de fitness des protéines.
Le projet s'appuiera sur des collaborations en cours avec Sorbonne Université et LSPCI Paris, en utilisant des données expérimentales provenant de la sélection d'anticorps multi-spécifiques comme domaine d'application principal. Cet ensemble de données réelles fournira un excellent banc d'essai pour développer et valider nos méthodes computationnelles.
Dans la première phase, le projet se concentrera sur la caractérisation des propriétés statistiques du bruit dans les données de séquençage profond et le développement de cadres mathématiques robustes pour modéliser ces distributions. Nous explorerons des distributions de bruit (comme la binomiale négative) qui peuvent modéliser de manière plus flexible le bruit de séquençage corrélé (par exemple, résultant des cycles d'amplification PCR). Notre objectif est de comprendre comment ce bruit impacte notre inférence des paramètres biophysiques caractérisant les protéines criblées, et de développer de meilleures techniques d'inférence plus robustes au bruit.
Dans une seconde phase, nous appliquerons ces modèles améliorés pour générer des variants de protéines optimisés, en nous concentrant particulièrement sur les anticorps avec des profils de multi-spécificité prescrits. Nous mettrons en œuvre des approches génératives qui naviguent efficacement dans le paysage de fitness pour proposer de nouvelles séquences aux propriétés moléculaires améliorées.
Cette recherche sera menée entre le groupe Gen&Chem (BGE/IRIG) au CEA-Grenoble et de l'IPhT au CEA-Saclay, combinant des expertises en physique statistique, biologie computationnelle et informatique.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
The design of therapeutic proteins requires navigating complex fitness landscapes where multiple physical properties must be simultaneously optimized. Recent technological advances in high-throughput screening and deep sequencing have generated vast amounts of data linking genetic variations to phenotypic outcomes. However, these experimental datasets are characterized by non-Poissonian noise distributions with fat tails, which significantly impact model training and sequence-function relationship inference.
This PhD project aims to develop novel machine learning approaches for robust characterization and modeling of noise in deep sequencing data from selection-amplification experiments. By addressing the inherent biases and noise structures in these datasets, we will create more accurate computational frameworks for protein fitness landscape modeling.
The project will leverage ongoing collaborations with Sorbonne Université and LSPCI Paris, utilizing experimental data from the selection of multi-specific antibodies as a primary application domain. This real-world dataset will provide an excellent testbed for developing and validating our computational methods.
In the first phase, the project will focus on characterizing the statistical properties of noise in deep sequencing data and developing robust mathematical frameworks to model these distributions. We will explore noise distributions (such as Negative Binomial) that can more flexibly model correlated sequencing noise (e.g., arising from PCR amplification rounds). Our aim is to understand how this noise impacts our inference of biophysical parameters characterizing the screened proteins, and to develop better inference techniques that are more robust to noise.
In a second phase we will apply these improved models to generate optimized protein variants, particularly focusing on antibodies with prescribed multi-specificity profiles. We will implement generative approaches that efficiently navigate the fitness landscape to propose novel sequences with enhanced molecular properties.
This research will be conducted between the Gen&Chem group (BGE/IRIG) at CEA-Grenoble and IPhT at CEA-Saclay, combining expertise in statistical physics, computational biology and computer science.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/2025
Ce projet de doctorat vise à développer de nouvelles approches d'apprentissage automatique pour la caractérisation et la modélisation robustes du bruit dans les données de séquençage profond issues d'expériences de sélection-amplification. En abordant les biais inhérents et les structures de bruit dans ces ensembles de données, nous créerons des cadres computationnels plus précis pour la modélisation du paysage de fitness des protéines.
Le projet s'appuiera sur des collaborations en cours avec Sorbonne Université et LSPCI Paris, en utilisant des données expérimentales provenant de la sélection d'anticorps multi-spécifiques comme domaine d'application principal. Cet ensemble de données réelles fournira un excellent banc d'essai pour développer et valider nos méthodes computationnelles.
Dans la première phase, le projet se concentrera sur la caractérisation des propriétés statistiques du bruit dans les données de séquençage profond et le développement de cadres mathématiques robustes pour modéliser ces distributions. Nous explorerons des distributions de bruit (comme la binomiale négative) qui peuvent modéliser de manière plus flexible le bruit de séquençage corrélé (par exemple, résultant des cycles d'amplification PCR). Notre objectif est de comprendre comment ce bruit impacte notre inférence des paramètres biophysiques caractérisant les protéines criblées, et de développer de meilleures techniques d'inférence plus robustes au bruit.
Dans une seconde phase, nous appliquerons ces modèles améliorés pour générer des variants de protéines optimisés, en nous concentrant particulièrement sur les anticorps avec des profils de multi-spécificité prescrits. Nous mettrons en œuvre des approches génératives qui naviguent efficacement dans le paysage de fitness pour proposer de nouvelles séquences aux propriétés moléculaires améliorées.
Cette recherche sera menée entre le groupe Gen&Chem (BGE/IRIG) au CEA-Grenoble et de l'IPhT au CEA-Saclay, combinant des expertises en physique statistique, biologie computationnelle et informatique.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
The design of therapeutic proteins requires navigating complex fitness landscapes where multiple physical properties must be simultaneously optimized. Recent technological advances in high-throughput screening and deep sequencing have generated vast amounts of data linking genetic variations to phenotypic outcomes. However, these experimental datasets are characterized by non-Poissonian noise distributions with fat tails, which significantly impact model training and sequence-function relationship inference.
This PhD project aims to develop novel machine learning approaches for robust characterization and modeling of noise in deep sequencing data from selection-amplification experiments. By addressing the inherent biases and noise structures in these datasets, we will create more accurate computational frameworks for protein fitness landscape modeling.
The project will leverage ongoing collaborations with Sorbonne Université and LSPCI Paris, utilizing experimental data from the selection of multi-specific antibodies as a primary application domain. This real-world dataset will provide an excellent testbed for developing and validating our computational methods.
In the first phase, the project will focus on characterizing the statistical properties of noise in deep sequencing data and developing robust mathematical frameworks to model these distributions. We will explore noise distributions (such as Negative Binomial) that can more flexibly model correlated sequencing noise (e.g., arising from PCR amplification rounds). Our aim is to understand how this noise impacts our inference of biophysical parameters characterizing the screened proteins, and to develop better inference techniques that are more robust to noise.
In a second phase we will apply these improved models to generate optimized protein variants, particularly focusing on antibodies with prescribed multi-specificity profiles. We will implement generative approaches that efficiently navigate the fitness landscape to propose novel sequences with enhanced molecular properties.
This research will be conducted between the Gen&Chem group (BGE/IRIG) at CEA-Grenoble and IPhT at CEA-Saclay, combining expertise in statistical physics, computational biology and computer science.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/2025
Funding category
Public funding alone (i.e. government, region, European, international organization research grant)
Funding further details
Concours pour un contrat doctoral
Presentation of host institution and host laboratory
Université Grenoble Alpes
Institution awarding doctoral degree
Université Grenoble Alpes
Graduate school
216 ISCE - Ingénierie pour la Santé la Cognition et l'Environnement
Candidate's profile
Profil du candidat: Le candidat idéal devrait avoir une solide formation en modélisation mathématique et en programmation. Un diplôme de Master 2 Recherche dans l'un de ces domaines (ou apparentés) est requis: physique, mathématiques, informatique ou biologie computationnelle.
Compétences essentielles:
• Solide base en physique statistique et apprentissage automatique
• Compétences avancées en programmation en Julia ou Python et expérience avec des frameworks d'apprentissage automatique (Flux, PyTorch, Jax ou TensorFlow)
• Connaissance de la théorie des probabilités et de la modélisation statistique
• Familiarité avec l'analyse de séquences biologiques, bioinformatique
• Niveau d'anglais B2 ou supérieur
Compétences regardées:
• Connaissances générales en biologie moléculaire, et en particulier sur la structure et la fonction des protéines
• Familiarité avec l'analyse de données de séquençage à haut débit
• Expérience préalable avec les modèles génératifs
• Connaissances de base en français
Qualités personnelles:
• Fortes capacités analytiques et de résolution de problèmes
• Intérêt pour la recherche interdisciplinaire, alliant théorie et applications biologiques
• Capacité à travailler efficacement dans des environnements collaboratifs
• Bonnes compétences en communication pour présenter des méthodes complexes à des publics divers
• Autonomie et initiative dans la recherche
Candidate Profile: The ideal candidate should have a strong background in mathematical modeling and programming. A Master's degree (M2R) in one of these fields (or related) is required: physics, mathematics, computer science, or computational biology. Essential Skills: • Solid foundation in statistical physics and machine learning • Strong programming skills in Julia or Python and experience with machine learning frameworks (any of Flux, PyTorch, Jax, or TensorFlow) • Knowledge of probability theory and statistical modeling • Familiarity with biological sequence analysis, bioinformatics • English proficiency (B2 or higher) Desirable Skills: • General knowledge in molecular biology, and in particular protein structure and function • Familiarity with high-throughput sequencing data analysis • Previous work with generative models • Basic knowledge of French Personal Qualities: • Strong analytical and problem-solving abilities • Interest in interdisciplinary research, spanning theory and biological applications • Ability to work effectively in collaborative environments • Good communication skills for presenting complex methods to diverse audiences • Independence and initiative in research
Candidate Profile: The ideal candidate should have a strong background in mathematical modeling and programming. A Master's degree (M2R) in one of these fields (or related) is required: physics, mathematics, computer science, or computational biology. Essential Skills: • Solid foundation in statistical physics and machine learning • Strong programming skills in Julia or Python and experience with machine learning frameworks (any of Flux, PyTorch, Jax, or TensorFlow) • Knowledge of probability theory and statistical modeling • Familiarity with biological sequence analysis, bioinformatics • English proficiency (B2 or higher) Desirable Skills: • General knowledge in molecular biology, and in particular protein structure and function • Familiarity with high-throughput sequencing data analysis • Previous work with generative models • Basic knowledge of French Personal Qualities: • Strong analytical and problem-solving abilities • Interest in interdisciplinary research, spanning theory and biological applications • Ability to work effectively in collaborative environments • Good communication skills for presenting complex methods to diverse audiences • Independence and initiative in research
2025-05-23
Apply
Close
Vous avez déjà un compte ?
Nouvel utilisateur ?
More information about ABG?
Get ABG’s monthly newsletters including news, job offers, grants & fellowships and a selection of relevant events…
Discover our members
SUEZ
PhDOOC
MabDesign
Nokia Bell Labs France
ADEME
Aérocentre, Pôle d'excellence régional
ONERA - The French Aerospace Lab
CASDEN
MabDesign
ANRT
Ifremer
ASNR - Autorité de sûreté nucléaire et de radioprotection - Siège
Groupe AFNOR - Association française de normalisation
TotalEnergies
Généthon
Laboratoire National de Métrologie et d'Essais - LNE
CESI
Tecknowmetrix
Institut Sup'biotech de Paris
-
JobRef. 131050, Ile-de-France , FranceSupBiotech
Directeur des Laboratoires d'Enseignements (H/F)
Scientific expertises :Biotechnology - Biology
Experience level :Confirmed
-
Thesis topicRef. 129914AUBIERE , Auvergne-Rhône-Alpes , FranceUniversité Clermont Auvergne
Synthèse enzymatique d'hydroxycétones valorisables // Enzymatic synthesis of valuable hydroxyketones
Scientific expertises :Chemistry - Biochemistry - Biotechnology