Modélisation du bruit et apprentissage automatique pour les paysages de fitness protéiques: application à la conception d'anticorps multi-spécifiques // Noise modeling and machine learning for protein fitness landscapes: application to multi-specific anti
ABG-131535
ADUM-65497 |
Sujet de Thèse | |
29/04/2025 | Contrat doctoral |
Université Grenoble Alpes
Grenoble Cedex 9 - Auvergne-Rhône-Alpes - France
Modélisation du bruit et apprentissage automatique pour les paysages de fitness protéiques: application à la conception d'anticorps multi-spécifiques // Noise modeling and machine learning for protein fitness landscapes: application to multi-specific anti
- Biologie
Biologie computationnelle, Intelligence artificielle, Modélisation statistique
Computational Biology, Artificial Intelligence, Statistical modeling
Computational Biology, Artificial Intelligence, Statistical modeling
Description du sujet
La conception de protéines thérapeutiques nécessite de naviguer dans des paysages de fitness complexes où plusieurs propriétés physiques doivent être optimisées simultanément. Les récentes avancées technologiques en matière de criblage à haut débit et de séquençage profond ont généré d'énormes quantités de données reliant les variations génétiques aux résultats phénotypiques. Cependant, ces ensembles de données expérimentales sont caractérisés par des distributions de bruit non-poissoniennes à queue épaisse, qui impactent significativement l'entraînement des modèles et l'inférence de la relation séquence-fonction.
Ce projet de doctorat vise à développer de nouvelles approches d'apprentissage automatique pour la caractérisation et la modélisation robustes du bruit dans les données de séquençage profond issues d'expériences de sélection-amplification. En abordant les biais inhérents et les structures de bruit dans ces ensembles de données, nous créerons des cadres computationnels plus précis pour la modélisation du paysage de fitness des protéines.
Le projet s'appuiera sur des collaborations en cours avec Sorbonne Université et LSPCI Paris, en utilisant des données expérimentales provenant de la sélection d'anticorps multi-spécifiques comme domaine d'application principal. Cet ensemble de données réelles fournira un excellent banc d'essai pour développer et valider nos méthodes computationnelles.
Dans la première phase, le projet se concentrera sur la caractérisation des propriétés statistiques du bruit dans les données de séquençage profond et le développement de cadres mathématiques robustes pour modéliser ces distributions. Nous explorerons des distributions de bruit (comme la binomiale négative) qui peuvent modéliser de manière plus flexible le bruit de séquençage corrélé (par exemple, résultant des cycles d'amplification PCR). Notre objectif est de comprendre comment ce bruit impacte notre inférence des paramètres biophysiques caractérisant les protéines criblées, et de développer de meilleures techniques d'inférence plus robustes au bruit.
Dans une seconde phase, nous appliquerons ces modèles améliorés pour générer des variants de protéines optimisés, en nous concentrant particulièrement sur les anticorps avec des profils de multi-spécificité prescrits. Nous mettrons en œuvre des approches génératives qui naviguent efficacement dans le paysage de fitness pour proposer de nouvelles séquences aux propriétés moléculaires améliorées.
Cette recherche sera menée entre le groupe Gen&Chem (BGE/IRIG) au CEA-Grenoble et de l'IPhT au CEA-Saclay, combinant des expertises en physique statistique, biologie computationnelle et informatique.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
The design of therapeutic proteins requires navigating complex fitness landscapes where multiple physical properties must be simultaneously optimized. Recent technological advances in high-throughput screening and deep sequencing have generated vast amounts of data linking genetic variations to phenotypic outcomes. However, these experimental datasets are characterized by non-Poissonian noise distributions with fat tails, which significantly impact model training and sequence-function relationship inference.
This PhD project aims to develop novel machine learning approaches for robust characterization and modeling of noise in deep sequencing data from selection-amplification experiments. By addressing the inherent biases and noise structures in these datasets, we will create more accurate computational frameworks for protein fitness landscape modeling.
The project will leverage ongoing collaborations with Sorbonne Université and LSPCI Paris, utilizing experimental data from the selection of multi-specific antibodies as a primary application domain. This real-world dataset will provide an excellent testbed for developing and validating our computational methods.
In the first phase, the project will focus on characterizing the statistical properties of noise in deep sequencing data and developing robust mathematical frameworks to model these distributions. We will explore noise distributions (such as Negative Binomial) that can more flexibly model correlated sequencing noise (e.g., arising from PCR amplification rounds). Our aim is to understand how this noise impacts our inference of biophysical parameters characterizing the screened proteins, and to develop better inference techniques that are more robust to noise.
In a second phase we will apply these improved models to generate optimized protein variants, particularly focusing on antibodies with prescribed multi-specificity profiles. We will implement generative approaches that efficiently navigate the fitness landscape to propose novel sequences with enhanced molecular properties.
This research will be conducted between the Gen&Chem group (BGE/IRIG) at CEA-Grenoble and IPhT at CEA-Saclay, combining expertise in statistical physics, computational biology and computer science.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/2025
Ce projet de doctorat vise à développer de nouvelles approches d'apprentissage automatique pour la caractérisation et la modélisation robustes du bruit dans les données de séquençage profond issues d'expériences de sélection-amplification. En abordant les biais inhérents et les structures de bruit dans ces ensembles de données, nous créerons des cadres computationnels plus précis pour la modélisation du paysage de fitness des protéines.
Le projet s'appuiera sur des collaborations en cours avec Sorbonne Université et LSPCI Paris, en utilisant des données expérimentales provenant de la sélection d'anticorps multi-spécifiques comme domaine d'application principal. Cet ensemble de données réelles fournira un excellent banc d'essai pour développer et valider nos méthodes computationnelles.
Dans la première phase, le projet se concentrera sur la caractérisation des propriétés statistiques du bruit dans les données de séquençage profond et le développement de cadres mathématiques robustes pour modéliser ces distributions. Nous explorerons des distributions de bruit (comme la binomiale négative) qui peuvent modéliser de manière plus flexible le bruit de séquençage corrélé (par exemple, résultant des cycles d'amplification PCR). Notre objectif est de comprendre comment ce bruit impacte notre inférence des paramètres biophysiques caractérisant les protéines criblées, et de développer de meilleures techniques d'inférence plus robustes au bruit.
Dans une seconde phase, nous appliquerons ces modèles améliorés pour générer des variants de protéines optimisés, en nous concentrant particulièrement sur les anticorps avec des profils de multi-spécificité prescrits. Nous mettrons en œuvre des approches génératives qui naviguent efficacement dans le paysage de fitness pour proposer de nouvelles séquences aux propriétés moléculaires améliorées.
Cette recherche sera menée entre le groupe Gen&Chem (BGE/IRIG) au CEA-Grenoble et de l'IPhT au CEA-Saclay, combinant des expertises en physique statistique, biologie computationnelle et informatique.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
The design of therapeutic proteins requires navigating complex fitness landscapes where multiple physical properties must be simultaneously optimized. Recent technological advances in high-throughput screening and deep sequencing have generated vast amounts of data linking genetic variations to phenotypic outcomes. However, these experimental datasets are characterized by non-Poissonian noise distributions with fat tails, which significantly impact model training and sequence-function relationship inference.
This PhD project aims to develop novel machine learning approaches for robust characterization and modeling of noise in deep sequencing data from selection-amplification experiments. By addressing the inherent biases and noise structures in these datasets, we will create more accurate computational frameworks for protein fitness landscape modeling.
The project will leverage ongoing collaborations with Sorbonne Université and LSPCI Paris, utilizing experimental data from the selection of multi-specific antibodies as a primary application domain. This real-world dataset will provide an excellent testbed for developing and validating our computational methods.
In the first phase, the project will focus on characterizing the statistical properties of noise in deep sequencing data and developing robust mathematical frameworks to model these distributions. We will explore noise distributions (such as Negative Binomial) that can more flexibly model correlated sequencing noise (e.g., arising from PCR amplification rounds). Our aim is to understand how this noise impacts our inference of biophysical parameters characterizing the screened proteins, and to develop better inference techniques that are more robust to noise.
In a second phase we will apply these improved models to generate optimized protein variants, particularly focusing on antibodies with prescribed multi-specificity profiles. We will implement generative approaches that efficiently navigate the fitness landscape to propose novel sequences with enhanced molecular properties.
This research will be conducted between the Gen&Chem group (BGE/IRIG) at CEA-Grenoble and IPhT at CEA-Saclay, combining expertise in statistical physics, computational biology and computer science.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/2025
Nature du financement
Contrat doctoral
Précisions sur le financement
Concours pour un contrat doctoral
Présentation établissement et labo d'accueil
Université Grenoble Alpes
Etablissement délivrant le doctorat
Université Grenoble Alpes
Ecole doctorale
216 ISCE - Ingénierie pour la Santé la Cognition et l'Environnement
Profil du candidat
Profil du candidat: Le candidat idéal devrait avoir une solide formation en modélisation mathématique et en programmation. Un diplôme de Master 2 Recherche dans l'un de ces domaines (ou apparentés) est requis: physique, mathématiques, informatique ou biologie computationnelle.
Compétences essentielles:
• Solide base en physique statistique et apprentissage automatique
• Compétences avancées en programmation en Julia ou Python et expérience avec des frameworks d'apprentissage automatique (Flux, PyTorch, Jax ou TensorFlow)
• Connaissance de la théorie des probabilités et de la modélisation statistique
• Familiarité avec l'analyse de séquences biologiques, bioinformatique
• Niveau d'anglais B2 ou supérieur
Compétences regardées:
• Connaissances générales en biologie moléculaire, et en particulier sur la structure et la fonction des protéines
• Familiarité avec l'analyse de données de séquençage à haut débit
• Expérience préalable avec les modèles génératifs
• Connaissances de base en français
Qualités personnelles:
• Fortes capacités analytiques et de résolution de problèmes
• Intérêt pour la recherche interdisciplinaire, alliant théorie et applications biologiques
• Capacité à travailler efficacement dans des environnements collaboratifs
• Bonnes compétences en communication pour présenter des méthodes complexes à des publics divers
• Autonomie et initiative dans la recherche
Candidate Profile: The ideal candidate should have a strong background in mathematical modeling and programming. A Master's degree (M2R) in one of these fields (or related) is required: physics, mathematics, computer science, or computational biology. Essential Skills: • Solid foundation in statistical physics and machine learning • Strong programming skills in Julia or Python and experience with machine learning frameworks (any of Flux, PyTorch, Jax, or TensorFlow) • Knowledge of probability theory and statistical modeling • Familiarity with biological sequence analysis, bioinformatics • English proficiency (B2 or higher) Desirable Skills: • General knowledge in molecular biology, and in particular protein structure and function • Familiarity with high-throughput sequencing data analysis • Previous work with generative models • Basic knowledge of French Personal Qualities: • Strong analytical and problem-solving abilities • Interest in interdisciplinary research, spanning theory and biological applications • Ability to work effectively in collaborative environments • Good communication skills for presenting complex methods to diverse audiences • Independence and initiative in research
Candidate Profile: The ideal candidate should have a strong background in mathematical modeling and programming. A Master's degree (M2R) in one of these fields (or related) is required: physics, mathematics, computer science, or computational biology. Essential Skills: • Solid foundation in statistical physics and machine learning • Strong programming skills in Julia or Python and experience with machine learning frameworks (any of Flux, PyTorch, Jax, or TensorFlow) • Knowledge of probability theory and statistical modeling • Familiarity with biological sequence analysis, bioinformatics • English proficiency (B2 or higher) Desirable Skills: • General knowledge in molecular biology, and in particular protein structure and function • Familiarity with high-throughput sequencing data analysis • Previous work with generative models • Basic knowledge of French Personal Qualities: • Strong analytical and problem-solving abilities • Interest in interdisciplinary research, spanning theory and biological applications • Ability to work effectively in collaborative environments • Good communication skills for presenting complex methods to diverse audiences • Independence and initiative in research
23/05/2025
Postuler
Fermer
Vous avez déjà un compte ?
Nouvel utilisateur ?
Besoin d'informations sur l'ABG ?
Vous souhaitez recevoir nos infolettres ?
Découvrez nos adhérents
ADEME
CASDEN
Institut Sup'biotech de Paris
ONERA - The French Aerospace Lab
Tecknowmetrix
Nokia Bell Labs France
CESI
Groupe AFNOR - Association française de normalisation
SUEZ
Ifremer
Généthon
MabDesign
ANRT
ASNR - Autorité de sûreté nucléaire et de radioprotection - Siège
MabDesign
TotalEnergies
Aérocentre, Pôle d'excellence régional
Laboratoire National de Métrologie et d'Essais - LNE
PhDOOC
-
EmploiRef. 131050Villejuif , Ile-de-France , FranceSupBiotech
Directeur des Laboratoires d'Enseignements (H/F)
Expertises scientifiques :Biotechnologie - Biologie
Niveau d’expérience :Confirmé
-
Sujet de ThèseRef. 129914AUBIERE , Auvergne-Rhône-Alpes , FranceUniversité Clermont Auvergne
Synthèse enzymatique d'hydroxycétones valorisables // Enzymatic synthesis of valuable hydroxyketones
Expertises scientifiques :Chimie - Biochimie - Biotechnologie