Apprentissage profond génératif pour les matériaux conçus à l'échelle atomique : intégration synergique des simulations de dynamique moléculaire, des expériences et de l'augmentation de données. // Generative Deep Learning for Atomistically Engineered Mat
ABG-130514
ADUM-64523 |
Thesis topic | |
2025-04-04 |
Université de Technologie de Compiègne
Compiègne cedex - France
Apprentissage profond génératif pour les matériaux conçus à l'échelle atomique : intégration synergique des simulations de dynamique moléculaire, des expériences et de l'augmentation de données. // Generative Deep Learning for Atomistically Engineered Mat
- Mathematics
Deep Learning,, Artificial Intelligence, Molecular Dynamics, Nanostructured Materials
Deep Learning, Artificial Intelligence, Molecular Dynamics, Nanostructured Materials
Deep Learning, Artificial Intelligence, Molecular Dynamics, Nanostructured Materials
Topic description
Le deep learning, une branche de l'intelligence artificielle, permet d'extraire des motifs à partir de données et de formuler des prédictions sur la base d'exemples d'entraînement. Malgré les avancées significatives dans ce domaine, la performance des modèles repose fortement sur la disponibilité de jeux de données à la fois volumineux et représentatifs. En l'absence de telles données, les modèles peinent à généraliser correctement. Pour pallier cette difficulté, les techniques d'augmentation de données sont utilisées afin d'améliorer la robustesse et la précision des modèles, en particulier dans les cas de jeux de données limités ou peu représentatifs.
Les méthodes traditionnelles d'augmentation consistent à appliquer des transformations simples sur les données existantes afin d'en accroître la variabilité. À l'inverse, les approches fondées sur le deep learning recourent à des modèles génératifs pour produire de nouveaux échantillons synthétiques. Parmi ces approches, les réseaux antagonistes génératifs (GANs) et les autoencodeurs sont particulièrement répandus. Les GANs reposent sur un processus compétitif entre deux réseaux de neurones : un générateur, chargé de produire des données synthétiques réalistes, et un discriminateur, chargé de distinguer les données réelles des données générées. Cette dynamique permet de générer des données synthétiques de haute qualité. Quant aux autoencodeurs, ils compressent les données d'entrée dans un espace latent de dimension réduite, puis les reconstruisent. En manipulant ces représentations latentes, il est possible de générer de nouveaux échantillons, ce qui contribue à diversifier les jeux de données et à améliorer l'apprentissage des modèles.
L'objectif principal est de faire progresser le développement de matériaux nanostructurés aux propriétés ciblées grâce à des approches innovantes. Cette thèse propose une démarche intégrée, fondée sur les données, visant à accélérer le développement de matériaux avancés. En utilisant des techniques d'augmentation de données basées sur l'apprentissage automatique — en particulier les GANs, les autoencodeurs variationnels (VAEs) et des architectures hybrides — nous proposons de dépasser la contrainte liée à la rareté des données dans le domaine des matériaux. Cette stratégie vient en complément des approches expérimentales et de modélisation atomistique existantes, en permettant des prédictions robustes du comportement des matériaux à différentes échelles. Elle permet également de réduire les coûts et le temps associés aux processus itératifs d'expérimentation et de simulation. À l'avenir, une validation plus approfondie de la pertinence physique des données synthétiques, par le biais d'expériences et de simulations atomistiques, sera essentielle.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Research on nanostructured materials underscores the imperative to predict and comprehend their macroscopic properties for enhanced product design and performance optimization. Predicting behavior prior to experimental development mitigates the cost of new materials development. Atomistic simulation, owing to nanostructured aspects, represents the most prevalent methodology. Although providing valuable insights, the substantial computational cost constitutes a significant limitation. Consequently, while atomistic simulations yield valuable data, they are confined to specific cases and may not be readily applicable to other scenarios. Deep learning, a subset of artificial intelligence, extracts patterns from data and makes predictions based on training inputs. While significant advancements have been made in deep learning techniques, the availability of large and representative training datasets remains crucial for model performance. Models trained on limited or non-representative datasets tend to generalize poorly. To address this, data augmentation techniques enhance model resilience and accuracy, particularly with small or unrepresentative datasets. Traditional methods involve simple transformations of existing samples to expand dataset variability. In contrast, deep learning-based augmentation employs generative models to synthesize new data points. Among these, Generative Adversarial Networks (GANs) and autoencoders are widely used. GANs function through a competitive process involving two neural networks: a generator that produces realistic synthetic data and a discriminator that distinguishes between authentic and generated samples. This adversarial training enables the generation of high-fidelity synthetic data. Autoencoders compress input data into a lower-dimensional latent space and then reconstruct it. By manipulating latent representations, autoencoders can generate novel data samples, contributing to dataset diversity and improving model training outcomes.
The primary objective is to advance the development of nanostructured materials with tailored properties through novel approaches. This thesis proposes an integrated, data-driven approach to expedite the development of advanced nanostructured materials. Using machine learning-driven data augmentation—specifically GANs, VAEs, and hybrid architectures—we address the constraints of limited datasets in materials science. This strategy complements existing experimental and atomistic modeling efforts, allowing robust predictions of material behavior across scales. It reduces time and cost associated with iterative experimentation and simulation. Moving forward, deeper validation of the synthetic data's physical relevance—via experiments and atomistic simulations—will be crucial.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/2025
Les méthodes traditionnelles d'augmentation consistent à appliquer des transformations simples sur les données existantes afin d'en accroître la variabilité. À l'inverse, les approches fondées sur le deep learning recourent à des modèles génératifs pour produire de nouveaux échantillons synthétiques. Parmi ces approches, les réseaux antagonistes génératifs (GANs) et les autoencodeurs sont particulièrement répandus. Les GANs reposent sur un processus compétitif entre deux réseaux de neurones : un générateur, chargé de produire des données synthétiques réalistes, et un discriminateur, chargé de distinguer les données réelles des données générées. Cette dynamique permet de générer des données synthétiques de haute qualité. Quant aux autoencodeurs, ils compressent les données d'entrée dans un espace latent de dimension réduite, puis les reconstruisent. En manipulant ces représentations latentes, il est possible de générer de nouveaux échantillons, ce qui contribue à diversifier les jeux de données et à améliorer l'apprentissage des modèles.
L'objectif principal est de faire progresser le développement de matériaux nanostructurés aux propriétés ciblées grâce à des approches innovantes. Cette thèse propose une démarche intégrée, fondée sur les données, visant à accélérer le développement de matériaux avancés. En utilisant des techniques d'augmentation de données basées sur l'apprentissage automatique — en particulier les GANs, les autoencodeurs variationnels (VAEs) et des architectures hybrides — nous proposons de dépasser la contrainte liée à la rareté des données dans le domaine des matériaux. Cette stratégie vient en complément des approches expérimentales et de modélisation atomistique existantes, en permettant des prédictions robustes du comportement des matériaux à différentes échelles. Elle permet également de réduire les coûts et le temps associés aux processus itératifs d'expérimentation et de simulation. À l'avenir, une validation plus approfondie de la pertinence physique des données synthétiques, par le biais d'expériences et de simulations atomistiques, sera essentielle.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Research on nanostructured materials underscores the imperative to predict and comprehend their macroscopic properties for enhanced product design and performance optimization. Predicting behavior prior to experimental development mitigates the cost of new materials development. Atomistic simulation, owing to nanostructured aspects, represents the most prevalent methodology. Although providing valuable insights, the substantial computational cost constitutes a significant limitation. Consequently, while atomistic simulations yield valuable data, they are confined to specific cases and may not be readily applicable to other scenarios. Deep learning, a subset of artificial intelligence, extracts patterns from data and makes predictions based on training inputs. While significant advancements have been made in deep learning techniques, the availability of large and representative training datasets remains crucial for model performance. Models trained on limited or non-representative datasets tend to generalize poorly. To address this, data augmentation techniques enhance model resilience and accuracy, particularly with small or unrepresentative datasets. Traditional methods involve simple transformations of existing samples to expand dataset variability. In contrast, deep learning-based augmentation employs generative models to synthesize new data points. Among these, Generative Adversarial Networks (GANs) and autoencoders are widely used. GANs function through a competitive process involving two neural networks: a generator that produces realistic synthetic data and a discriminator that distinguishes between authentic and generated samples. This adversarial training enables the generation of high-fidelity synthetic data. Autoencoders compress input data into a lower-dimensional latent space and then reconstruct it. By manipulating latent representations, autoencoders can generate novel data samples, contributing to dataset diversity and improving model training outcomes.
The primary objective is to advance the development of nanostructured materials with tailored properties through novel approaches. This thesis proposes an integrated, data-driven approach to expedite the development of advanced nanostructured materials. Using machine learning-driven data augmentation—specifically GANs, VAEs, and hybrid architectures—we address the constraints of limited datasets in materials science. This strategy complements existing experimental and atomistic modeling efforts, allowing robust predictions of material behavior across scales. It reduces time and cost associated with iterative experimentation and simulation. Moving forward, deeper validation of the synthetic data's physical relevance—via experiments and atomistic simulations—will be crucial.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/2025
Funding category
Funding further details
Financement d'un établissement public Français
Presentation of host institution and host laboratory
Université de Technologie de Compiègne
Institution awarding doctoral degree
Université de Technologie de Compiègne
Graduate school
71 Sciences pour l'ingénieur
Candidate's profile
Cette thèse s'adresse aux étudiants disposant de solides connaissances en science des matériaux, en chimie computationnelle, ou en mathématiques appliquées et en apprentissage automatique, et qui souhaitent élargir leur champ de spécialisation. La sélection des candidats se fera avant tout sur la base de leur motivation à travailler sur une thématique multidisciplinaire au sein d'une équipe pluridisciplinaire.
This thesis suits students with strong backgrounds in materials science/computational chemistry or applied math and machine learning, willing to venture outside their narrow specialization. Student selection will be based first and foremost on their motivation to work on a multidisciplinary topic in a pluridisciplinary team.
This thesis suits students with strong backgrounds in materials science/computational chemistry or applied math and machine learning, willing to venture outside their narrow specialization. Student selection will be based first and foremost on their motivation to work on a multidisciplinary topic in a pluridisciplinary team.
2025-06-30
Apply
Close
Vous avez déjà un compte ?
Nouvel utilisateur ?
More information about ABG?
Get ABG’s monthly newsletters including news, job offers, grants & fellowships and a selection of relevant events…
Discover our members
Laboratoire National de Métrologie et d'Essais - LNE
CESI
ONERA - The French Aerospace Lab
Nokia Bell Labs France
Institut Sup'biotech de Paris
Ifremer
MabDesign
MabDesign
Aérocentre, Pôle d'excellence régional
Généthon
Groupe AFNOR - Association française de normalisation
CASDEN
PhDOOC
Tecknowmetrix
ANRT
ADEME
SUEZ
TotalEnergies
ASNR - Autorité de sûreté nucléaire et de radioprotection - Siège