Machine learning et inférence bayésienne pour l'étude de la réionisation // Machine learning-enabled inference to understand the Epoch of Reionization with observations of the 21cm signal
ABG-127016
ADUM-59487 |
Sujet de Thèse | |
20/11/2024 |
Université Paris-Saclay GS Physique
Orsay cedex - France
Machine learning et inférence bayésienne pour l'étude de la réionisation // Machine learning-enabled inference to understand the Epoch of Reionization with observations of the 21cm signal
- Terre, univers, espace
Machine learning, Cosmology, Inférence
Machine learning, Cosmology, Inference
Machine learning, Cosmology, Inference
Description du sujet
L'époque de la réionisation (EoR), au cours de laquelle les premières étoiles et galaxies sont apparues et ont progressivement ionisé les atomes environnants représente un trou d'environ un milliard d'années dans notre histoire de l'Univers. Pour comprendre cette période, et donc la formation des premiers objets astrophysiques lumineux, une voie prometteuse est l'observation du signal de la raie spectrale de l'hydrogène neutre à 21cm. De nombreux projets sont en cours pour y parvenir, tels que le radio-interféromètre français NenuFAR et le gigantesque Square Kilometre Array (SKA), actuellement en construction dans le désert australien, opérationnel d'ici la fin de cette thèse (2029). L'apprentissage automatique va être d'une grande aide pour analyser les pétaoctets de données produits quotidiennement par le SKA et pour en extraire les propriétés des premières galaxies et de l'Univers jeune. Ce projet de thèse explorera de nouvelles méthodes d'inférence basées sur l'apprentissage automatique en utilisant une base de données existante de simulations numériques du signal : la base de données LoReLi (Meriot & Semelin 2023).
Le SKA produira des cartes du signal à 21 cm, une image directe de l'état d'ionisation du milieu intergalactique dans laquelle nous pourrons identifier les bulles ionisées formées par les premières galaxies en leur centre. Pour réduire le bruit d'observation et accélérer les calculs, des statistiques de synthèse sont couramment utilisées pour analyser les données à 21 cm, telles que le spectre de puissance ou la variance de chaque carte. Dans ce projet, nous proposons d'exploiter l'intégralité des informations contenues dans les cartes plutôt que de nous limiter aux statistiques de synthèse. En tirant parti de la puissance de simulation des réseaux de neurones, nous construirons un cadre d'inférence capable de mesurer les propriétés astrophysiques des galaxies et de reconstruire la distribution de la matière dans l'Univers à partir d'une carte de température de brillance à 21 cm. Cette approche comporte des défis : i) Un défi computationnel, car l'inférence ne repose plus sur l'échantillonnage d'une dizaine de paramètres, mais de milliers (un par pixel de la carte) et ii) Un défi statistique, car il n'y a pas de signal, donc pas d'information, dans les régions ionisées du ciel. Pour surmonter ces obstacles, le projet examine le potentiel de l'échantillonnage de type Hamiltonian Monte-Carlo, déjà appliqué avec succès aux relevés de galaxies (Jasche+2010), combiné à des priors informés, une marginalisation approximative (Millea & Seljak 2022), et une analyse conjointe de données complémentaires (Zhou & Mao 2023).
L'étudiant.e entraînera des réseaux de neurones sur LoReLi pour reproduire des cartes à 21 cm en fonction des paramètres astrophysiques et d'une distribution de matière. Il/elle utilisera ensuite cet émulateur pour générer des modèles, les comparer à une carte fictive à 21 cm via une vraisemblance gaussienne et en déduire les mesures des paramètres du modèle. Cependant, une telle analyse repose sur l'hypothèse que les pixels de la carte sont tous indépendants, alors qu'ils ne le sont pas : Un pixel ionisé est plus susceptible d'être à l'intérieur d'une bulle ionisée, entouré d'autres pixels ionisés, plutôt que d'être isolé parmi des pixels neutres. Nous utiliserons donc des estimateurs de densité neuronale et l'ensemble de données LoReLi pour prédire la corrélation entre les pixels. En raison de la haute dimensionnalité du problème (environ 1000), l'étudiant travaillera à combiner la corrélation prédite sur de petites zones de la carte en une covariance de carte complète. Nous comparerons ensuite les résultats obtenus avec des méthodes de vraisemblance « explicite » et « implicite », ainsi qu'avec une dérivation analytique (approximative) de la matrice de covariance, afin d'évaluer correctement les incertitudes associées à nos reconstructions basées sur l'IA.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
The epoch of reionisation (EoR), during which the first stars and galaxies appeared and gradually ionised the surrounding atoms until the Universe is fully ionised, represents a gap of about a billion years in our knowledge of the history of the Universe. To understand this period, and thus the formation of the first luminous astrophysical objects, one promising avenue is the signal from the spectral line of neutral hydrogen at 21cm. Measuring the intensity of this signal makes it possible to track the evolution of the ionisation rate of the intergalactic medium over time and to map the growth of ionised bubbles around source galaxies more than ten billion light-years from Earth. Numerous projects are underway to achieve this, such as the French radio-interferometer NenuFAR and the gigantic radio interferometer Square Kilometre Array (SKA), currently under construction in the Australian desert and which will go online by the end of this PhD (2029). Machine learning-based techniques will greatly help analyse the petabytes of data produced daily by the SKA and extract meaningful information about the properties of the first galaxies and of the early Universe from them. In this context, this PhD project will explore novel machine learning-based inference methods using an existing database of numerical simulations of the signal: The LoReLi database (Meriot & Semelin 2023).
The SKA will produce maps of the 21cm signal, a direct picture of the intergalactic medium's ionisation state in which we can identify the ionised bubbles formed by the first galaxies at their centres. To beat down observational noise and speed up computations, summary statistics are commonly used to analyse 21cm data, such as the power spectrum or the variance of each map. In this project, we propose exploiting the full information in the maps rather than limiting ourselves to summary statistics. Leveraging the emulating power of neural networks, we will build an inference framework that can measure the astrophysical properties of galaxies and reconstruct the distribution of matter in the Universe from a 21cm brightness temperature map. This approach comes with challenges: i) A computational challenge, as the inference relies not on sampling a dozen model parameters anymore, but thousands of them (one per map pixel) and ii) A statistical challenge, as there is no signal, so no information, in the ionised region of the sky. To tackle these issues, the project investigates the potential of Hamiltonian Monte-Carlo sampling, already applied successfully to galaxy surveys (Jasche+2010), combined with informed priors, approximate marginalisation (Millea & Seljak 2022), and joint analysis of complementary data (Zhou & Mao 2023).
The student will train neural networks on the LoReLi dataset to reproduce 21cm maps given astrophysical parameters and a model matter distribution. They will then use this emulator to generate models, compare them to a mock 21cm map through a Gaussian likelihood (sum_pixels (data-model)^2 / error^2), and deduce measurements of the model parameters. However, such analysis relies on the assumption that the map pixels are all independent whilst they are not: One ionised pixel is more likely to be within an ionised bubble, surrounded by other ionised pixels, rather than isolated among neutral pixels. Therefore, we will use neural density estimators and the LoReLi dataset to predict the correlation between pixels. Because of the high dimensionality of the problem (about 1000), the student will work to combine the correlation predicted on small patches within the map into a full-map covariance. We will then compare the results obtained with both “explicit” and “implicit” likelihood methods and with an (approximate) analytical derivation of the covariance matrix to assess the uncertainties associated with our AI reconstructions properly.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/2025
Le SKA produira des cartes du signal à 21 cm, une image directe de l'état d'ionisation du milieu intergalactique dans laquelle nous pourrons identifier les bulles ionisées formées par les premières galaxies en leur centre. Pour réduire le bruit d'observation et accélérer les calculs, des statistiques de synthèse sont couramment utilisées pour analyser les données à 21 cm, telles que le spectre de puissance ou la variance de chaque carte. Dans ce projet, nous proposons d'exploiter l'intégralité des informations contenues dans les cartes plutôt que de nous limiter aux statistiques de synthèse. En tirant parti de la puissance de simulation des réseaux de neurones, nous construirons un cadre d'inférence capable de mesurer les propriétés astrophysiques des galaxies et de reconstruire la distribution de la matière dans l'Univers à partir d'une carte de température de brillance à 21 cm. Cette approche comporte des défis : i) Un défi computationnel, car l'inférence ne repose plus sur l'échantillonnage d'une dizaine de paramètres, mais de milliers (un par pixel de la carte) et ii) Un défi statistique, car il n'y a pas de signal, donc pas d'information, dans les régions ionisées du ciel. Pour surmonter ces obstacles, le projet examine le potentiel de l'échantillonnage de type Hamiltonian Monte-Carlo, déjà appliqué avec succès aux relevés de galaxies (Jasche+2010), combiné à des priors informés, une marginalisation approximative (Millea & Seljak 2022), et une analyse conjointe de données complémentaires (Zhou & Mao 2023).
L'étudiant.e entraînera des réseaux de neurones sur LoReLi pour reproduire des cartes à 21 cm en fonction des paramètres astrophysiques et d'une distribution de matière. Il/elle utilisera ensuite cet émulateur pour générer des modèles, les comparer à une carte fictive à 21 cm via une vraisemblance gaussienne et en déduire les mesures des paramètres du modèle. Cependant, une telle analyse repose sur l'hypothèse que les pixels de la carte sont tous indépendants, alors qu'ils ne le sont pas : Un pixel ionisé est plus susceptible d'être à l'intérieur d'une bulle ionisée, entouré d'autres pixels ionisés, plutôt que d'être isolé parmi des pixels neutres. Nous utiliserons donc des estimateurs de densité neuronale et l'ensemble de données LoReLi pour prédire la corrélation entre les pixels. En raison de la haute dimensionnalité du problème (environ 1000), l'étudiant travaillera à combiner la corrélation prédite sur de petites zones de la carte en une covariance de carte complète. Nous comparerons ensuite les résultats obtenus avec des méthodes de vraisemblance « explicite » et « implicite », ainsi qu'avec une dérivation analytique (approximative) de la matrice de covariance, afin d'évaluer correctement les incertitudes associées à nos reconstructions basées sur l'IA.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
The epoch of reionisation (EoR), during which the first stars and galaxies appeared and gradually ionised the surrounding atoms until the Universe is fully ionised, represents a gap of about a billion years in our knowledge of the history of the Universe. To understand this period, and thus the formation of the first luminous astrophysical objects, one promising avenue is the signal from the spectral line of neutral hydrogen at 21cm. Measuring the intensity of this signal makes it possible to track the evolution of the ionisation rate of the intergalactic medium over time and to map the growth of ionised bubbles around source galaxies more than ten billion light-years from Earth. Numerous projects are underway to achieve this, such as the French radio-interferometer NenuFAR and the gigantic radio interferometer Square Kilometre Array (SKA), currently under construction in the Australian desert and which will go online by the end of this PhD (2029). Machine learning-based techniques will greatly help analyse the petabytes of data produced daily by the SKA and extract meaningful information about the properties of the first galaxies and of the early Universe from them. In this context, this PhD project will explore novel machine learning-based inference methods using an existing database of numerical simulations of the signal: The LoReLi database (Meriot & Semelin 2023).
The SKA will produce maps of the 21cm signal, a direct picture of the intergalactic medium's ionisation state in which we can identify the ionised bubbles formed by the first galaxies at their centres. To beat down observational noise and speed up computations, summary statistics are commonly used to analyse 21cm data, such as the power spectrum or the variance of each map. In this project, we propose exploiting the full information in the maps rather than limiting ourselves to summary statistics. Leveraging the emulating power of neural networks, we will build an inference framework that can measure the astrophysical properties of galaxies and reconstruct the distribution of matter in the Universe from a 21cm brightness temperature map. This approach comes with challenges: i) A computational challenge, as the inference relies not on sampling a dozen model parameters anymore, but thousands of them (one per map pixel) and ii) A statistical challenge, as there is no signal, so no information, in the ionised region of the sky. To tackle these issues, the project investigates the potential of Hamiltonian Monte-Carlo sampling, already applied successfully to galaxy surveys (Jasche+2010), combined with informed priors, approximate marginalisation (Millea & Seljak 2022), and joint analysis of complementary data (Zhou & Mao 2023).
The student will train neural networks on the LoReLi dataset to reproduce 21cm maps given astrophysical parameters and a model matter distribution. They will then use this emulator to generate models, compare them to a mock 21cm map through a Gaussian likelihood (sum_pixels (data-model)^2 / error^2), and deduce measurements of the model parameters. However, such analysis relies on the assumption that the map pixels are all independent whilst they are not: One ionised pixel is more likely to be within an ionised bubble, surrounded by other ionised pixels, rather than isolated among neutral pixels. Therefore, we will use neural density estimators and the LoReLi dataset to predict the correlation between pixels. Because of the high dimensionality of the problem (about 1000), the student will work to combine the correlation predicted on small patches within the map into a full-map covariance. We will then compare the results obtained with both “explicit” and “implicit” likelihood methods and with an (approximate) analytical derivation of the covariance matrix to assess the uncertainties associated with our AI reconstructions properly.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/2025
Nature du financement
Précisions sur le financement
Programme COFUND DeMythif.AI
Présentation établissement et labo d'accueil
Université Paris-Saclay GS Physique
Etablissement délivrant le doctorat
Université Paris-Saclay GS Physique
Ecole doctorale
127 Astronomie et Astrophysique d'Ile de France
Profil du candidat
Connaissance minimale de la cosmologie
Une expertise en machine learning, statistique, et/ou inférence bayésienne sera appréciée.
Basic knowledge in astrophysics and cosmology. Expertise in machine learning, statistics, and/or bayesian inference are an asset.
Basic knowledge in astrophysics and cosmology. Expertise in machine learning, statistics, and/or bayesian inference are an asset.
15/01/2025
Postuler
Fermer
Vous avez déjà un compte ?
Nouvel utilisateur ?
Besoin d'informations sur l'ABG ?
Vous souhaitez recevoir nos infolettres ?
Découvrez nos adhérents
- MabDesign
- Institut Sup'biotech de Paris
- Aérocentre, Pôle d'excellence régional
- ONERA - The French Aerospace Lab
- MabDesign
- Nokia Bell Labs France
- CESI
- Généthon
- Tecknowmetrix
- SUEZ
- Institut de Radioprotection et de Sureté Nucléaire - IRSN - Siège
- Groupe AFNOR - Association française de normalisation
- TotalEnergies
- ANRT
- Laboratoire National de Métrologie et d'Essais - LNE
- PhDOOC
- ADEME
- Ifremer
- CASDEN