Modèles neuronaux bio-inspirés pour l'intelligence artificielle et la vision par ordinateur // Bio-inspired neural models for artificial intelligence and computer vision
ABG-126794
ADUM-59438 |
Thesis topic | |
2024-11-09 |
Université Paris-Saclay GS Informatique et sciences du numérique
Palaiseau - France
Modèles neuronaux bio-inspirés pour l'intelligence artificielle et la vision par ordinateur // Bio-inspired neural models for artificial intelligence and computer vision
Intelligence Artificielle, Réseaux neuronaux bio-inspirés, Apprentissage automatique, Codage prédictif, IA de confiance
Artificial Intelligence, Bio-inspired neural networks, Machine Learning, Predictive coding, Trustworthy AI
Artificial Intelligence, Bio-inspired neural networks, Machine Learning, Predictive coding, Trustworthy AI
Topic description
* Limitations des réseaux de neurones profonds
Les approches contemporaines d'Intelligence Artificielle (IA) sont dominées par l'apprentissage profond (« Deep Learning ») : elles reposent sur une architecture de réseaux de neurones dite « feed-forward » de très grande taille (plusieurs millions à milliards de paramètres), des grandes quantités de données et une optimisation par descente de gradient stochastique. Ces approches ont démontré une certaine efficacité sur un grand nombre de tâches d'IA, par exemple en vision par ordinateur ou traitement du langage naturel. Cependant, bien qu'inspirés originellement par le fonctionnement du cerveau — ce sont des « réseaux de neurones » — ils sont aussi caractérisés par un certain nombre de limitations lorsqu'on les compare aux systèmes biologiques: capacité de généralisation difficile à cerner ou à garantir, comportements délicats à contrôler ou anticiper (hallucination, attaques adverses, incertitudes mal calibrées), évolutivité faible, énergivore (en apprentissage mais aussi en inférence).
On se propose dans cette thèse de se rapprocher des modèles inspirés de la biologie pour répondre à certaines de ces limitations pour des tâches de vision par ordinateur (classification d'image, détection d'objet, segmentation, pistage vidéo).
* Les réseaux de neurones bio-inspirés
Une première manière de s'inspirer de la biologie est de reproduire la façon dont sont réalisés les calculs dans le cerveau (« Brain Inspired Computing » [1] [2]). Un exemple typique de ce type d'approche est les réseaux de spike [3], [4] qui modélisent finement la dynamique de propagation des signaux électrochimiques dans les neurones.
Une autre stratégie, et c'est celle qui sera envisagée dans la thèse, est de s'appuyer sur une interprétation biologique du fonctionnement du cerveau. L'une des approches les plus développées dans la littérature est le codage prédictif [5]: elle exploite une perspective bayésienne sur la façon dont le cerveau traite l'information, en mettant l'accent sur le rôle des modèles probabilistes et la minimisation des erreurs de prédiction en inférence et en apprentissage. Fondamentalement, le codage prédictif - parfois référencé dans la littérature sous l'expression cerveau bayésien - suggère que le cerveau génère continuellement des prédictions sur les entrées sensorielles et qu'il les actualise en fonction des données sensorielles reçues et des erreurs de prédiction [6]. L'objectif du réseau n'est pas de traiter des données (entrée/sortie), mais de maintenir un modèle capable de prédire ses expériences perceptives.
Un certain nombre de modèles de codage prédictif ont été proposés dans la littérature, soit inspirés directement de la biologie [7], [8], [9], [10], soit issus de considérations informationnelles comme le modèle JEPA [11]. Ils ont été utilisés pour des applications de vision par ordinateur [12], [13], [14] ou de planification [15]. Certains modèles de codage prédictif sont également présentés comme alternative à la rétro-propagation du gradient [16], [17], [18], le mécanisme algorithmique élémentaire utilisé par l'apprentissage profond. Quelques environnements de programmation sont disponibles [12], [13].
L'objectif de la thèse est de revisiter les tâches classiques de vision par ordinateur, maintenant reposant sur des modèles de fondation « feed-forward » ou autorégressifs de très grande taille [19], et de proposer des architectures alternatives inspirées des modèles biologiques. L'effort sera porté sur l'amélioration du contrôle de ces architectures par l'analyse des signaux de prédiction et d'erreur générés au cours des inférences pour une éventuelle utilisation dans des contextes critiques.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
* Limitations of deep neural networks
Contemporary approaches to Artificial Intelligence (AI) are dominated by Deep Learning: they rely on a feed-forward neural network architecture of very large size (several million to billions of parameters), large quantities of data and stochastic gradient descent optimization. These approaches have demonstrated a certain efficiency on a large number of AI tasks, for example in computer vision or natural language processing. However, although originally inspired by the functioning of the brain - they are “neural networks” - they are also characterized by a number of limitations when compared to biological systems: generalization capacity difficult to pin down or guarantee, behaviors tricky to control or anticipate (hallucination, adversarial attacks, poorly calibrated uncertainties), low scalability, energy-intensive: in learning but also in inference.
In this thesis, we propose to approach models inspired by biology to address some of the limitations of current deep neural networks for computer vision tasks (image classification, object detection, segmentation, video tracking).
* Bio-inspired neural networks
A first way of drawing inspiration from biology is to reproduce the way calculations are performed in the brain (“Brain Inspired Computing” [1] [2]). Typical examples of this type of approach are spike networks [3], [4], which finely model the propagation dynamics of electrochemical signals in neurons.
Another strategy, and the one that will be considered in this thesis, is to rely on a biological interpretation of brain function. One of the most widely developed approaches in the literature is predictive coding [5]: it exploits a Bayesian perspective on how the brain processes information, emphasizing the role of probabilistic models and the minimization of prediction errors in inference and learning. Basically, predictive coding - sometimes referred to in the literature under the term Bayesian brain - suggests that the brain continuously generates predictions about sensory inputs and updates them according to received sensory data and prediction errors [6]. The aim of the network is not to process data (input/output), but to maintain a model capable of predicting its perceptual experience.
A number of predictive coding models have been proposed in the literature, either inspired directly by biology [7], [8], [9], [10], or derived from informational considerations such as the JEPA model [11]. They have been used for computer vision applications [12], [13], [14] or planning [15]. Some predictive coding models are also presented as an alternative to gradient back-propagation [16], [17], [18], the elementary algorithmic mechanism used by deep learning. A few programming environments are available [12], [13].
The aim of the thesis is to revisit classical computer vision tasks, now based on very large feed-forward or auto-regressive foundation models [19], and to propose alternative architectures inspired by biological models. The focus will be on improving the control of these architectures by analyzing the prediction and error signals generated during inference, for possible use in critical contexts.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/2025
Les approches contemporaines d'Intelligence Artificielle (IA) sont dominées par l'apprentissage profond (« Deep Learning ») : elles reposent sur une architecture de réseaux de neurones dite « feed-forward » de très grande taille (plusieurs millions à milliards de paramètres), des grandes quantités de données et une optimisation par descente de gradient stochastique. Ces approches ont démontré une certaine efficacité sur un grand nombre de tâches d'IA, par exemple en vision par ordinateur ou traitement du langage naturel. Cependant, bien qu'inspirés originellement par le fonctionnement du cerveau — ce sont des « réseaux de neurones » — ils sont aussi caractérisés par un certain nombre de limitations lorsqu'on les compare aux systèmes biologiques: capacité de généralisation difficile à cerner ou à garantir, comportements délicats à contrôler ou anticiper (hallucination, attaques adverses, incertitudes mal calibrées), évolutivité faible, énergivore (en apprentissage mais aussi en inférence).
On se propose dans cette thèse de se rapprocher des modèles inspirés de la biologie pour répondre à certaines de ces limitations pour des tâches de vision par ordinateur (classification d'image, détection d'objet, segmentation, pistage vidéo).
* Les réseaux de neurones bio-inspirés
Une première manière de s'inspirer de la biologie est de reproduire la façon dont sont réalisés les calculs dans le cerveau (« Brain Inspired Computing » [1] [2]). Un exemple typique de ce type d'approche est les réseaux de spike [3], [4] qui modélisent finement la dynamique de propagation des signaux électrochimiques dans les neurones.
Une autre stratégie, et c'est celle qui sera envisagée dans la thèse, est de s'appuyer sur une interprétation biologique du fonctionnement du cerveau. L'une des approches les plus développées dans la littérature est le codage prédictif [5]: elle exploite une perspective bayésienne sur la façon dont le cerveau traite l'information, en mettant l'accent sur le rôle des modèles probabilistes et la minimisation des erreurs de prédiction en inférence et en apprentissage. Fondamentalement, le codage prédictif - parfois référencé dans la littérature sous l'expression cerveau bayésien - suggère que le cerveau génère continuellement des prédictions sur les entrées sensorielles et qu'il les actualise en fonction des données sensorielles reçues et des erreurs de prédiction [6]. L'objectif du réseau n'est pas de traiter des données (entrée/sortie), mais de maintenir un modèle capable de prédire ses expériences perceptives.
Un certain nombre de modèles de codage prédictif ont été proposés dans la littérature, soit inspirés directement de la biologie [7], [8], [9], [10], soit issus de considérations informationnelles comme le modèle JEPA [11]. Ils ont été utilisés pour des applications de vision par ordinateur [12], [13], [14] ou de planification [15]. Certains modèles de codage prédictif sont également présentés comme alternative à la rétro-propagation du gradient [16], [17], [18], le mécanisme algorithmique élémentaire utilisé par l'apprentissage profond. Quelques environnements de programmation sont disponibles [12], [13].
L'objectif de la thèse est de revisiter les tâches classiques de vision par ordinateur, maintenant reposant sur des modèles de fondation « feed-forward » ou autorégressifs de très grande taille [19], et de proposer des architectures alternatives inspirées des modèles biologiques. L'effort sera porté sur l'amélioration du contrôle de ces architectures par l'analyse des signaux de prédiction et d'erreur générés au cours des inférences pour une éventuelle utilisation dans des contextes critiques.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
* Limitations of deep neural networks
Contemporary approaches to Artificial Intelligence (AI) are dominated by Deep Learning: they rely on a feed-forward neural network architecture of very large size (several million to billions of parameters), large quantities of data and stochastic gradient descent optimization. These approaches have demonstrated a certain efficiency on a large number of AI tasks, for example in computer vision or natural language processing. However, although originally inspired by the functioning of the brain - they are “neural networks” - they are also characterized by a number of limitations when compared to biological systems: generalization capacity difficult to pin down or guarantee, behaviors tricky to control or anticipate (hallucination, adversarial attacks, poorly calibrated uncertainties), low scalability, energy-intensive: in learning but also in inference.
In this thesis, we propose to approach models inspired by biology to address some of the limitations of current deep neural networks for computer vision tasks (image classification, object detection, segmentation, video tracking).
* Bio-inspired neural networks
A first way of drawing inspiration from biology is to reproduce the way calculations are performed in the brain (“Brain Inspired Computing” [1] [2]). Typical examples of this type of approach are spike networks [3], [4], which finely model the propagation dynamics of electrochemical signals in neurons.
Another strategy, and the one that will be considered in this thesis, is to rely on a biological interpretation of brain function. One of the most widely developed approaches in the literature is predictive coding [5]: it exploits a Bayesian perspective on how the brain processes information, emphasizing the role of probabilistic models and the minimization of prediction errors in inference and learning. Basically, predictive coding - sometimes referred to in the literature under the term Bayesian brain - suggests that the brain continuously generates predictions about sensory inputs and updates them according to received sensory data and prediction errors [6]. The aim of the network is not to process data (input/output), but to maintain a model capable of predicting its perceptual experience.
A number of predictive coding models have been proposed in the literature, either inspired directly by biology [7], [8], [9], [10], or derived from informational considerations such as the JEPA model [11]. They have been used for computer vision applications [12], [13], [14] or planning [15]. Some predictive coding models are also presented as an alternative to gradient back-propagation [16], [17], [18], the elementary algorithmic mechanism used by deep learning. A few programming environments are available [12], [13].
The aim of the thesis is to revisit classical computer vision tasks, now based on very large feed-forward or auto-regressive foundation models [19], and to propose alternative architectures inspired by biological models. The focus will be on improving the control of these architectures by analyzing the prediction and error signals generated during inference, for possible use in critical contexts.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/2025
Funding category
Funding further details
Financement de l'ONERA*Programme COFUND DeMythif.AI*Programme pour normalien ENS Paris-Saclay
Presentation of host institution and host laboratory
Université Paris-Saclay GS Informatique et sciences du numérique
Institution awarding doctoral degree
Université Paris-Saclay GS Informatique et sciences du numérique
Graduate school
580 Sciences et Technologies de l'Information et de la Communication
Candidate's profile
Grande École d'Ingénieur ou Master 2, avec spécialisation en intelligence artificielle, vision par ordinateur ou mathématiques appliquées.
Engineering School degree or Master of Science, with major in artificial intelligence, computer vision or applied mathematics.
Engineering School degree or Master of Science, with major in artificial intelligence, computer vision or applied mathematics.
2025-05-15
Apply
Close
Vous avez déjà un compte ?
Nouvel utilisateur ?
More information about ABG?
Get ABG’s monthly newsletters including news, job offers, grants & fellowships and a selection of relevant events…
Discover our members
Institut Sup'biotech de Paris
ANRT
Groupe AFNOR - Association française de normalisation
Ifremer
ADEME
Tecknowmetrix
Nokia Bell Labs France
CESI
ONERA - The French Aerospace Lab
MabDesign
Aérocentre, Pôle d'excellence régional
Laboratoire National de Métrologie et d'Essais - LNE
PhDOOC
CASDEN
Généthon
ASNR - Autorité de sûreté nucléaire et de radioprotection - Siège
MabDesign
SUEZ
TotalEnergies