Transformer de vision multimodale efficace pour système embarqué // Efficient Multimodal Vision Transformers for Embedded System
ABG-127247 | Sujet de Thèse | |
28/11/2024 | Financement public/privé |
CEA Evry Val d’Essonne Laboratoire Intelligence Artificielle Embarquée
Saclay
Transformer de vision multimodale efficace pour système embarqué // Efficient Multimodal Vision Transformers for Embedded System
- Science de la donnée (stockage, sécurité, mesure, analyse)
Data intelligence dont Intelligence Artificielle / Défis technologiques / Informatique et logiciels / Sciences pour l’ingénieur
Description du sujet
La thèse proposée se concentre sur l'optimisation des transformers multimodaux de vision (ViT) pour la segmentation panoptique d'objets, en explorant deux axes principaux. Il s'agit d'abord de développer un pipeline de fusion polyvalent pour intégrer des données multimodales (RGB, IR, profondeur, événements, nuages de points), en exploitant les relations d'alignement inter-modales. Ensuite, une approche combinant le pruning et la quantification à précision mixte sera étudiée. L'objectif global est de concevoir des modèles ViT multimodaux légers, adaptés aux contraintes des systèmes embarqués, tout en optimisant leurs performances et en réduisant la complexité computationnelle.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
The proposed thesis focuses on the optimization of multimodal vision transformers (ViT) for panoptic object segmentation, exploring two main directions. The first is to develop a versatile fusion pipeline to integrate multimodal data (RGB, IR, depth, events, point clouds) by leveraging inter-modal alignment relationships. The second is to investigate an approach combining pruning and mixed-precision quantization. The overall goal is to design lightweight multimodal ViT models, tailored to the constraints of embedded systems, while optimizing their performance and reducing computational complexity.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Pôle fr : Direction de la Recherche Technologique
Pôle en : Technological Research
Département : Département Systèmes et Circuits Intégrés Numériques (LIST)
Service : DSCIN
Laboratoire : Laboratoire Intelligence Artificielle Embarquée
Date de début souhaitée : 01-10-2025
Ecole doctorale : Sciences et Technologies de l’Information et de la Communication (STIC)
Directeur de thèse : BOUCHAFA-BRUNEAU Samia
Organisme : Univ Evry/Université Paris-Saclay
Laboratoire : Laboratoire IBISC - Univ Evry/Université Paris-Saclay
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
The proposed thesis focuses on the optimization of multimodal vision transformers (ViT) for panoptic object segmentation, exploring two main directions. The first is to develop a versatile fusion pipeline to integrate multimodal data (RGB, IR, depth, events, point clouds) by leveraging inter-modal alignment relationships. The second is to investigate an approach combining pruning and mixed-precision quantization. The overall goal is to design lightweight multimodal ViT models, tailored to the constraints of embedded systems, while optimizing their performance and reducing computational complexity.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Pôle fr : Direction de la Recherche Technologique
Pôle en : Technological Research
Département : Département Systèmes et Circuits Intégrés Numériques (LIST)
Service : DSCIN
Laboratoire : Laboratoire Intelligence Artificielle Embarquée
Date de début souhaitée : 01-10-2025
Ecole doctorale : Sciences et Technologies de l’Information et de la Communication (STIC)
Directeur de thèse : BOUCHAFA-BRUNEAU Samia
Organisme : Univ Evry/Université Paris-Saclay
Laboratoire : Laboratoire IBISC - Univ Evry/Université Paris-Saclay
Nature du financement
Financement public/privé
Précisions sur le financement
Présentation établissement et labo d'accueil
CEA Evry Val d’Essonne Laboratoire Intelligence Artificielle Embarquée
Pôle fr : Direction de la Recherche Technologique
Pôle en : Technological Research
Département : Département Systèmes et Circuits Intégrés Numériques (LIST)
Service : DSCIN
Profil du candidat
Master en informatique/vision par ordinateur/intelligence artificielle
Postuler
Fermer
Vous avez déjà un compte ?
Nouvel utilisateur ?
Besoin d'informations sur l'ABG ?
Vous souhaitez recevoir nos infolettres ?
Découvrez nos adhérents
- Ifremer
- CESI
- Aérocentre, Pôle d'excellence régional
- MabDesign
- Généthon
- Groupe AFNOR - Association française de normalisation
- Institut de Radioprotection et de Sureté Nucléaire - IRSN - Siège
- TotalEnergies
- Nokia Bell Labs France
- PhDOOC
- Laboratoire National de Métrologie et d'Essais - LNE
- ADEME
- ANRT
- Tecknowmetrix
- MabDesign
- ONERA - The French Aerospace Lab
- Institut Sup'biotech de Paris
- CASDEN
- SUEZ