Vous êtes*	↓ ↓
E-mail*	↓ ↓

Retourner à la recherche

Transformer de vision multimodale efficace pour système embarqué // Efficient Multimodal Vision Transformers for Embedded System

Réf ABG-127247	Sujet de Thèse
28/11/2024		Financement public/privé

CEA Evry Val d’Essonne Laboratoire Intelligence Artificielle Embarquée

Lieu de travail

Saclay

Intitulé du sujet

Transformer de vision multimodale efficace pour système embarqué // Efficient Multimodal Vision Transformers for Embedded System

Champs scientifiques

Science de la donnée (stockage, sécurité, mesure, analyse)

Mots clés

Data intelligence dont Intelligence Artificielle / Défis technologiques / Informatique et logiciels / Sciences pour l’ingénieur

Description du sujet

La thèse proposée se concentre sur l'optimisation des transformers multimodaux de vision (ViT) pour la segmentation panoptique d'objets, en explorant deux axes principaux. Il s'agit d'abord de développer un pipeline de fusion polyvalent pour intégrer des données multimodales (RGB, IR, profondeur, événements, nuages de points), en exploitant les relations d'alignement inter-modales. Ensuite, une approche combinant le pruning et la quantification à précision mixte sera étudiée. L'objectif global est de concevoir des modèles ViT multimodaux légers, adaptés aux contraintes des systèmes embarqués, tout en optimisant leurs performances et en réduisant la complexité computationnelle.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

The proposed thesis focuses on the optimization of multimodal vision transformers (ViT) for panoptic object segmentation, exploring two main directions. The first is to develop a versatile fusion pipeline to integrate multimodal data (RGB, IR, depth, events, point clouds) by leveraging inter-modal alignment relationships. The second is to investigate an approach combining pruning and mixed-precision quantization. The overall goal is to design lightweight multimodal ViT models, tailored to the constraints of embedded systems, while optimizing their performance and reducing computational complexity.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Pôle fr : Direction de la Recherche Technologique
Pôle en : Technological Research
Département : Département Systèmes et Circuits Intégrés Numériques (LIST)
Service : DSCIN
Laboratoire : Laboratoire Intelligence Artificielle Embarquée
Date de début souhaitée : 01-10-2025
Ecole doctorale : Sciences et Technologies de l’Information et de la Communication (STIC)
Directeur de thèse : BOUCHAFA-BRUNEAU Samia
Organisme : Univ Evry/Université Paris-Saclay
Laboratoire : Laboratoire IBISC - Univ Evry/Université Paris-Saclay

Nature du financement

Financement public/privé

Précisions sur le financement

Présentation établissement et labo d'accueil

CEA Evry Val d’Essonne Laboratoire Intelligence Artificielle Embarquée

Pôle fr : Direction de la Recherche Technologique
Pôle en : Technological Research
Département : Département Systèmes et Circuits Intégrés Numériques (LIST)
Service : DSCIN

Profil du candidat

Master en informatique/vision par ordinateur/intelligence artificielle

Partager via

Postuler

Fermer

Vous avez déjà un compte ?

Nouvel utilisateur ?

Civilité*	↓ ↓
Prénom*	↓ ↓
Nom*	↓ ↓
E-mail*	↓ ↓
Confirmez votre e-mail*	↓ ↓
Mot de passe*	8 caractères minimum, avec au moins un chiffre, une lettre minuscule et une lettre majuscule. ↓ ↓
Confirmez votre mot de passe*	↓ ↓