Systèmes visuels de questions-réponses combinant un encodeur binarisé et des modèles de langage // Attention-based Binarized Visual Encoder for LLM-driven Visual Question Answering
ABG-128259 | Sujet de Thèse | |
01/02/2025 | Financement public/privé |
CEA Université Grenoble Alpes Laboratoire conception de Circuits Intégrés Intelligents pour l’image
Grenoble
Systèmes visuels de questions-réponses combinant un encodeur binarisé et des modèles de langage // Attention-based Binarized Visual Encoder for LLM-driven Visual Question Answering
- Science de la donnée (stockage, sécurité, mesure, analyse)
Data intelligence dont Intelligence Artificielle / Défis technologiques / Informatique et logiciels / Sciences pour l’ingénieur
Description du sujet
Une des tendances majeures des imageurs intelligents est d’aller au-delà de fonctions d’inférence simple telle que la classification ou la détection d’objet. Cela peut notamment se traduire par le souhait d’ajouter des applications plus complexes permettant une compréhension sémantique de la scène. Parmi ces applications, le VQA (Visual Question Answering) permet aux systèmes d'IA de répondre à des questions, formulées avec du texte, en analysant les images. Dans ce contexte, ce sujet vise à développer un système efficace et embarqué de VQA intégrant un encodeur visuel basé sur des réseaux de neurones binaires (BNN) combiné avec un modèle de langage compact (tiny LLM). Même s’il existent encore de nombreuses étapes pour un portage matériel d’un système intégrant un LLM, ce projet représente une étape significative dans cette direction en s’appuyant sur des BNN. Cet encodeur traite des images en limitant le besoin en ressource de calcul, permettant un déploiement en temps réel sur des dispositifs embarqués. Des mécanismes d'attention seront intégrés pour extraire les informations sémantiques nécessaires à la compréhension de la scène. Le modèle de langage utilisé pourra être stocké localement et ajusté conjointement avec le BNN pour générer des réponses précises et contextuellement pertinentes.
Ce sujet de thèse offre une opportunité pour un candidat intéressé par le Tiny Deep Learning et les LLMs. Il propose un vaste champ de recherche pour des contributions significatives et des résultats intéressants pour des applications concrètes. Le travail consistera à développer une topologie de BNN robuste pour l'analyse sémantique d’une scène visuelle, en prenant en compte des contraintes matérielles (mémoire et calcul), à intégrer et à optimiser l'encodeur BNN avec le LLM, tout en assurant un système VQA cohérent et performant à travers différents types de requêtes et de cas d’usage.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
In the context of smart image sensors, there is an increasing demand to go beyond simple inferences such as classification or object detection, to add more complex applications enabling a semantic understanding of the scene. Among these applications, Visual Question Answering (VQA) enables AI systems to answer questions by analyzing images. This project aims to develop an efficient VQA system combining a visual encoder based on Binary Neural Networks (BNN) with a compact language model (tiny LLM). Although LLMs are still far from a complete hardware implementation, this project represents a significant step in this direction by using a BNN to analyze the context and relationship between objects of the scene. This encoder processes images with low resource consumption, allowing real-time deployment on edge devices. Attention mechanisms can be taken into consideration to extract the semantic information necessary for scene understanding. The language model used can be stored locally and adjusted jointly with the BNN to generate precise and contextually relevant answers.
This project offers an opportunity for candidates interested in Tiny Deep Learning and LLMs. It proposes a broad field of research for significant contributions and interesting results for concrete applications. The work will consist of developing a robust BNN topology for semantic scene analysis under certain hardware constraints (memory and computation) and integrating and jointly optimizing the BNN encoder with the LLM, while ensuring a coherent and performant VQA system across different types of inquiries.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Pôle fr : Direction de la Recherche Technologique
Pôle en : Technological Research
Département : Département d’Optronique (LETI)
Service : Service d’Innovation et Systèmes Photoniques
Laboratoire : Laboratoire conception de Circuits Intégrés Intelligents pour l’image
Date de début souhaitée : 01-10-2025
Ecole doctorale : Electronique, Electrotechnique, Automatique, Traitement du Signal (EEATS)
Directeur de thèse : GUICQUERO William
Organisme : CEA
Laboratoire : DRT/DOPT//L3I
Ce sujet de thèse offre une opportunité pour un candidat intéressé par le Tiny Deep Learning et les LLMs. Il propose un vaste champ de recherche pour des contributions significatives et des résultats intéressants pour des applications concrètes. Le travail consistera à développer une topologie de BNN robuste pour l'analyse sémantique d’une scène visuelle, en prenant en compte des contraintes matérielles (mémoire et calcul), à intégrer et à optimiser l'encodeur BNN avec le LLM, tout en assurant un système VQA cohérent et performant à travers différents types de requêtes et de cas d’usage.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
In the context of smart image sensors, there is an increasing demand to go beyond simple inferences such as classification or object detection, to add more complex applications enabling a semantic understanding of the scene. Among these applications, Visual Question Answering (VQA) enables AI systems to answer questions by analyzing images. This project aims to develop an efficient VQA system combining a visual encoder based on Binary Neural Networks (BNN) with a compact language model (tiny LLM). Although LLMs are still far from a complete hardware implementation, this project represents a significant step in this direction by using a BNN to analyze the context and relationship between objects of the scene. This encoder processes images with low resource consumption, allowing real-time deployment on edge devices. Attention mechanisms can be taken into consideration to extract the semantic information necessary for scene understanding. The language model used can be stored locally and adjusted jointly with the BNN to generate precise and contextually relevant answers.
This project offers an opportunity for candidates interested in Tiny Deep Learning and LLMs. It proposes a broad field of research for significant contributions and interesting results for concrete applications. The work will consist of developing a robust BNN topology for semantic scene analysis under certain hardware constraints (memory and computation) and integrating and jointly optimizing the BNN encoder with the LLM, while ensuring a coherent and performant VQA system across different types of inquiries.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Pôle fr : Direction de la Recherche Technologique
Pôle en : Technological Research
Département : Département d’Optronique (LETI)
Service : Service d’Innovation et Systèmes Photoniques
Laboratoire : Laboratoire conception de Circuits Intégrés Intelligents pour l’image
Date de début souhaitée : 01-10-2025
Ecole doctorale : Electronique, Electrotechnique, Automatique, Traitement du Signal (EEATS)
Directeur de thèse : GUICQUERO William
Organisme : CEA
Laboratoire : DRT/DOPT//L3I
Nature du financement
Financement public/privé
Précisions sur le financement
Présentation établissement et labo d'accueil
CEA Université Grenoble Alpes Laboratoire conception de Circuits Intégrés Intelligents pour l’image
Pôle fr : Direction de la Recherche Technologique
Pôle en : Technological Research
Département : Département d’Optronique (LETI)
Service : Service d’Innovation et Systèmes Photoniques
Profil du candidat
Intelligence Artificielle, Traitement d'Image
Postuler
Fermer
Vous avez déjà un compte ?
Nouvel utilisateur ?
Besoin d'informations sur l'ABG ?
Vous souhaitez recevoir nos infolettres ?
Découvrez nos adhérents
- Groupe AFNOR - Association française de normalisation
- CASDEN
- ONERA - The French Aerospace Lab
- Aérocentre, Pôle d'excellence régional
- ANRT
- PhDOOC
- SUEZ
- TotalEnergies
- Nokia Bell Labs France
- Tecknowmetrix
- Laboratoire National de Métrologie et d'Essais - LNE
- Institut de Radioprotection et de Sureté Nucléaire - IRSN - Siège
- CESI
- Ifremer
- Institut Sup'biotech de Paris
- MabDesign
- MabDesign
- ADEME
- Généthon