Where PhDs and companies meet
Menu
Login

Already registered?

New user?

Systèmes visuels de questions-réponses combinant un encodeur binarisé et des modèles de langage // Attention-based Binarized Visual Encoder for LLM-driven Visual Question Answering

ABG-128259 Thesis topic
2025-02-01 Public/private mixed funding
CEA Université Grenoble Alpes Laboratoire conception de Circuits Intégrés Intelligents pour l’image
Grenoble
Systèmes visuels de questions-réponses combinant un encodeur binarisé et des modèles de langage // Attention-based Binarized Visual Encoder for LLM-driven Visual Question Answering
  • Data science (storage, security, measurement, analysis)
Data intelligence dont Intelligence Artificielle / Défis technologiques / Informatique et logiciels / Sciences pour l’ingénieur

Topic description

Une des tendances majeures des imageurs intelligents est d’aller au-delà de fonctions d’inférence simple telle que la classification ou la détection d’objet. Cela peut notamment se traduire par le souhait d’ajouter des applications plus complexes permettant une compréhension sémantique de la scène. Parmi ces applications, le VQA (Visual Question Answering) permet aux systèmes d'IA de répondre à des questions, formulées avec du texte, en analysant les images. Dans ce contexte, ce sujet vise à développer un système efficace et embarqué de VQA intégrant un encodeur visuel basé sur des réseaux de neurones binaires (BNN) combiné avec un modèle de langage compact (tiny LLM). Même s’il existent encore de nombreuses étapes pour un portage matériel d’un système intégrant un LLM, ce projet représente une étape significative dans cette direction en s’appuyant sur des BNN. Cet encodeur traite des images en limitant le besoin en ressource de calcul, permettant un déploiement en temps réel sur des dispositifs embarqués. Des mécanismes d'attention seront intégrés pour extraire les informations sémantiques nécessaires à la compréhension de la scène. Le modèle de langage utilisé pourra être stocké localement et ajusté conjointement avec le BNN pour générer des réponses précises et contextuellement pertinentes.
Ce sujet de thèse offre une opportunité pour un candidat intéressé par le Tiny Deep Learning et les LLMs. Il propose un vaste champ de recherche pour des contributions significatives et des résultats intéressants pour des applications concrètes. Le travail consistera à développer une topologie de BNN robuste pour l'analyse sémantique d’une scène visuelle, en prenant en compte des contraintes matérielles (mémoire et calcul), à intégrer et à optimiser l'encodeur BNN avec le LLM, tout en assurant un système VQA cohérent et performant à travers différents types de requêtes et de cas d’usage.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

In the context of smart image sensors, there is an increasing demand to go beyond simple inferences such as classification or object detection, to add more complex applications enabling a semantic understanding of the scene. Among these applications, Visual Question Answering (VQA) enables AI systems to answer questions by analyzing images. This project aims to develop an efficient VQA system combining a visual encoder based on Binary Neural Networks (BNN) with a compact language model (tiny LLM). Although LLMs are still far from a complete hardware implementation, this project represents a significant step in this direction by using a BNN to analyze the context and relationship between objects of the scene. This encoder processes images with low resource consumption, allowing real-time deployment on edge devices. Attention mechanisms can be taken into consideration to extract the semantic information necessary for scene understanding. The language model used can be stored locally and adjusted jointly with the BNN to generate precise and contextually relevant answers.
This project offers an opportunity for candidates interested in Tiny Deep Learning and LLMs. It proposes a broad field of research for significant contributions and interesting results for concrete applications. The work will consist of developing a robust BNN topology for semantic scene analysis under certain hardware constraints (memory and computation) and integrating and jointly optimizing the BNN encoder with the LLM, while ensuring a coherent and performant VQA system across different types of inquiries.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Pôle fr : Direction de la Recherche Technologique
Pôle en : Technological Research
Département : Département d’Optronique (LETI)
Service : Service d’Innovation et Systèmes Photoniques
Laboratoire : Laboratoire conception de Circuits Intégrés Intelligents pour l’image
Date de début souhaitée : 01-10-2025
Ecole doctorale : Electronique, Electrotechnique, Automatique, Traitement du Signal (EEATS)
Directeur de thèse : GUICQUERO William
Organisme : CEA
Laboratoire : DRT/DOPT//L3I

Funding category

Public/private mixed funding

Funding further details

Presentation of host institution and host laboratory

CEA Université Grenoble Alpes Laboratoire conception de Circuits Intégrés Intelligents pour l’image

Pôle fr : Direction de la Recherche Technologique
Pôle en : Technological Research
Département : Département d’Optronique (LETI)
Service : Service d’Innovation et Systèmes Photoniques

Candidate's profile

Intelligence Artificielle, Traitement d'Image
Partager via
Apply
Close

Vous avez déjà un compte ?

Nouvel utilisateur ?