Where PhDs and companies meet
Menu
Login

Already registered?

New user?

LLM Agentique pour l'interaction vocale humain-robot multimodale pro-active // Agentic LLM for multimodal pro-active humain-robot vocal interaction

ABG-128355
ADUM-60862
Thesis topic
2025-02-05
Avignon Université
AVIGNON - France
LLM Agentique pour l'interaction vocale humain-robot multimodale pro-active // Agentic LLM for multimodal pro-active humain-robot vocal interaction
  • Computer science
AI, natural language processing, audio-visual scene analysis, human-robot vocal interaction, deep learning, deep reinforcement learning
AI, natural language processing, audio-visual scene analysis, human-robot vocal interaction, deep learning, deep reinforcement learning

Topic description

La thèse étudiera de nouvelles pistes pour faire progresser l'interaction multimodale homme-robot. Des informations coordonnées provenant de différentes modalités (principalement la vision et l'audio) doivent constituer la base de la prise de décision du robot. L'objectf est robot proactif s'appuyant sur des analyses prédictives de son environnement ; il doit savoir quels individus peuvent être engagés dans la situation observée, produire une séquence de dialogue cohérente pendant l'interaction et être capable d'estimer la pertinence de l'engagement pendant l'interaction.

Cette étude sera basée sur l'application des LLM en tant qu'agents. Les LLM seront utilisés pour produire des explications sur les situations observées et recommander les actions suivantes possibles. Une difficulté majeure résidera dans la composition de prompts pour de tels LAM (Large Action Models), qui devront refléter la situation de manière suffisamment précise tout en restant d'une taille raisonnable pour rester dans les limites des tailles possibles actuelles (quelques dizaines de kilotokens) et permettre une inférence précise et rapide. Le cadre de l'apprentissage continu sera également intégré au projet afin de garantir l'adaptation permanente de l'agent conversationnel à l'évolution de ses conditions d'usages.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

The thesis will investigate new ways of advancing multimodal human-robot interaction. Coordinated information from different modalities (mainly vision and audio) should form the basis of the robot's decision-making. The robot must be pro-active relying on predictive analyses of its environment; to know which individuals may be engaged in the situation observed, to produce a coherent dialogue sequence during the interaction and also to be able to estimate the relevance of the engagement during the interaction.

This study will be based on the application of LLMs as agents. LLM will be used to produce explanations of observed situations and recommend possible next actions. A major difficulty will lie in the composition of prompts to such LAMs (Large Action Models), which will have to reflect the situation sufficiently accurately while remaining of reasonable size to remain within the limits of current possible sizes (a few tens of kilotokens) and allow accurate and rapid inference. Also the continuous learning framework will be integrated in the project to ensure permanent adaptation of the conversational agent to evolving conditions.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Début de la thèse : 01/10/2025
WEB : http://lia.univ-avignon.fr

Funding category

Funding further details

Contrat doctoral

Presentation of host institution and host laboratory

Avignon Université

Institution awarding doctoral degree

Avignon Université

Graduate school

536 Agrosciences et Sciences

Candidate's profile

Le candidat doit avoir un master en informatique avec une composante sur les méthodes d'apprentissage automatique et/ou sur l'ingénierie de la langue. La bourse de thèse fera l'objet d'un concours au sein de l'Ecole Doctorale 536 de l'université d'Avignon, avec une audition préalable du candidat retenu par les encadrants de thèse. Pour postuler merci d'envoyer un mail à Fabrice Lefèvre (fabrice.lefevre@univ-avignon.fr) incluant : votre CV, une lettre de motivation avec votre positionnement sur les propositions d'études ci-dessous, d'éventuelles lettres de recommandation et vos relevés de notes.
The candidate must have a master's degree in computer science with a component in machine learning methods and/or language engineering. The thesis grant will be the subject of a competition within Ecole Doctorale 536 at the University of Avignon, with a preliminary interview of the successful candidate by the thesis supervisors. To apply, please send an email to Fabrice Lefèvre (fabrice.lefevre@univ-avignon.fr) including: your CV, a covering letter stating your position on the study proposals below, any letters of recommendation and your transcripts.
2025-05-26
Partager via
Apply
Close

Vous avez déjà un compte ?

Nouvel utilisateur ?