Apprentissage profond multi-modal pour l’alignement adaptatif de séquences de gestes et de textes
ABG-128562 | Stage master 2 / Ingénieur | 5 mois | Stage rénuméré (euros) |
13/02/2025 |
- Informatique
- Science de la donnée (stockage, sécurité, mesure, analyse)
Établissement recruteur
Site web :
L'École IMT Nord Europe est un établissement public à caractère scientifique, culturel et professionnel et l'une des 204 écoles d'ingénieurs françaises accréditées au 1er septembre 2020 à délivrer un diplôme d'ingénieur. Elle est rattachée au Ministère de l'Économie et des Finances, chargée de l'industrie et du numérique. Elle est située dans le Nord de la France, partagée entre différents campus : la Cité Scientifique de l'Université de Lille (Villeneuve-d'Ascq, Métropole européenne de Lille), le site de Douai, le site de Valenciennes (géré par InGHenia [1] [archive]), le site de Dunkerque et le site d'Alençon (ISPA [archive]).
L'école est affiliée à l'Institut Mines-Télécom et à l'Université de Lille. Elle est membre de la Conférence des Grandes Ecoles et du Collegium des grandes écoles de Lille qui regroupe les huit grandes écoles publiques de la ville de Lille. La diversité des expertises et la complémentarité des écoles de l'Institut Mines-Télécom assurent à IMT Nord Europe sa place dans une stratégie de groupe pour répondre de manière systémique aux défis des grandes transformations du 21ème siècle : numérique, industrielles, énergétique, éducatives. L'école apporte ainsi son expertise aux travaux de l'Institut Mines-Télécom sur les questions de la ville intelligente, de la santé et de l'autonomie des personnes et de l'industrie du futur.
Description
Ce stage s’inscrit dans le domaine de l’apprentissage profond multi-modal. L’objectif principal est de développer un modèle robuste et performant capable d’aligner dynamiquement une séquence de gestes en 3D avec un texte correspondant par exemple à une ou plusieurs commandes textuelles [3]. Ce type de modèle est au cœur de nombreuses applications potentielles, notamment dans la domotique, la robotique interactive, la réalité virtuelle, le sport ou encore l’interaction homme-machine. Le défi principal réside dans la complexité des liens entre texte et gestes : un texte peut être interprétée de multiples façons et les gestes correspondants peuvent varier en fonction du contexte, de l’individu ou des particularites culturelles.
Dans le cadre de ce stage, l’approche privilégiée s’inspire des travaux réalisés sur CLIP (Contrastive Language-Image Pre-training) [2], en adaptant cette méthode à la multi-modalité gestes-textes. Elle repose sur la création d’un espace latent partagé dans lequel les représentations textuelles et gestuelles sont encodés en vecteurs denses et sont alignés à l’aide d’un apprentissage contrastif. Au niveau encodage, les modèles avancés de traitement du langage naturel tels que les transformers (BERT) seront exploités pour encoder les textes capturant leurs nuances sémantiques, tandis que des architectures comme les Spatial-Temporal Graph Convolutional Networks (ST-GCN) seront utilisées pour encoder les séquences de gestes en intégrant leurs caractéristiques spatiales et temporelles [1, 4]. L’alignement sera obtenu en maximisant la similarité entre les paires texte-gestes correctes et en minimisant celle des paires incorrectes, grâce à une fonction de perte contrastive adaptée.
Le stage commencera par une collecte et un prétraitement des données, en exploitant un dataset existant ou en construisant un nouveau corpus multi-modal contenant des paires texte - gestes (squelettes 3D). Ensuite, le développement et l’entraînement du modèle porteront sur la construction d’architectures avancées pour encoder le texte et les gestes, ainsi que sur l’optimisation d’une couche d’alignement basée sur une fonction de perte contrastive. Enfin, une évaluation approfondie permettra de tester la robustesse du modèle face à des variations contextuelles, d’évaluer sa précision et d’effectuer des comparaisons avec des approches de référence, tout en explorant des applications pratiques comme le contrôle domotique ou l’interaction en réalité virtuelle.
Les bibliothèques utilisées pendant le stage seront Pytorch Geometric ou DGL ainsi que Pytorch Metric Learning.
Références :
[1] O. Ikne, R. Slama, H. Saoudi, and H. Wannous. Spatio-temporal sparse graph convolution network
for hand gesture recognition. In 18th IEEE International Conference on Automatic Face and Gesture
Recognition, FG 2024, Istanbul, Turkey, May 27-31, 2024, pages 1–5. IEEE, 2024.
[2] A. Radford, J. W. Kim, C. Hallacy, A. Ramesh, G. Goh, S. Agarwal, G. Sastry, A. Askell, P. Mishkin,
J. Clark, G. Krueger, and I. Sutskever. Learning transferable visual models from natural language
supervision Proceedings of the 38 th International Conference on Machine Learning, PMLR 139, 2021.
[3] B. Jiang, X. Chen, W. Liu, J. Yu, G. Yu, and T. Chen. Motiongpt: Human motion as a foreign language.
Advances in Neural Information Processing Systems, 36, 2024.
[4] A. Zeghina, A. Leborgne, F. Le Ber, and A. Vacavant. Deep learning on spatiotemporal graphs: A
systematic review, methodological landscape, and research opportunities. Neurocomputing, 594:127861,
2024.
Profil
Le(la) candidat(e) devra être un(e) étudiant(e) M2 d'une école d'ingénieur ou d'une université française en Informatique, Image et/ou Vision ou Intelligence Artificielle avec les éléments suivants :
Connaissances des techniques de base de Machine Learning et expérience avec un framework existant comme sklearn, tensorflow, pytorch ou autre ;
Bon niveau de programmation en Python (concepts de programmation par objets maitrisé) ;
Fort intérêt par la vision par ordinateur, le traitement du langage naturel et les graphes.
Prise de fonction
Vous avez déjà un compte ?
Nouvel utilisateur ?
Vous souhaitez recevoir nos infolettres ?
Découvrez nos adhérents
TotalEnergies
MabDesign
SUEZ
Tecknowmetrix
Groupe AFNOR - Association française de normalisation
CASDEN
ADEME
CESI
ANRT
MabDesign
Institut Sup'biotech de Paris
Institut de Radioprotection et de Sureté Nucléaire - IRSN - Siège
ONERA - The French Aerospace Lab
Aérocentre, Pôle d'excellence régional
Laboratoire National de Métrologie et d'Essais - LNE
Généthon
PhDOOC
Nokia Bell Labs France
Ifremer