Large Language Models (LLMs) pour la programmation automatique : utilisation des chemins de l'arbre syntaxique (path contexts) dans Code2Vec
ABG-127190 | Stage master 2 / Ingénieur | 5 mois | +/- 639 euro |
25/11/2024 |
- Informatique
Établissement recruteur
Le Laboratoire d’Informatique Signal et Image de la Côte d’Opale LISIC développe des activités de recherche dans le domaine des Sciences et Technologies de l’Information et de la Communication.
Il est composé de quatre équipes de recherche :
- Ingénierie des connaissances
- Optimisation Simulation MOdeliSation Evolutionnaire
- Images et Apprentissage
- Systèmes de Perception et Fusion d’Informations
Description
Lorsqu'on applique les grands modèles de langage (LLMs) à l'analyse et la génération de code informatique, plusieurs approches sont proposées, notamment soit en partant directement du texte du programme comme par exemple CodeBert, soit en se référant à l'arbre syntaxique abstrait (AST - abstract syntax tree) issu de la grammaire du langage considéré, comme Code2Vec. Les travaux de la thèse de O. Belmoudden menés dans l'équipe montrent que l'utilisation par Code2Vec de chemins (path contexts) dans l'AST permet d'obtenir des propriétés sémantiques plus riches, moins liées à la simple syntaxe que CodeBert. Toutefois le codage des path contexts de Code2Vec est améliorable comme montré par Sun et al. (voir [1]). Dans ce stage on s'intéressera d'abord à répliquer les travaux de [1], puis on testera des pistes d'amélioration, comme la sélection des path contexts à retenir selon leur taille ou selon la présence d'éléments syntaxiques particuliers.
Profil
Le (La) candidat(e) devra être en dernière année de Master ou d’école d’ingénieur, spécialisé(e) en informatique, et posséder des connaissances scientifiques et techniques en apprentissage automatique et programmation.
Prise de fonction
Vous avez déjà un compte ?
Nouvel utilisateur ?
Vous souhaitez recevoir nos infolettres ?
Découvrez nos adhérents
- CASDEN
- Groupe AFNOR - Association française de normalisation
- Aérocentre, Pôle d'excellence régional
- ADEME
- MabDesign
- CESI
- Tecknowmetrix
- PhDOOC
- ANRT
- Institut Sup'biotech de Paris
- ONERA - The French Aerospace Lab
- SUEZ
- Nokia Bell Labs France
- Institut de Radioprotection et de Sureté Nucléaire - IRSN - Siège
- Généthon
- MabDesign
- Laboratoire National de Métrologie et d'Essais - LNE
- TotalEnergies
- Ifremer