Large Language Models (LLMs) pour la programmation automatique : utilisation des chemins de l'arbre syntaxique (path contexts) dans Code2Vec
ABG-127190 | Master internship | 5 months | +/- 639 euro |
2024-11-25 |
- Computer science
Employer organisation
Le Laboratoire d’Informatique Signal et Image de la Côte d’Opale LISIC développe des activités de recherche dans le domaine des Sciences et Technologies de l’Information et de la Communication.
Il est composé de quatre équipes de recherche :
- Ingénierie des connaissances
- Optimisation Simulation MOdeliSation Evolutionnaire
- Images et Apprentissage
- Systèmes de Perception et Fusion d’Informations
Description
Lorsqu'on applique les grands modèles de langage (LLMs) à l'analyse et la génération de code informatique, plusieurs approches sont proposées, notamment soit en partant directement du texte du programme comme par exemple CodeBert, soit en se référant à l'arbre syntaxique abstrait (AST - abstract syntax tree) issu de la grammaire du langage considéré, comme Code2Vec. Les travaux de la thèse de O. Belmoudden menés dans l'équipe montrent que l'utilisation par Code2Vec de chemins (path contexts) dans l'AST permet d'obtenir des propriétés sémantiques plus riches, moins liées à la simple syntaxe que CodeBert. Toutefois le codage des path contexts de Code2Vec est améliorable comme montré par Sun et al. (voir [1]). Dans ce stage on s'intéressera d'abord à répliquer les travaux de [1], puis on testera des pistes d'amélioration, comme la sélection des path contexts à retenir selon leur taille ou selon la présence d'éléments syntaxiques particuliers.
Profile
Le (La) candidat(e) devra être en dernière année de Master ou d’école d’ingénieur, spécialisé(e) en informatique, et posséder des connaissances scientifiques et techniques en apprentissage automatique et programmation.
Starting date
Vous avez déjà un compte ?
Nouvel utilisateur ?
Get ABG’s monthly newsletters including news, job offers, grants & fellowships and a selection of relevant events…
Discover our members
- Laboratoire National de Métrologie et d'Essais - LNE
- PhDOOC
- Aérocentre, Pôle d'excellence régional
- Nokia Bell Labs France
- SUEZ
- ONERA - The French Aerospace Lab
- MabDesign
- Généthon
- ANRT
- ADEME
- Tecknowmetrix
- CASDEN
- MabDesign
- Institut Sup'biotech de Paris
- TotalEnergies
- CESI
- Ifremer
- Groupe AFNOR - Association française de normalisation
- Institut de Radioprotection et de Sureté Nucléaire - IRSN - Siège