Where PhDs and companies meet
Menu
Login

Apprentissage de l'influence causale sur l'environnement pour distinguer les changements causés par nos propres actions de ceux qui ne le sont pas: des mécanismes fondamentaux aux implications pour les troubles obsessionnels compulsifs // Learning causal

ABG-131543
ADUM-65575
Thesis topic
2025-04-29 Public funding alone (i.e. government, region, European, international organization research grant)
Université Grenoble Alpes
La Tronche Cedex - Auvergne-Rhône-Alpes - France
Apprentissage de l'influence causale sur l'environnement pour distinguer les changements causés par nos propres actions de ceux qui ne le sont pas: des mécanismes fondamentaux aux implications pour les troubles obsessionnels compulsifs // Learning causal
  • Biology
Apprentissage, Psychiatrie computationelle
Reinforcement learning, Computational psychiatry

Topic description

Les patients souffrant de troubles obsessionnels compulsifs (TOC) ont des pensées intrusives (obsessions) et/ou des comportements répétitifs (compulsions). Les compulsions apportent généralement un soulagement temporaire à la détresse et à l'anxiété associées aux obsessions. Bien que les compulsions entraînent des conséquences négatives à long terme - bien pires que l'expérience d'anxiété généralement passagère - les patients sont incapables de résister à leur exécution. Le choix d'actions qui favorisent des résultats aversifs futurs est un exemple clair d'altération de la prise de décision. Les patients souffrant de TOC déclarent également souffrir d'indécision et d'une prise de décision trop prudente (c'est-à-dire qu'ils ont du mal à faire un choix même lorsque les preuves accumulées indiquent clairement qu'il existe une option plus avantageuse). Il est donc essentiel de comprendre les problèmes sous-jacents à la prise de décision chez les patients souffrant de TOC.
L'hypothèse qui sera testée dans cette thèse est que les troubles obsessionnels compulsifs pourraient résulter d'une politique d'apprentissage par renforcement déficiente [1]. Une politique de décision aberrante pourrait conduire à un renforcement positif exagéré ou à un renforcement négatif atténué, ce qui pourrait expliquer l'apparition de comportements répétitifs. Certaines données indiquent que les patients souffrant de TOC accordent moins d'importance aux conséquences de leurs décisions [2,3]. Les altérations fonctionnelles observées dans le cortex orbitofrontal des patients [4] - qui est impliqué dans l'attribution de crédits [5] - soutiennent également l'idée que l'apprentissage des contingences entre les actions et leurs conséquences est altéré chez ces patients. En outre, le TOC est de plus en plus considéré comme un trouble du doute et de l'incertitude [6], ce qui suggère que les patients peuvent être particulièrement gênés dans la mise à jour des valeurs d'action lorsque les associations action-résultat changent, comme c'est le cas dans les environnements volatiles. L'objectif de ce projet est donc de déterminer si les personnes souffrant de TOC ont des difficultés à s'adapter (c'est-à-dire à mettre à jour les valeurs d'action) à des environnements où les associations action-résultat changent.
À cette fin, des patients atteints de TOC et des témoins sains , appariés pour l'âge, le sexe et le niveau d'éducation, participeront à une tâche d'apprentissage par renforcement [7]. Dans cette tâche, ils apprendront des associations action-résultat par le biais d'un renforcement positif ou négatif. Le paradigme comprendra des inversions dans les relations action-résultat afin d'investiguer comment les participants s'adapteront à de tels changements occasionnels dans l'environnement en ajustant leurs choix. Les choix des participants seront analysés d'une part à l'aide d'une approche sans modélisation et dans un second temps à l'aide des outils contemporains de modélisation computationnelle qui permettent de faire des inférences plus fines sur les mécanismes sous-jacents. Des modèles d'apprentissage par renforcement et d'apprentissage contrefactuel seront testés afin de voir s'ils permettent de rendre compte des choix des participants. Dans l'apprentissage par renforcement, l'agent apprend des actions et des résultats par l'exposition répétée à des événements, en renforçant les actions qui ont réussi dans le passé. Dans l'apprentissage contrefactuel, l'agent apprend en simulant ce qui se serait passé si une action différente avait été entreprise. La comparaison des modèles nous aidera à comprendre la stratégie d'apprentissage que les participants utilisent pour faire des choix. On sait également que les décisions exploratoires sont associées à une plus grande dilatation de la pupille que les stratégies d'exploitation [8]. Par conséquent, nous analyserons également le comportement de choix des participants à l'aide de données pupillométriques durant ce paradigme.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Patients suffering from obsessive-compulsive disorder (OCD) have intrusive thoughts (obsessions) and/or repetitive behaviours (compulsions). Compulsions usually provide temporary relief from the distress and anxiety associated with obsessions. Although compulsions have long-term negative consequences - far worse than the generally transient experience of anxiety - patients are unable to resist performing them. Choosing actions that favour future aversive outcomes is a clear example of impaired decision-making. OCD patients also report suffering from indecision and over-cautious decision-making (i.e. they find it difficult to make a choice even when the accumulated evidence clearly indicates that there is a more advantageous option). It is therefore essential to understand the problems underlying decision-making in OCD patients. The hypothesis that will be tested in this thesis is that obsessive-compulsive disorders could result from a deficient reinforcement learning policy [1]. An aberrant decision policy could lead to exaggerated positive reinforcement or attenuated negative reinforcement, which could explain the appearance of repetitive behaviours. There is some evidence that OCD patients attach less importance to the consequences of their decisions [2,3]. Functional alterations observed in patients' orbitofrontal cortex [4] - which is involved in credit allocation [5] - also support the idea that learning the contingencies between actions and their consequences is impaired in these patients. Furthermore, OCD is increasingly regarded as a disorder of doubt and uncertainty [6], suggesting that patients may be particularly impaired in updating action values when action-outcome associations change, as is the case in volatile environments.
To this end, OCD patients and healthy controls, matched for age, gender and education, will participate in a reinforcement learning task [7]. In this task, they will learn action-outcome associations through positive or negative reinforcement. The paradigm will include reversals in action-outcome relationships to investigate how participants will adapt to such occasional changes in the environment by adjusting their choices. Participants' choices will be analysed firstly using a non-modelling approach and secondly using contemporary computational modelling tools that allow finer-grained inferences to be made about the underlying mechanisms. Models of reinforcement learning and counterfactual learning will be tested to see whether they can account for participants' choices. In reinforcement learning, the agent learns about actions and outcomes through repeated exposure to events, reinforcing actions that have been successful in the past. In counterfactual learning, the agent learns by simulating what would have happened if a different action had been taken. Comparing the models will help us to understand the learning strategy that participants use to make choices. It is also known that exploratory decisions are associated with greater pupil dilation than exploitative strategies [8]. Therefore, we will also analyse participants' choice behaviour using pupillometric data during this paradigm.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Début de la thèse : 01/10/2025

Funding category

Public funding alone (i.e. government, region, European, international organization research grant)

Funding further details

Concours pour un contrat doctoral

Presentation of host institution and host laboratory

Université Grenoble Alpes

Institution awarding doctoral degree

Université Grenoble Alpes

Graduate school

216 ISCE - Ingénierie pour la Santé la Cognition et l'Environnement

Candidate's profile

Le candidat idéal devra maîtriser les outils permettant d'élaborer un paradigme d'apprentissage par renforcement (idéalement sous matlab avec Psychotoolbox) et aura une formation solide en neuropsychologie (neurosciences, biologie, psychologie ou profil ingénieur, le sujet étant multi-disciplinaire).
The ideal candidate will have mastered the tools needed to develop a reinforcement learning paradigm (ideally using matlab with Psychotoolbox) and will have a solid background in neuropsychology (neurosciences, biology, psychology or an engineering background, as the subject is multi-disciplinary).
2025-05-23
Partager via
Apply
Close

Vous avez déjà un compte ?

Nouvel utilisateur ?