Où docteurs et entreprises se rencontrent
Menu
Connexion

Vous avez déjà un compte ?

Nouvel utilisateur ?

Modélisation et simulation de comportements de piétons en 3D basées sur l'intention dans un environnement d'interaction

ABG-128513 Sujet de Thèse
12/02/2025 Contrat doctoral
Université Gustave Eiffel
Gif-sur-Yvette - Ile-de-France - France
Modélisation et simulation de comportements de piétons en 3D basées sur l'intention dans un environnement d'interaction
  • Informatique
  • Numérique
  • Robotique
Cinématique de piétons 3D, réalité virtuelle, intelligence artificielle, intentions de comportement, systèmes multi-agents

Description du sujet

(Fr) La génération des agents avec comportements réalistes dans la réalité virtuelle (RV) est essentielle pour de nombreuses applications, par exemple, le test de sécurité routière par simulateurs. L'un des défis majeurs est de produire des comportements plausibles des agents piétons en 3D, en respectant le réalisme de l'interaction avec d'autres agents simulés ou/et des avatars jumeaux numériques (p.ex., des véhicules à conduite humaine), notamment dans un espace partagé (W. Wu et al., 2024). La plupart des systèmes d'animation humaine tentent d'utiliser des données de capture du mouvement (Mocap). Normalement, ils calculent les mouvements du corps entier d'un seul être humain et ne se prêtent pas à la simulation d'un groupe d'agents. D'autres travaux ont appliqué des données de capture « sans marqueur » (2D image ou vidéo) pour incarner des humains virtuels avec leurs poses et mouvements en 3D  (Desmarais et al., 2021). L'utilisation de ces données historiques pour reproduire de multiples avatars est limitée aux situations définies ou passives, et elle n'est pas adaptée aux nouvelles interactions émergentes dans un scénario en futur.

Par rapport aux travaux approfondis sur la synthèse des mouvements humains dans un environnement immersif de RV, la simulation des attitudes et des gestes des piétons lors de traverser la route est limitée, ce qui rend les interactions peu plausibles avec les conducteurs. Le piéton est à l'arrêt sur le bord de la route, le conducteur doit capter des indices pour anticiper le plus tôt possible le démarrage d'une traverse. Le facteur des intentions de piétons est alors important pour affiner la prédiction comportementale lors des interactions (Rasouli et al., 2019; Zhang & Berger, 2023). C'est pour cela qu'un grand nombre de travaux sur les véhicules autonomes visent à utiliser l'intelligence embarquée pour détecter les intentions des usagers vulnérables le plus tôt possible (Gesnouin, 2022). Du côté des piétons, les modèles cognitifs neuroscientifiques à la prise de décision ont fait des progrès importants. Un travail récent a appliqué l'accumulation de preuves sur le contexte routier, telles que les indices perceptifs des écarts de temps et de distance, l'accélération ou la décélération de l’automobile qui arrive, pour modéliser la décision des piétons de traverser la route (Pekkanen et al., 2022).

La modélisation de la locomotion humaine en 3D nécessite un contrôle complexe et coopératif entre plusieurs branches et segments du corps selon des principes biomécaniques. Des travaux antérieurs portant sur la modélisation des contraintes de cinématique et de stabilité se concentrent sur des scenarios non interactifs ou sur la synthèse de mouvements de foule avec des trajectoires sans collision (Narang et al., 2018). Récemment, un travail inspirant prend en compte les instructions textuelles des objets proches et les « intentions » associées des personnages virtuels afin de produire diverses séquences de mouvements du corps entier (Ghosh et al., 2023). Au total, il existe peu de recherches sur la modélisation et la simulation des mouvements du corps de piétons dans un environnement virtuel, en tenant compte de leurs perceptions et de leurs intentions de traverses de route (Camara et al., 2021).

L'objectif de la recherche est de concevoir des modèles comportementaux de piétons en 3D basés sur leurs intentions de traverser la route dans un environnement virtuel. Les modèles sont capables de simuler leurs attitudes et gestes, et en particulier ceux qui précèdent le mouvement avec les détails des gestes de démarrage ou d'arrêt de la marche, de montée ou de descente du trottoir, d'utilisation du téléphone, etc. Les sources de données sur des types d'intention des piétons et sur leurs poses/mouvements en 3D seront utilisées, p.ex., CREATTIVE3D (H.-Y. Wu et al., 2024). Une approche hybride est recommandée, dans laquelle la méthode d'émergence est combinée avec des algorithmes d'apprentissage profond pour réaliser l'animation des agents articulés. Dans la quelle, on suive les procédures de perception, d'intention, de prise de décision et d'action, afin de finaliser la prédiction des poses ou des mouvements dans un espace spatiotemporel.

---------------------------------------------------------------------------------------------------------------------------------------------------------

(En) The generation of realistic movements and behavior of human-like agents in virtual reality is important for many applications, such as road safety tests with simulators. One of the major challenges is to generate plausible pedestrian behavior for each virtual agent, meeting the naturalness of interaction with other simulated agents and digital-twin avatars (e.g., human-driven vehicles) in a scene of urban shared space (W. Wu et al., 2024). Most human animation systems tend to use sensing motion capture (Mocap) data, which is mainly used to compute the full-body movements of a single human and is not well suited to simulate a group of human-like agents. Other extensive work applied markerless motion capture data (image or video) to embody virtual human with 3d poses and motions (Desmarais et al., 2021). Using these historical datasets to reproduce multiple virtual avatars is limited to definite and passive situations and is not suitable for fresh interactions in future urban scenarios.

Compared to extensive work on human motion synthesis in immersive VR environments, the simulation of pedestrians’ attitudes and gestures for road crossing is limited, which causes implausible interactions with vehicles. The pedestrian is at a standstill on the road curbside, the driver must pick up clues to anticipate as soon as possible the start of a road crossing. The factor of pedestrians’ intentions is important for refining the behavioral prediction during interactions (Rasouli et al., 2019; Zhang & Berger, 2023). That is why much work on autonomous vehicles (AV) aims to use in-vehicle intelligence to detect the intentions of vulnerable road users as early as possible (Gesnouin, 2022). From the pedestrian’s perspective, there are major advances in cognitive neuroscience models of human decision-making. A recent work applied the accumulation of evidences on the road context, such as perceptual cues of time and distance gaps, acceleration or deceleration of oncoming vehicle traffic, to modeling pedestrian’s road-crossing decisions (Pekkanen et al., 2022).

To model 3D human locomotion for road crossing, it requires complex control and coordination between multiple limb and body segments in bio-mechanical principles. Prior work on modeling kinematic and stability constraints mainly focuses on non-interactive applications and human motion synthesis with collision-free trajectories (Narang et al., 2018). Currently, an inspiring work takes the textual instructions of nearby objects and the associated “intentions” of virtual characters as input and outputs diverse sequences of full-body motions (Ghosh et al., 2023). Overall, there is limited research on modeling and simulating pedestrian’s full-body movements in a virtual environment taking into account their perceptions and crossing intentions (Camara et al., 2021).

The research objective is to design 3D digital pedestrian behavioral models based on their intentions of road crossing in a virtual world, and the models are capable of simulating the pedestrians’ attitudes and gestures, and in particular those that precede movement with the details of gestures of start or stop walking, curbside going up or down, telephone use, etc. The data sources of pedestrian road-crossing intention types and the human 3d pose/motion datasets will be applied, e.g., CREATTIVE3D (H.-Y. Wu et al., 2024). A hybrid approach is suggested, where the emergence method is combined with deep learning algorithms to realize the articulated agents’ animation following the typical procedures of perception, intention, decision-making and action, to achieve their 3D pose and motion prediction. 

References

Camara, F., Bellotto, N., Cosar, S., Weber, F., Nathanael, D., Althoff, M., Wu, J., Ruenz, J., Dietrich, A., Markkula, G., Schieben, A., Tango, F., Merat, N., & Fox, C. (2021). Pedestrian Models for Autonomous Driving Part II: High-Level Models of Human Behavior. IEEE Transactions on Intelligent Transportation Systems, 22(9), 5453–5472. https://doi.org/10.1109/TITS.2020.3006767

Desmarais, Y., Mottet, D., Slangen, P., & Montesinos, P. (2021). A review of 3D human pose estimation algorithms for markerless motion capture. Computer Vision and Image Understanding, 212, 103275. https://doi.org/10.1016/j.cviu.2021.103275

Gesnouin, J. (2022). Analysis of pedestrian movements and gestures using an on-board camera to predict their intentions [Université Paris Sciences et Lettres]. https://pastel.hal.science/tel-03813520v1

Ghosh, A., Dabral, R., Golyanik, V., Theobalt, C., & Slusallek, P. (2023). IMoS: Intent‐Driven Full‐Body Motion Synthesis for Human‐Object Interactions. Computer Graphics Forum, 42(2), 1–12. https://doi.org/10.1111/cgf.14739

Narang, S., Best, A., & Manocha, D. (2018). Simulating Movement Interactions Between Avatars & Agents in Virtual Worlds Using Human Motion Constraints. 2018 IEEE Conference on Virtual Reality and 3D User Interfaces (VR), 9–16. https://doi.org/10.1109/VR.2018.8446152

Pekkanen, J., Giles, O. T., Lee, Y. M., Madigan, R., Daimon, T., Merat, N., & Markkula, G. (2022). Variable-Drift Diffusion Models of Pedestrian Road-Crossing Decisions. Computational Brain & Behavior, 5(1), 60–80. https://doi.org/10.1007/s42113-021-00116-z

Rasouli, A., Kotseruba, I., Kunic, T., & Tsotsos, J. (2019). PIE: A Large-Scale Dataset and Models for Pedestrian Intention Estimation and Trajectory Prediction. 2019 IEEE/CVF International Conference on Computer Vision (ICCV), 6261–6270. https://doi.org/10.1109/ICCV.2019.00636

Wu, H.-Y., Robert, F., Sassatelli, L., Winckler, M., Gros, A., & Ramanoël, S. (2024). CREATTIVE3D multimodal dataset of user behavior in virtual reality. Zenodo. https://doi.org/10.5281/zenodo.14514163

Wu, W., He, H., Wang, Y., Duan, C., He, J., Liu, Z., Li, Q., & Zhou, B. (2024). Metaurban: A simulation platform for embodied ai in urban spaces.

Zhang, C., & Berger, C. (2023). Pedestrian Behavior Prediction Using Deep Learning Methods for Urban Scenarios: A Review. IEEE Transactions on Intelligent Transportation Systems, 24(10), 10279–10301. https://doi.org/10.1109/TITS.2023.3281393

Nature du financement

Contrat doctoral

Précisions sur le financement

Présentation établissement et labo d'accueil

Université Gustave Eiffel

Le SATIE est un laboratoire en sciences appliquées, qui se consacre aux systèmes et applications des technologies de l'information et de l'énergie. Ses recherches sont fortement connectées à des enjeux sociétaux comme la sécurité des systèmes industriels ainsi que des personnes, comme également la santé, en particulier au travers de travaux sur les systèmes de capteurs et de traitement du signal, ou sur les véhicules autonomes. Le développement durable est également au coeur de ses préoccupations, avec le développement de solutions d'intégration des dispositifs électroniques de puissance, ou celui de systèmes de conversion d'énergie propres.

Le SATIE est avec ses tutelles académiques : ENS Paris-Saclay, Université Paris-Saclay, Université Gustave Eiffel, Cergy Paris Université, CNAM Paris, CNRS. Plus d'info: http://www.satie.ens-cachan.fr/

Etablissement délivrant le doctorat

Université Paris-Saclay

Profil du candidat

Master 2 ou Ingénieur dans la spécialité informatique ou automatique. Compétences en programmation informatique et le traitement des données. Connaissances de l'intelligence artificielle, en particulier de l'apprentissage profond. Intérêts pour la réalité virtuelle et les comportements humains.

Master 2 or Engineer in computer science or automation. Computer programming and data processing skills. Knowledge of artificial intelligence, particularly deep learning. Interests in virtual reality and human behavior modeling.

18/04/2025
Partager via
Postuler
Fermer

Vous avez déjà un compte ?

Nouvel utilisateur ?