Recrutement haut de gamme : Alibaba DAMO Academy recrute des ingénieurs en algorithmes de stratégie comportementale (P7-P9). ----- Académie DAMO - Ingénieur en algorithmes de stratégie comportementale - Intelligence incarnée, Groupe Alibaba, Hangzhou Description du poste : Participer à la recherche et au développement des capacités comportementales et motrices des robots intelligents incarnés, notamment : 1. Développement de l'algorithme de base BFM : Participation à la construction et à l'optimisation d'un cadre d'apprentissage par renforcement non supervisé basé sur la représentation avant-arrière / caractéristique successeur ; Recherche sur l'apprentissage de l'espace latent comportemental pour soutenir une stratégie de contrôle unifiée pour les conditions de récompense/objectif/mouvement ; Explorez des directions de pointe telles que la généralisation de tâches zéro-shot/peu d'exemples, le réglage de l'espace latent, le contrôle adaptatif et la généralisation d'ontologies matérielles ; 2. Recherche sur les méthodes d'apprentissage par imitation et d'apprentissage contrastif : imitation de mouvement, transfert de style et fusion de démonstrations basées sur des données de capture de mouvement/téléopération/vidéo ; Cette étude démontre la régularisation, l'appariement distribué et les mécanismes de récompense basés sur un discriminateur. 3. Formation et évaluation de la stratégie d'apprentissage par renforcement : Réaliser une formation parallèle à grande échelle dans des environnements tels que Mujoco / Isaac Gym / OmniIsaacLab ; Optimiser la stabilité et l'efficacité d'échantillonnage des algorithmes RL hors stratégie/non supervisés ; Construire un pipeline de simulation à réalité (y compris la randomisation du domaine et l'adaptation latente) ; 4. Intégration du modèle de stratégie et validation du système : Intégrer la stratégie entraînée dans une plateforme robotique réelle (manipulateur humanoïde/mobile) pour évaluation ; Analyser la structure sémantique et l'interprétabilité de l'espace latent de la stratégie ; Profil requis pour le poste : Master ou diplôme supérieur en informatique, automatisation, intelligence artificielle, apprentissage automatique, robotique ou domaines connexes ; Possède une expérience de projet ou de publication dans des domaines tels que l'apprentissage par renforcement, l'apprentissage par imitation, l'apprentissage de stratégies multitâches ou la modélisation du monde ; Compétences techniques requises : Familiarité avec la mise en œuvre d'algorithmes d'apprentissage par renforcement (SAC, TD) ; 3. L'un des éléments suivants : PPO, DDPG, DIAYN, Dreamer, Diffusion Policy, etc. Familiarisé avec les méthodes de modélisation comportementale telles que l'apprentissage par imitation, le clonage comportemental et l'apprentissage par renforcement inverse ; Possède une expérience dans la mise en œuvre ou l'amélioration indépendante de cadres d'entraînement RL/IL (PyTorch/JAX) ; Connaissance des plateformes de simulation (Mujoco / Isaac Gym / Bullet / Brax, etc.) ; Capable de lire des articles universitaires en anglais et de reproduire les résultats de la recherche ; Points bonus : Participation à des recherches ou à des concours liés à l’intelligence incarnée/humanoïde/manipulation ; Possède une expérience pertinente en matière de représentation avant-arrière, de caractéristique successeur, d'apprentissage par renforcement latent et de modèle du monde. Familiarisé avec les applications de l'apprentissage par transformateur/diffusion/représentation dans le domaine du contrôle ; Ils ont l'expérience du déploiement de l'apprentissage par renforcement sur de vrais robots ; ------ Pour plus de détails sur l'inscription, veuillez consulter : https://t.co/SgMGfxLGyw (recherche).
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.