高階招募:阿里達摩院招行為策略演算法工程師(P7-P9) ----- 達摩院-行為策略演算法工程師-具身智慧阿里集團· 杭州 職位描述參與具身智慧機器人行為動作能力研發,包括但不限於:; 1. BFM 核心演算法研發:參與建構與優化基於forward-backward representation / successor feature 的無監督強化學習架構; 研究多任務行為潛空間學習(Behavioral Latent Space Learning),支援reward / goal / motion 條件的統一控制策略; 探索zero-shot / few-shot 任務泛化、latent-space tuning、自適應控制、硬體本體泛化等前緣方向; 2. 模仿學習與對比學習方法研究:基於MoCap / tele-operation / 視訊資料進行動作模仿、風格遷移與示範融合; 研究示範正規化(demonstration regularization)、分佈匹配與判別器獎勵(discriminator-based reward)機制; 3. 強化學習策略訓練與評測:在Mujoco / Isaac Gym / OmniIsaacLab 等環境中實現大規模平行訓練; 優化off-policy / unsupervised RL 演算法的穩定性與樣本效率; 建構sim-to-real pipeline(包括domain randomization、latent adaptation); 4. 策略-模型整合與系統驗證:將訓練好的策略整合到實際機器人平台(humanoid / mobile manipulator)中進行評測; 分析策略潛空間的語意結構及可解釋性; 職位要求必備背景:電腦、自動化、人工智慧、機器學習、機器人學等相關專業,碩士及以上學歷; 在強化學習、模仿學習、多任務策略學習或世界模型等方向有專案或論文經驗; 技術能力要求:熟悉強化學習演算法實現(SAC、TD; 3、PPO、DDPG、DIAYN、Dreamer、Diffusion Policy 等任一類); 熟悉模仿學習/ 行為複製/ 逆強化學習等行為建模方法; 有獨立實現或改進RL / IL 訓練框架的經驗(PyTorch / JAX); 熟悉模擬平台(Mujoco / Isaac Gym / Bullet / Brax 等); 能閱讀英文論文並復現研究成果; 加分:參與過具身智能/ humanoid / manipulation 相關研究或比賽; 具備forward-backward representation / successor feature / latent RL / world model 相關經驗; 熟悉transformer / diffusion / representation learning 在控制領域的應用; 有強化學習在真實機器人上部署的經驗; ------ 報名地址詳見:https://t.co/SgMGfxLGyw 搜尋。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。