고급 인력 채용: Alibaba DAMO Academy에서 행동 전략 알고리즘 엔지니어(P7-P9)를 모집합니다. ----- DAMO Academy - 행동 전략 알고리즘 엔지니어 - 알리바바 그룹, 항저우 체현 지능 직무 설명: 다음을 포함하되 이에 국한되지 않는, 구현된 지능형 로봇의 행동 및 운동 기능에 대한 연구 및 개발에 참여합니다. 1. BFM 핵심 알고리즘 개발: 전방-후방 표현/후속자 기능 기반 비지도 강화 학습 프레임워크 구축 및 최적화에 참여했습니다. 보상/목표/동작 조건에 대한 통합 제어 전략을 지원하기 위한 행동 잠재 공간 학습에 관한 연구 제로샷/퓨샷 작업 일반화, 잠재 공간 튜닝, 적응 제어, 하드웨어 온톨로지 일반화와 같은 최첨단 방향을 탐색합니다. 2. 모방 학습 및 대조 학습 방법 연구: 모션 모방, 스타일 전이, MoCap/원격 조작/비디오 데이터 기반 시연 융합 이 연구에서는 정규화, 분산 매칭, 판별자 기반 보상 메커니즘을 보여줍니다. 3. 강화학습 전략 훈련 및 평가: Mujoco/Isaac Gym/OmniIsaacLab 등의 환경에서 대규모 병렬 훈련을 달성합니다. 오프 정책/비지도 학습 RL 알고리즘의 안정성과 샘플 효율성을 최적화합니다. 시뮬레이션-실제 파이프라인을 구축합니다(도메인 무작위화 및 잠재 적응 포함). 4. 전략 모델 통합 및 시스템 검증: 훈련된 전략을 평가를 위해 실제 로봇 플랫폼(인간형/모바일 조작기)에 통합합니다. 전략 잠재 공간의 의미 구조와 해석 가능성을 분석합니다. 해당 직책에 필요한 배경: 컴퓨터 과학, 자동화, 인공지능, 머신 러닝, 로봇 공학 또는 관련 분야 석사 학위 이상 강화 학습, 모방 학습, 멀티태스킹 전략 학습 또는 세계 모델링과 같은 분야에서 프로젝트 또는 논문 경험이 있습니다. 필요한 기술적 기술: 강화 학습 알고리즘 구현(SAC, TD)에 대한 익숙함 3. 다음 중 하나: PPO, DDPG, DIAYN, Dreamer, Diffusion Policy 등 모방 학습, 행동 복제, 역 강화 학습과 같은 행동 모델링 방법에 익숙함 RL/IL 훈련 프레임워크(PyTorch/JAX)를 독립적으로 구현하거나 개선한 경험이 있습니다. 시뮬레이션 플랫폼(Mujoco/Isaac Gym/Bullet/Brax 등)에 익숙함 영어 학술 논문을 읽고 연구 결과를 재현할 수 있음 보너스 포인트: 체현된 지능/인간형/조작과 관련된 연구 또는 경쟁에 참여 전방-후방 표현, 후속 기능, 잠재 RL 및 세계 모델 분야에서 관련 경험을 보유하고 있습니다. 제어 분야에서 변압기/확산/표현 학습의 응용 분야에 익숙함 그들은 실제 로봇에 강화 학습을 적용한 경험이 있습니다. ------ 등록에 대한 자세한 내용은 https://t.co/SgMGfxLGyw(검색)에서 확인하세요.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.