ハイエンド採用:アリババDAMOアカデミーは、行動戦略アルゴリズムエンジニア(P7-P9)を募集しています。 ----- DAMOアカデミー - 行動戦略アルゴリズムエンジニア - 具体化された知能 Alibaba Group、杭州 職務内容: 具現化された知能ロボットの行動および運動能力の研究開発に参加します。これには以下が含まれますが、これらに限定されません。 1. BFMコアアルゴリズム開発:前方後方表現/後続特徴に基づく教師なし強化学習フレームワークの構築と最適化に参加しました。 報酬/目標/動作条件の統一された制御戦略をサポートするための行動潜在空間学習の研究。 ゼロショット/少数ショットタスクの一般化、潜在空間チューニング、適応制御、ハードウェアオントロジーの一般化などの最先端の方向性を探ります。 2. 模倣学習と対照学習法の研究:モーションキャプチャ/遠隔操作/ビデオデータに基づく動作模倣、スタイル転送、デモンストレーション融合。 この研究では、正規化、分散マッチング、および識別器ベースの報酬メカニズムを実証します。 3.強化学習戦略のトレーニングと評価:Mujoco / Isaac Gym / OmniIsaacLabなどの環境で大規模な並列トレーニングを実現します。 オフポリシー/教師なし RL アルゴリズムの安定性とサンプル効率を最適化します。 シミュレーションから現実へのパイプラインを構築する(ドメインのランダム化と潜在的適応を含む)。 4. 戦略モデルの統合とシステム検証: トレーニング済みの戦略を実際のロボット プラットフォーム (ヒューマノイド/モバイル マニピュレーター) に統合して評価します。 戦略潜在空間の意味構造と解釈可能性を分析する。 この職に求められる経歴: コンピューターサイエンス、オートメーション、人工知能、機械学習、ロボット工学または関連分野で修士号以上を取得していること。 強化学習、模倣学習、マルチタスク戦略学習、世界モデリングなどの分野でプロジェクトまたは論文の経験がある。 必要な技術スキル: 強化学習アルゴリズムの実装 (SAC、TD) に関する知識。 3. PPO、DDPG、DIAYN、Dreamer、Diffusion Policy などのいずれか。 模倣学習、行動クローン、逆強化学習などの行動モデリング手法に精通している。 RL/IL トレーニング フレームワーク (PyTorch/JAX) を独自に実装または改善した経験があること。 シミュレーション プラットフォーム (Mujoco / Isaac Gym / Bullet / Brax など) に精通していること。 英語の学術論文を読み、研究結果を再現することができる。 ボーナスポイント: 具現化された知能/ヒューマノイド/操作に関連する研究やコンテストへの参加。 前方-後方表現、後続特徴、潜在強化学習、世界モデルに関する関連経験を有します。 制御分野におけるトランスフォーマー/拡散/表現学習の応用に精通している。 実際のロボットに強化学習を導入した経験があります。 ------ 登録の詳細については、https://t.co/SgMGfxLGyw(検索)をご覧ください。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。