Reclutamiento de alto nivel: Alibaba DAMO Academy está reclutando ingenieros de algoritmos de estrategia de comportamiento (P7-P9). ----- Academia DAMO - Ingeniero de algoritmos de estrategia de comportamiento - Inteligencia incorporada Alibaba Group, Hangzhou Descripción del puesto: Participar en la investigación y el desarrollo de capacidades motoras y conductuales de robots inteligentes encarnados, que incluyen, entre otros: 1. Desarrollo del algoritmo central de BFM: Participó en la construcción y optimización de un marco de aprendizaje de refuerzo no supervisado basado en la representación hacia adelante y hacia atrás / característica sucesora; Investigación sobre el aprendizaje del espacio latente conductual para apoyar una estrategia de control unificada para las condiciones de recompensa/objetivo/movimiento; Explorar direcciones de vanguardia como la generalización de tareas de cero disparos/pocos disparos, el ajuste del espacio latente, el control adaptativo y la generalización de la ontología de hardware; 2. Investigación sobre métodos de aprendizaje por imitación y aprendizaje contrastivo: imitación de movimiento, transferencia de estilo y fusión de demostraciones basadas en datos de MoCap/Teleoperación/Video; Este estudio demuestra regularización, coincidencia distribuida y mecanismos de recompensa basados en discriminadores. 3. Entrenamiento y evaluación de estrategias de aprendizaje de refuerzo: Lograr entrenamiento paralelo a gran escala en entornos como Mujoco / Isaac Gym / OmniIsaacLab; Optimizar la estabilidad y la eficiencia de la muestra de algoritmos de aprendizaje automático no supervisados/fuera de política; Construir una tubería de simulación a realidad (incluyendo aleatorización de dominio y adaptación latente); 4. Integración de modelo de estrategia y validación del sistema: Integrar la estrategia entrenada en una plataforma robótica real (manipulador humanoide/móvil) para su evaluación; Analizar la estructura semántica y la interpretabilidad del espacio latente de la estrategia; Antecedentes requeridos para el puesto: Maestría o superior en Ciencias de la Computación, Automatización, Inteligencia Artificial, Aprendizaje Automático, Robótica o campos relacionados; Tiene experiencia en proyectos o artículos en áreas como aprendizaje de refuerzo, aprendizaje por imitación, aprendizaje de estrategias multitarea o modelado del mundo; Habilidades técnicas requeridas: Familiaridad con la implementación de algoritmos de aprendizaje de refuerzo (SAC, TD); 3. Cualquiera de los siguientes: PPO, DDPG, DIAYN, Dreamer, Política de Difusión, etc. Familiarizado con métodos de modelado de comportamiento como el aprendizaje por imitación, la clonación de comportamiento y el aprendizaje por refuerzo inverso; Tiene experiencia en la implementación o mejora independiente de marcos de entrenamiento RL/IL (PyTorch/JAX); Familiarizado con plataformas de simulación (Mujoco / Isaac Gym / Bullet / Brax, etc.); Capaz de leer artículos académicos en inglés y reproducir resultados de investigación; Puntos extra: Participación en investigaciones o competiciones relacionadas con inteligencia encarnada/humanoide/manipulación; Posee experiencia relevante en representación adelante-atrás, características sucesoras, RL latente y modelo mundial. Familiarizado con las aplicaciones del aprendizaje transformador/difusión/representación en el campo del control; Tienen experiencia en la implementación del aprendizaje de refuerzo en robots reales; ------ Para obtener detalles de inscripción, visite: https://t.co/SgMGfxLGyw (buscar).
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.