X (Twitter)

Recrutamento de alto nível: A Alibaba DAMO Academy está recrutando Engenheiros de Algoritmos de Estratégia Comportamental (P7-P9). ----- DAMO Academy - Engenheiro de Algoritmos de Estratégia Comportamental - Inteligência Incorporada Alibaba Group, Hangzhou Descrição da vaga: Participar da pesquisa e desenvolvimento das capacidades comportamentais e motoras de robôs inteligentes incorporados, incluindo, entre outras: 1. Desenvolvimento do algoritmo principal do BFM: Participei da construção e otimização de uma estrutura de aprendizado por reforço não supervisionado baseada em representação direta-inversa / recurso sucessor; Pesquisa sobre Aprendizagem Comportamental no Espaço Latente para apoiar uma estratégia de controle unificada para condições de recompensa/objetivo/movimento; Explore direções inovadoras como generalização de tarefas com poucos ou nenhum exemplo (zero-shot/few-shot), ajuste de espaço latente, controle adaptativo e generalização de ontologia de hardware; 2. Pesquisa sobre Aprendizagem por Imitação e Métodos de Aprendizagem Contrastiva: Imitação de Movimento, Transferência de Estilo e Fusão de Demonstração Baseada em Dados de Captura de Movimento/Teleoperação/Vídeo; Este estudo demonstra mecanismos de regularização, correspondência distribuída e recompensa baseada em discriminadores. 3. Treinamento e avaliação de estratégias de aprendizado por reforço: Realizar treinamento paralelo em larga escala em ambientes como Mujoco / Isaac Gym / OmniIsaacLab; Otimizar a estabilidade e a eficiência de amostragem de algoritmos de RL não supervisionados/off-policy; Construir um pipeline de simulação para realidade (incluindo randomização de domínio e adaptação latente); 4. Integração do Modelo de Estratégia e Validação do Sistema: Integrar a estratégia treinada em uma plataforma robótica real (humanoide/manipulador móvel) para avaliação; Analisar a estrutura semântica e a interpretabilidade do espaço latente da estratégia; Requisitos de formação para a vaga: Mestrado ou doutorado em Ciência da Computação, Automação, Inteligência Artificial, Aprendizado de Máquina, Robótica ou áreas afins; Possui experiência em projetos ou artigos em áreas como aprendizagem por reforço, aprendizagem por imitação, aprendizagem de estratégias multitarefa ou modelagem do mundo real; Habilidades técnicas necessárias: Familiaridade com a implementação de algoritmos de aprendizado por reforço (SAC, TD); 3. Qualquer um dos seguintes: PPO, DDPG, DIAYN, Dreamer, Diffusion Policy, etc. Familiarizado com métodos de modelagem comportamental, como aprendizagem por imitação, clonagem de comportamento e aprendizagem por reforço inverso; Possui experiência na implementação ou aprimoramento independente de frameworks de treinamento em RL/IL (PyTorch/JAX); Familiarizado com plataformas de simulação (Mujoco / Isaac Gym / Bullet / Brax, etc.); Capacidade de ler artigos acadêmicos em inglês e reproduzir resultados de pesquisa; Pontos extras: Participação em pesquisas ou competições relacionadas à inteligência incorporada/humanoides/manipulação; Possui experiência relevante em representação direta-inversa, recurso sucessor, RL latente e modelo mundial. Familiarizado com as aplicações de aprendizado por transformação/difusão/representação na área de controle; Eles têm experiência na aplicação de aprendizado por reforço em robôs reais; ------ Para obter detalhes sobre o cadastro, acesse: https://t.co/SgMGfxLGyw (pesquise).

Thread de Y11 (@seclink)

Informações do autor

Conteúdo da thread