Além disso (e sei que venho insistindo nisso há algum tempo), é abundantemente claro que a robótica será construída com base no pré-treinamento de grandes volumes de vídeo. Ampliar a coleta de dados do mundo real por si só é inviável do ponto de vista financeiro e logístico. Em vez disso: pré-treinamento em vídeo -> teleoperação sft -> RL on-policy
Atenção: ainda estamos muito longe disso. Pelo que sei: (1) as políticas de robótica ainda são minúsculas (2) O Sora 2/Veo 3 está apenas começando a aprender física, então você precisa de 1 a 2 gerações + destilação de modelo grande para obter o desempenho e a latência necessários. (3) ainda não justificado considerando outras oportunidades fáceis?
