Además (y sé que he estado insistiendo en esto durante un tiempo) está muy claro que la robótica se basará en un entrenamiento previo con videos de gran tamaño. Ampliar la recopilación de datos del mundo real por sí solo es financiera y logísticamente inviable. En su lugar: preentrenamiento en video -> teleoperador sft -> RL según política
Advertencia: estamos muy lejos de esto. Que yo sepa: (1) Las políticas de robótica aún son minúsculas (2) sora 2/veo 3 apenas está aprendiendo física, por lo que necesita 1 o 2 generaciones + una gran destilación del modelo para obtener el rendimiento y la latencia que necesita (3) ¿Aún no está justificado, dadas otras posibilidades más fáciles?
