Experto en robótica de Google revela: ¿Por qué aún no tienes una niñera robot en casa? En mi viaje de regreso a Beijing, escuché el podcast de Zhang Xiaojun: Entrevista con Tan Jie de DeepMind: Robótica, ontología cruzada, modelo mundial, Gemini Robotics 1.5 y Google Después de haber obtenido una comprensión preliminar del progreso en la combinación de robots y modelos de lenguaje grandes, me pareció muy interesante escribir un artículo sobre ello utilizando IA. --- ¿Alguna vez te has preguntado por qué los robots pueden hacer volteretas y correr en entornos simulados, pero se tambalean y se tambalean cuando caminan en la vida real? Este problema ha preocupado a Tan Jie de Google DeepMind durante muchos años. Como líder técnico del equipo, ha sido testigo de dos cambios de paradigma claves en el campo de la robótica durante la última década. El primero fue el aprendizaje por refuerzo y el segundo fueron los modelos lingüísticos de gran tamaño. La transición profesional de Tan Jie es realmente bastante interesante. Cuando era niño me encantaba jugar videojuegos y estudié diseño gráfico por computadora para mi doctorado. ¿Has oído hablar del famoso Desafío de Robótica DARPA de 2015? A esos robots humanoides se les pidió que realizaran tareas “simples” como cruzar pendientes, conducir automóviles y girar válvulas, pero terminaron cayendo a pedazos. ¿Pero qué pasa en un entorno de simulación? Los robots ya pueden hacer volteretas. Este marcado contraste le dio a Tan Jie una oportunidad: si la tecnología de la simulación pudiera transferirse al mundo real, los robots experimentarían un salto cualitativo. En 2018, Tan Jie publicó su primer artículo en Google, utilizando el aprendizaje de refuerzo profundo para resolver el problema de la marcha de los robots cuadrúpedos. ¿Qué fue lo pionero en este artículo? Esto demuestra una cosa: no hace falta un doctorado para hacer que los robots caminen. Anteriormente, la gente utilizaba MPC (Control Predictivo de Modelos), pero las matemáticas involucradas eran tan complejas que se necesitaba un doctorado para entenderlas. Sin embargo, con la llegada del aprendizaje de refuerzo, muchos estudiantes de secundaria pueden descargar un paquete PPO de Internet y, junto con Isaac Gym, hacer que los robots se muevan. Cuando una tecnología se vuelve lo suficientemente simple, rápidamente se generaliza. Mírelo ahora, ya sea el Atlas de Boston Dynamics o los robots de SpaceX y Entropy, todos están usando el aprendizaje de refuerzo. En cinco años, este campo se ha transformado de uno que "sólo unas pocas personas podían hacer" a uno que "todos pueden hacerlo". Pero el aprendizaje de refuerzo sólo resuelve el problema del "cerebelo": cómo caminar y cómo mantener el equilibrio. Al robot todavía le falta un "cerebro". Alrededor de 2022, la aparición de grandes modelos lingüísticos lo cambió todo. Antes, si le pedías a un robot "preparame una taza de café", no tenía idea de lo que querías decir. Pero ahora, si le haces la misma pregunta a ChatGPT, podrá darte una lista detallada de los pasos. Tan Jie comparó esto con la relación entre el cerebro y el cerebelo: - El cerebro (gran modelo del lenguaje): responsable de la comprensión, la planificación y la toma de decisiones. - Cerebelo (aprendizaje de refuerzo): responsable de la ejecución, el control y el equilibrio. Ambos son indispensables. Este año, su equipo lanzó Gemini Robotics 1.5, que presenta dos innovaciones clave. 1. Darle a los robots la capacidad de "pensar". Los modelos VLA anteriores funcionaban así: ingresaban la imagen y la descripción de la tarea y emitían el ángulo del motor directamente. ¿Ahora? El robot lo pensará primero. Por ejemplo, si le pides que clasifique la ropa por color, primero identificará el color, luego decidirá en qué pila colocarla y luego realizará la acción. Todo el proceso de pensamiento se plasmará en formato de texto. Esto trae dos beneficios: 1 Los robots pueden manejar tareas más complejas de varios pasos. 2 Los humanos pueden entender lo que piensan los robots, lo que los hace más seguros. Transferencia de movimiento: migración de datos a través de la ontología Éste es aún más impresionante. El problema anterior era que cada robot sólo podía utilizar sus propios datos. Los datos que recopile en el robot A serán inútiles en el robot B. Sin embargo, descubrieron que un método llamado Transferencia de movimiento permite que diferentes robots compartan resultados de aprendizaje. Por ejemplo: Aloha es un robot de escritorio que solo puede operar en una superficie plana y nunca antes ha visto una escena vertical. Franka es un robot industrial que recupera frecuentemente artículos de estantes de herramientas verticales. Cuando los datos de ambos conjuntos de datos se mezclaron para el entrenamiento, Aloha de repente pudo sacar libros de la estantería, aunque nunca había visto una situación así antes. Resuelve fundamentalmente el problema de la falta de datos porque cualquier tarea realizada por un robot puede ser utilizada por otros robots. En cuanto a los detalles de cómo lo hizo, Tan Jie sonrió y dijo: "Es un gran secreto". Después de discutir tanta tecnología, Tan Jie enfatizó repetidamente solo una palabra: datos, datos, datos. Los datos de modelos de lenguaje de gran tamaño son gratuitos y están fácilmente disponibles en línea. ¿Pero qué pasa con los datos de los robots? Cada uno cuesta dinero. Wang He hizo algunos cálculos: 10.000 robots humanoides, a razón de 100.000 cada uno, ascenderían a 1.000 millones. Cada máquina requiere que cuatro personas la operen de forma remota en dos turnos, lo que genera ingresos de decenas de miles de yuanes al mes. Incluyendo mantenimiento, etiquetado e inspección de calidad, el costo mensual varía entre cientos de millones y miles de millones. Esto es completamente inescalable. Por eso, Tan Jie cree en un camino diferente: datos escalables. incluir: - Datos de simulación - Vídeos humanos en YouTube - Datos generados por modelos de generación de vídeo (como Sora, VEO) Generar una cantidad masiva de datos de simulación y cambiar potencia computacional por precisión puede ser el único enfoque viable. Modelo mundial: ¿el próximo paradigma? VLA (Visión-Lenguaje-Acción) es actualmente el modelo con mejor rendimiento. Pero el lenguaje tiene un problema: es una forma de expresión que produce pérdida de información. ¿Cómo describirías los movimientos sutiles de cada dedo al utilizar los palillos para recoger la comida? Es difícil. Por eso, muchas personas en Silicon Valley apuestan ahora por un modelo mundial en el que la entrada es la visión y el lenguaje, y la salida es la imagen del siguiente fotograma. El modelo del mundo es Visión-Lenguaje-Visión. No reemplaza al VLA, sino que coexiste con él. Es posible que en el futuro exista un gran modelo unificado, pero actualmente no es posible debido a limitaciones en el poder de cómputo. El tacto: una modalidad subestimada Tan Jie tiene un cambio interesante en su comprensión. Solía pensar que el tacto no era importante porque el artículo de Aloha demostraba que sólo la visión podía permitir a un robot sacar una tarjeta de crédito de una billetera. Pero recientemente, cuando utilizó sus diestras manos para controlar las tijeras, cambió de opinión. Cuando tienes manos diestras, el tacto se vuelve muy importante. Debido a que los dos anillos de las tijeras son muy grandes, sin respuesta táctil, no sabrías si tu dedo está dentro del anillo o en el aire, y no podrías controlar con precisión la apertura y el cierre. Por lo tanto, su conclusión es que, en la era de las pinzas, la visión podía resolver el 95 % de los problemas. Pero en la era de las manos hábiles, el tacto se volvió indispensable. ¿Qué tan grande es Silicon Valley? Mucha gente cree que el horario de trabajo 996 es una tradición china. Pero Tan Jie dijo que quienes trabajan en IA y robótica en Silicon Valley también trabajan 996 (de 9 a. m. a 9 p. m., 6 días a la semana). Trabaja entre 70 y 80 horas a la semana. ¿Por qué trabajar tan duro? Porque nadie quiere perder en esta competición. Si eres el segundo mejor del mundo, la mejor persona de tu equipo querrá unirse al equipo número uno del mundo. Así que tienes que trabajar el doble para permanecer en el nivel superior para siempre. El reciente uso por parte de Meta de ofertas exorbitantes para captar talentos ha perturbado aún más todo el mercado de talentos de IA en Silicon Valley. Pero Tan Jie dijo que a los talentos verdaderamente destacados no les importa el dinero; sólo quieren asegurarse de que están en el camino correcto. Cuando ocurren grandes cambios, una persona con sentido de misión no tolerará estar en el lugar equivocado. ¿El robot se parece a un niño pequeño? Esa es una pregunta interesante. En términos de habilidades motoras, los robots han superado a los adultos. Tan Jie dijo que el robot humanoide de Yu Shu corre incluso más rápido que la velocidad del robot. Sin embargo, en términos de capacidad de comprensión y manipulación, probablemente sólo estén al nivel de un niño de dos o tres años. Puede comprender aproximadamente lo que quieres que haga y puede hacerlo correctamente después de unos cuantos intentos, pero no es muy estable sobre sus pies. ¿Qué pasa si tienes manos diestras? Es posible que ni siquiera tengan dos años. El desarrollo de los robots es muy desigual. El control de la marcha se ha resuelto en gran medida mediante el aprendizaje de refuerzo en los últimos cinco años, pero aún está lejos de encontrarse una buena solución para la manipulación manual. De dos a tres años: el momento GPT El juicio de Tan Jie es: En 2 o 3 años, habrá suficientes avances para que la gente realmente se dé cuenta de que "los robots de uso general están llegando". En 5 años: Los robots se implementarán en industrias verticales como manufactura, logística y supermercados, pero ya no serán automatización tradicional; en cambio, tendrán capacidades de generalización. 10 años: Los robots comienzan a entrar ampliamente en los hogares Pero también enfatizó repetidamente que la mayoría de la gente sobreestima el estado actual de los robots. Porque lo que todo el mundo ve es el mejor vídeo de 10 tomas, pero eso no representa las verdaderas capacidades del robot. Hace un año, sus robots ni siquiera podían recoger las medias de Navidad. En la demostración CORAL de este año, alguien trajo una caja de control compleja con varios botones, interruptores y controles deslizantes, y asignó 25 tareas, de las cuales el robot completó 10. Esto habría sido inimaginable hace seis meses. Sin embargo, incluso con una tasa de éxito del 40%, sigue siendo poco práctico en la vida real. Reflexiones finales Después de escuchar este podcast, tengo algunas ideas: 1. La robótica no es un problema único, sino una combinación de una serie de problemas complejos. A diferencia de la IA, que tiene un tema principal claro, los robots incursionan aquí y allá, y aún no han resuelto nada. 2. Los datos son el mayor cuello de botella. Si sólo hay un problema que puede resolverse, es el problema de los datos. 3. Silicon Valley cree en el largo plazo. Están dispuestos a pasar 10 años apostando por una dirección, incluso si no ven retornos en el corto plazo. Esto es muy diferente de la cultura doméstica que busca una implementación rápida. 4. Los chinos constituyen una gran proporción de esta ola. El equipo de Tan Jie está compuesto entre un 50 y un 60 % por chinos. No es porque los chinos sean unidos, sino porque son buenos en matemáticas, trabajadores y talentosos. 5. Se ha sobreestimado el desarrollo de los robots. Aunque el progreso es rápido, todavía queda un largo camino para que se implemente realmente. Dijo algo al final que me pareció bastante interesante: "Cuando una tecnología se vuelve más fácil de usar, rápidamente se generaliza". Esto se aplica al aprendizaje por refuerzo y también a modelos lingüísticos de gran tamaño. Tal vez algún día, enseñar a los robots nuevas habilidades será tan sencillo como utilizar ChatGPT hoy. Fue entonces cuando los robots realmente llegaron.
Enlacxiaoyuzhoufm.com/episode/692965…t.co/6Cmg3FIJDm