X (Twitter)

¿Listo para usar, sin experiencia real ni ajustes específicos del juego? ¡Ni hablar! Me sorprendería muchísimo. Como problema de interacción, es muchísimo más difícil que conducir o controlar a un humanoide. Y la mayoría de los resultados de LLM hasta ahora han sido una porquería. Voyager para Minecraft incluye acciones como "ir a extraer carbón" y muchos scripts de ejemplo públicos. Esta sería una tarea de aprendizaje automático independiente, creada desde cero. Resulta que el ajedrez graba las partidas en el mismo formato de texto que se desearía para los LLM. Y hay muchísimos. ¿Y si no tienes eso, pero tienes acceso a un simulador? El juego en vivo con modelos pequeños es una pasada. Tenemos varios ejemplos de juego sobrehumano entrenados en segundos con una sola GPU en https://t.co/wPfmdJfe1d. Y no se trata solo de juegos. La mayoría de los simuladores sofisticados que creamos para nuestros clientes resultan más fáciles de jugar en vivo que incluso juegos relativamente sencillos. En mi opinión, el mejor resultado de nuestro campo, con diferencia, fue OpenAI cinco. Superamos a los mejores profesionales de DoTA con unas 1000 GPU. Ahora probablemente se podría lograr con 64-256 H100. Las CPU son realmente potentes, pero bueno, por eso creamos simuladores rápidos y personalizados para los problemas que realmente nos importan. Constantemente vemos que el mundo real presenta soluciones que no entiendo cómo un LLM podría simplemente descartar. La interacción es fundamental para la inteligencia. ¿Y si en el aprendizaje automático se ajusta un LLM jugando? Claro, y será más eficiente en el muestreo que entrenar desde cero. Pero considerablemente ineficiente en el cálculo. Tenemos evidencia bastante sólida de que las leyes de escalado en el aprendizaje automático tienden a tamaños de modelo mucho más pequeños y a una mayor cantidad de datos. Esta es la apuesta que he hecho en mi propia investigación, y hasta ahora todo bien. ¿Y si de verdad quisieras usar Grok para obtener un resultado impresionante en la vida real? Apuesto a que se busca reducir la diferencia entre los modelos gigantes y los diminutos. Realiza casi todas las acciones (>>99.9%) durante el entrenamiento con el modelo pequeño. Juega muchos juegos. Usa el modelo grande para guiar la exploración, etc. Ya hay algunos resultados al respecto en juegos y robótica, pero aún no hay nada realmente satisfactorio. No estoy trabajando en ello porque, en mi opinión, el modelo pequeño en la vida real tiene mucho más potencial ahora mismo, con un camino muy claro hacia adelante, incluso a pequeña escala.

Hilo de Joseph Suarez 🐡 (@jsuarez5341)

Información del autor

Contenido del hilo