Ilya aclaró y complementó el contenido de su entrevista en Twitter: Hay un punto que no dejé claro en la entrevista, así que lo agregaré aquí: Continuar escalando como hasta ahora —incrementando la potencia de procesamiento, los datos y los entornos de entrenamiento— sin duda generará nuevas mejoras. No se estancará, sino que seguirá mejorando. Sin embargo, siempre falta algo importante. Esto es para corregir un posible malentendido. En la entrevista, habló mucho sobre "regresar a la era de la investigación" y "los métodos actuales se toparán con un muro", lo que fácilmente podría llevar a la gente a pensar que era pesimista sobre la ley de escalado y que seguir acumulando potencia de cálculo, datos y entrenamiento de RL resultaría ineficaz. Dijo que no se refería a eso; que el camino actual seguirá mejorando y no se estancará. El modelo se fortalecerá, el índice de referencia seguirá subiendo, el producto seguirá iterando y la empresa seguirá generando ingresos. Tenga en cuenta el "pero" al final. Algunas cosas no se pueden conseguir por mucho que las escales. Es como entrenar para un sprint. Sigue entrenando y tu tiempo mejorará, de 12 segundos a 11,5 segundos, luego a 11 segundos, o incluso a 10,9 segundos. Eso sí que es un progreso. Pero si tu objetivo es aprender a volar, no importa lo rápido que corras; eso requiere una habilidad completamente diferente. ¿Qué falta? Según el contenido de la entrevista, esta "deficiencia significativa" probablemente se refiere a: 1. La verdadera capacidad de generalización no consiste en poder realizar muchas tareas después de entrenar con cantidades masivas de datos, sino en poder aprender rápidamente cosas nuevas a partir de una experiencia limitada y garantizar que lo aprendido permanezca estable y confiable en nuevos escenarios. 2. Los estudiantes altamente eficientes pueden aprender a conducir en 10 horas y a programar en pocos meses antes de poder trabajar. Este nivel de eficiencia no se puede lograr mediante una capacitación previa con cantidades masivas de datos. La analogía de los "dos estudiantes" en la entrevista es muy reveladora. El estudiante que practica 10.000 horas puede, sin duda, seguir mejorando sus resultados en la competición, pasando del 10% al 1% de los mejores y finalmente al campeón; eso sí que es un progreso. Pero nunca se convertirá en el estudiante que demuestra "aptitud" tras tan solo 100 horas de práctica.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.