Acabo de leer el nuevo artículo de LeJEPA de Yann LeCun y Randall Balestriero. Tenía curiosidad por saber en qué ha estado trabajando Yann últimamente, sobre todo teniendo en cuenta sus críticas a los LLM (con las que no estoy de acuerdo, ya que creo que los LLM seguirán mejorando y nos llevarán a la ASI muy pronto). En cualquier caso, ya existen varios hilos en X sobre el artículo y sus novedades. En resumen, se trata de un enfoque riguroso, teóricamente justificado y parsimonioso para el aprendizaje autosupervisado que sustituye un complejo batiburrillo de heurísticas improvisadas y poco ortodoxas para prevenir el colapso de modos, que es el talón de Aquiles del aprendizaje autosupervisado. Ahí es donde el modelo falla y comienza a asignar todas las entradas a incrustaciones casi idénticas o a un subespacio estrecho de incrustaciones, reduciendo toda la riqueza del problema a una correspondencia patológicamente simple y errónea. El primer pilar del nuevo enfoque es su demostración de que las distribuciones gaussianas isotrópicas minimizan de forma única el riesgo de predicción en el peor de los casos. En cuanto leí eso, inmediatamente pensé en CMA-ES, el mejor algoritmo de optimización de caja negra disponible para cuando no se tiene acceso al gradiente de la función que se está tratando de minimizar, sino que solo se pueden realizar evaluaciones de la función (costosas/lentas). Nikolaus Hansen lleva trabajando en CMA-ES desde que lo introdujo allá por 1996. Siempre me ha fascinado este enfoque y lo utilicé con mucho éxito para explorar de forma eficiente los hiperparámetros de las redes neuronales profundas en 2011, en lugar de realizar búsquedas de cuadrícula ineficientes. En cualquier caso, la razón por la que lo menciono es porque existe un paralelismo sorprendente y una profunda conexión entre ese enfoque y el núcleo de LeJEPA. CMA-ES recomienda comenzar con una gaussiana isotrópica, ya que es la distribución de máxima entropía (menor sesgo) dadas únicamente las restricciones de varianza. Luego, se debe adaptar la covarianza para aprender la geometría del problema. LeJEPA dice: Mantenga una distribución gaussiana isotrópica porque es la distribución de máxima entropía (menos sesgada) para tareas futuras desconocidas. Ambos reconocen que la isotropía es óptima en condiciones de incertidumbre por tres razones: El principio de máxima entropía; Entre todas las distribuciones con varianza fija, la gaussiana isotrópica tiene la máxima entropía; es decir, hace la menor cantidad de suposiciones. No existe sesgo direccional; la varianza igual en todas las direcciones significa que no te estás comprometiendo de antemano con ninguna estructura de problema en particular. Se obtiene la optimalidad en el peor de los casos; se minimiza el máximo arrepentimiento en todas las geometrías posibles del problema. Entonces, ¿cuál es la diferencia? Se reduce al momento de la adaptación. CMA-ES puede adaptarse durante la optimización; comienza siendo isotrópico, pero luego se vuelve anisotrópico a medida que aprende el entorno de optimización específico. Por el contrario, LeJEPA tiene que mantenerse isotrópico porque se está preparando para tareas posteriores desconocidas que aún no se han visto. Este paralelismo sugiere que LeJEPA está aplicando un principio fundamental de la teoría de la optimización al aprendizaje de representaciones. En esencia, afirma: “La distribución de búsqueda óptima para la optimización de caja negra es también la distribución de incrustación óptima para el aprendizaje por transferencia.” Esto tiene sentido porque ambos problemas implican navegar por entornos desconocidos; para CMA-ES, se trata del entorno de optimización desconocido; para LeJEPA, se trata del espacio desconocido de tareas posteriores. Esta diferencia me lleva a preguntarme: ¿podríamos tener un "LeJEPA adaptativo" que comience con una anisotropía constante pero que ajuste su distribución de incrustación una vez que conozcamos la tarea posterior, de forma similar a como CMA-ES se adapta durante la optimización? Sería como un metaaprendizaje de la anisotropía adecuada para familias de tareas específicas. En fin, quería compartir mis reflexiones al respecto. Es fascinante ver las conexiones entre estas diferentes áreas. La comunidad de optimización de caja negra siempre ha estado bastante separada y distinta de la comunidad de aprendizaje profundo, y no hay mucha colaboración entre ellas. Tiene sentido, porque si tienes un degradado, sería una locura no usarlo. Pero existen fuertes conexiones.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.
