Se suele escuchar mucho esto de personas externas o nuevas en ML, y a menudo señalo una charla que dio Ilya hace unos años: 1) Piense en cualquier red neuronal profunda decente que tenga suficiente memoria y operaciones secuenciales como si fuera simplemente una gran computadora paralela. 2) Entrenar esta red neuronal consiste en realizar una búsqueda en programas informáticos que maximicen su objetivo. 3) A menos que tengas un gran cuello de botella (y dado que puedes optimizar este sistema con éxito), encontrarás que estas computadoras paralelas son muy robustas a los cambios arquitectónicos. 4) Esto se debe a que las computadoras son muy buenas para simularse entre sí. Su nueva arquitectura generalmente se puede simular directamente "dentro" de su arquitectura anterior. 5) No es que la arquitectura no importe, pero importa sobre todo con respecto a (1) cuellos de botella fundamentales en esta computadora paralela (2) modificaciones que hacen que los modelos sean más fáciles de optimizar, ya que este argumento sólo es válido si su optimización es buena (3) la eficiencia computacional/eficiencia del sistema gana, lo que hace que el aprendizaje sea más fácil o más rápido. 6) Es muy posible que las nuevas arquitecturas conduzcan a avances en el aprendizaje automático, pero primero deberíamos comenzar con los cuellos de botella, no con las intuiciones naturalistas sobre la "forma" que debería tomar la IA. Hasta que entiendas esto, parece sorprendente que los modelos pequeños entrenados por más tiempo sean mejores que los modelos grandes subentrenados, que la profundidad y el ancho sean sorprendentemente intercambiables, que hablar con un modelo con un MoE o una atención dispersa o una atención lineal sea aproximadamente la misma isoevaluación.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.