Aprendizaje silencioso de funciones en Transformers Este es un artículo interesante de esta semana: señala que las curvas de pérdida pueden engañar a nuestro juicio sobre lo que ha aprendido el modelo. Normalmente, utilizamos la pérdida como la métrica principal para medir el progreso del entrenamiento de la red neuronal. Si la pérdida no cambia, se supone que el modelo no ha aprendido nada; si la pérdida disminuye, se supone que se está produciendo un aprendizaje. Sin embargo, esta suposición no es válida cuando se trata de tareas algorítmicas. Este nuevo estudio utilizó Transformer para procesar 10 tareas algorítmicas básicas y descubrió “características silenciosas”: las representaciones internas continúan evolucionando incluso cuando la pérdida se estanca. El estudio descubrió que el modelo ya había aprendido los pasos de cálculo intermedios antes de mejorar su rendimiento de salida. Por ejemplo: acarreo en suma, pertenencia a cola en BFS y producto parcial en multiplicación. Estas características se forman gradualmente a lo largo de un largo período de meseta y luego, de repente, se combinan para resolver el problema. Los investigadores exploraron las representaciones internas en aritmética binaria (suma, multiplicación), algoritmos gráficos (BFS, camino más corto, ordenamiento topológico, MST) y optimización de secuencias (subarreglo máximo, selección activa). Las seis tareas mostraron una clara transición de dos fases: después de un largo período de estancamiento, el rendimiento mejoró repentinamente. El experimento de ablación confirmó la relación causal. La eliminación de las funciones de acarreo del modelo de suma de 64 bits redujo la precisión en un 75,1 %. La eliminación de las relaciones de pertenencia a colas en BFS redujo la precisión en un 43,6%. La tarea del algoritmo requiere que múltiples subrutinas trabajen juntas. Un solo componente correctamente alineado no reducirá la pérdida hasta que todas las piezas estén alineadas. El modelo acumula capacidades potenciales bajo una curva de pérdida plana. Parece que la pérdida de entropía cruzada es un método de diagnóstico incompleto. Incluso si las métricas parecen estancadas, es posible que se esté produciendo una cantidad significativa de aprendizaje interno. Esto nos impulsó a desarrollar herramientas de monitoreo que ofrecen un soporte más completo que solo las curvas de pérdidas. 🔖 Enlace del artículo:
Este contenido fue xaicreator.com. https://t.co/Gxsobg3hES
¡Gracias por tomarte el tiempo de leer este tweet! Sigue a @Yangyixxxx para obtener información sobre IA, perspectivas empresariales y estrategias de crecimiento. Si te gustó este contenido, dale a "Me gusta" y comparte el primer tuit para difundir información valiosa.
