Me parece genial: hacer ViT a partir de píxeles sin procesar implica entrenar todo conjuntamente. Este modelo, por muy simple que parezca, debe resolver MNIST de forma independiente y, además, aprender a calcular sus pesos a la perfección. Y así sucesivamente... limitado únicamente por los datos que se le proporcionan. Es por eso que el concepto de "modelos fundacionales" de @percyliang en 2021 fue tan disruptivo/sacrilegio en la carrera entre Google y OpenAI por el GPT: en lugar de 1000 modelos pequeños diferentes, cada uno especializado en sus tareas, concentrar todo ese presupuesto/datos/recursos en un supermodelo que tenga la capacidad de modelar 1000 tareas; en el proceso se obtiene 1) aprendizaje por transferencia, 2) capacidades para las que nunca se entrenó explícitamente, 3) habilidades emergentes que solo se desbloquean a una determinada tasa de exposición a parámetros/profundidad/datos.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.
