Creía saber mucho sobre ingeniería de avisos, hasta que intenté escribir una serie de artículos sobre agentes de IA. Entonces me di cuenta de que solo tenía un conocimiento superficial de la ingeniería de avisos. --- GPT-2 cuenta con 1500 millones de parámetros, en comparación con los 117 millones de GPT; el tamaño de los datos de entrenamiento de GPT-2 es de 40 GB de texto, mientras que el de GPT es de tan solo 4,5 GB. Este aumento de magnitud en el tamaño del modelo y de los datos de entrenamiento aporta una calidad emergente sin precedentes: los investigadores ya no necesitan ajustar GPT-2 para tareas individuales, sino que pueden aplicar directamente el modelo preentrenado sin ajustar a tareas específicas y, en muchos casos, su rendimiento incluso supera al de los modelos de vanguardia específicamente ajustados para esa tarea. GPT-3 logró una mejora significativa en el tamaño del modelo y la escala de los datos de entrenamiento, acompañada de un salto significativo en las capacidades. El artículo de 2020 "Los modelos de lenguaje son aprendices de pocas oportunidades" demostró que, al proporcionar al modelo solo unos pocos ejemplos de tareas (es decir, los llamados ejemplos de pocas oportunidades), este podía reproducir con precisión patrones en la entrada, realizando así casi cualquier tarea lingüística imaginable, a menudo con resultados de muy alta calidad. Fue en esta etapa cuando se comprendió que, modificando la entrada (es decir, la instrucción), el modelo podía restringirse condicionalmente para realizar tareas específicas. En ese momento nació la ingeniería de indicaciones. ---
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.