¿Por qué los modelos no son tan fiables como para que todas las indicaciones "equivalentes" funcionen igual de bien? Porque el descenso de gradiente produce una generalización irregular. Pero el eje principal mediante el cual ayudan los optimizadores de indicaciones es hacer surgir *nueva* información sobre el entorno/tarea que ni siquiera se mencionó explícitamente en la especificación original. Esto puede deberse a que dicha información es sutil, de bajo nivel o, en realidad, dependiente del modelo*. @ChrisGPotts los llama "requisitos latentes". *Recuerde que el lenguaje natural es inherentemente ambiguo, pero la resolución de esa ambigüedad varía según el hablante.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.