Que alguien me explique qué me estoy perdiendo, porque la afirmación del título me parece trivialmente falsa: Definen un LLM como una función que asigna una secuencia s en V^k a un vector en R^d Supongamos que el estado oculto tiene una precisión de n bits. En algún punto, hay más entradas posibles que estados ocultos: |V|^k > 2^{n * d} k > nd log(2) / log |V| Consideremos GPT-2: n=16, d=768, V≈50.000 entonces las colisiones *deben* ocurrir a partir de un tamaño de ventana de contexto de 214 tokens. Esto parece bastante malo, ¿verdad?
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.