Alguém pode me explicar o que estou perdendo aqui, porque a afirmação do título me parece trivialmente falsa? Eles definem um LLM como uma função que mapeia uma sequência s em V^k para um vetor em R^d. Suponha que o estado oculto tenha precisão de n bits. Em algum momento, haverá mais entradas possíveis do que estados ocultos: |V|^k > 2^{n * d} k > nd log(2) / log |V| Vamos usar o GPT-2 como exemplo: n=16, d=768, V≈50.000 Então, as colisões *devem* ocorrer a partir de uma janela de contexto com tamanho de 214 tokens. Isso parece meio ruim, não é?
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.