Quelqu'un peut-il m'expliquer ce qui m'échappe ? Car l'affirmation du titre me semble manifestement fausse : ils définissent un LLM comme une fonction qui associe à une séquence s de V^k un vecteur de R^d Supposons un état caché avec une précision de n bits. À un certain moment, le nombre d'entrées possibles dépasse le nombre d'états cachés. |V|^k > 2^{n * d} k > nd log(2) / log |V| Prenons GPT-2 : n=16, d=768, V≈50 000 alors les collisions *doivent* se produire à partir d'une taille de fenêtre de contexte de 214 jetons. Ça a l'air plutôt mauvais, non ?
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.