请告诉我我漏掉了什么,因为标题中的说法在我看来显然是错误的: 他们将 LLM 定义为将 V^k 中的序列 s 映射到 R^d 中的向量的函数。 假设隐藏状态的精度为 n 位。在某些情况下,可能的输入数量会多于隐藏状态的数量: |V|^k > 2^{n * d} k > nd log(2) / log |V| 我们以 GPT-2 为例:n=16,d=768,V≈50,000 那么,当上下文窗口大小为 214 个 token 时,碰撞就*必然*会发生。 这看起来其实挺糟糕的,对吧?
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。