請告訴我我錯過了什麼,因為標題中的說法在我看來顯然是錯的: 他們將 LLM 定義為將 V^k 中的序列 s 映射到 R^d 中的向量的函數。 假設隱藏狀態的精確度為 n 位元。在某些情況下,可能的輸入數量會多於隱藏狀態的數量: |V|^k > 2^{n * d} k > nd log(2) / log |V| 我們以 GPT-2 為例:n=16,d=768,V≈50,000 那麼,當上下文視窗大小為 214 個 token 時,碰撞就*必然*會發生。 這看起來其實還挺糟糕的,對吧?
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。