누군가 제가 여기서 놓친 것이 무엇인지 말해 주세요. 제목의 주장은 제게 사소하게 거짓인 것처럼 보이기 때문입니다. 그들은 LLM을 V^k의 시퀀스 s를 R^d의 벡터에 매핑하는 함수로 정의합니다. n비트 정밀도로 숨겨진 상태를 가정합니다. 어느 시점에서는 숨겨진 상태보다 더 많은 입력이 가능합니다. |V|^k > 2^{n * d} k > nd log(2) / log |V| GPT-2를 예로 들어보겠습니다: n=16, d=768, V≈50,000 그러면 충돌은 *반드시* 214개 토큰의 컨텍스트 창 크기에서 시작해서 발생해야 합니다. 사실 이건 좀 나쁜 것 같아요, 그렇죠?
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.