마침내 읽을 시간을 찾았습니다. 지금 가장 궁금한 건 더 긴 맥락의 질/건강을 측정하는 데 미치는 영향입니다. 최대 500개의 토큰까지 실험이 성능 저하 없이 진행되었습니다.
당연히 원래 맥락 내에서 모두 가능합니다. 지금 제 예상은 (제가 틀렸을까요?) ROPE는 회전 정밀도를 지속적으로 저하시켜 결국 가역성을 더 이상 유지할 수 없는 한계점에 도달하게 될까요?
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.