Kimi-Linear는 3B 활성, <6T 토큰 실험입니다. 아키텍처는 공상과학적인 것이 아닙니다(작동한다는 점만 빼고요). NoPE MLA + 멋진 GatedDeltaNet. 이는 제미니 롱 컨텍스트 어텐션에 특별한 비법이 없다는 것을 강력하게 시사합니다. b) 모든 것이 TPU에 관한 것입니다. "타이탄"은 없습니다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
