저렴하면서도 풍부한 모델을 정의하는 진정한 기준은 무엇일까? (전술적 린백) 대형 모델의 국내 배포에 좋은 소식입니다! Dark Side of the Moon에서 새롭게 출시된 Kimi-Linear-48B-A3B에 대한 기술 분석을 제공합니다! 한 문장으로 설명하자면, 이것이 저렴하면서도 풍부한 패스트푸드의 진정한 모델입니다. 48B-A3B 모델은 선형적 어텐션을 유지하면서 1MB의 컨텍스트를 달성하여 메모리 소비량이 매우 낮습니다. 기존 어텐션 모델은 컨텍스트 길이가 증가함에 따라 기하급수적으로 메모리 소비가 증가하는 반면, 이 모델은 메모리 사용량이 선형적이어서 CPU 사용량에 전혀 문제가 없습니다. 저는 이미 이 모델을 다운로드했고, 자주 사용하는 로컬 모델에 추가할 계획입니다. 지금 가장 큰 불확실성은 재현율입니다. 앱을 다운로드하고 소설 몇 권을 삽입한 후, 모델에 세부 정보를 요청하여 재현 효과를 평가하는 데 얼마나 잘 반응하는지 확인할 계획입니다. 결과를 보고 싶으신 분들은 이 게시물에 '좋아요'를 눌러주세요. 좋아요가 100개를 넘으면 이번 주말에 리뷰를 공개하겠습니다.
기본 매개변수
비교 데이터
오타: 전통적인 주의 기억 성장은 2차적입니다.








