X (Twitter)

*엄청난* 발표네요. Zyphra는 가장 정교한 연구실 중 하나인데, 과소평가받고 있는데, AMD에 머신러닝을 가르치는 일을 맡게 된 만큼 그런 인식이 바뀌기를 바랍니다. CCGQA는 기본적으로 MLA+ 수준인데, Qwen3-4B를 0.76B 활성으로 이겼고, 논문의 밀도도 놀라울 정도로 높습니다. 읽어보세요.

음, "이긴다"는 표현이 좀 강하긴 한데, 확실히 더 효율적이고 기본 모델도 동등 수준이지만, Qwen의 성숙한 사후 훈련 수준에 맞추려면 상당한 개선이 필요할 것 같습니다. Qwen은 이 부분은 나중에 설명하겠습니다. 하지만 지금은 사후 훈련에 대한 지식이 풍부합니다.

Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)(@teortaxesTex)의 스레드

작성자 정보

스레드 내용