X (Twitter)

또한 세분성은 아키텍처와 훈련의 세부 사항에 따라 달라지는 복잡한 스케일링 법칙을 가지고 있으며 더 큰 모델(Ant는 총 28B에서 멈춤)이 현재 사용하는 것보다 더 높은 최적 세분성을 갖는다고 예측합니다.

다시 생각해 보니, 내 추측 플래시가 16/3200 전문가 패턴을 갖기 위해서는 그 전문가가 아주 작아야 할 텐데, 이게 최적이라고는 생각하지 않습니다. 반면에: 이 밈 논문과 Qwen3-Next가 이미 그 규모의 전문가를 사용하고 있다는 사실(내 계산이 맞다면)

Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)(@teortaxesTex)의 스레드