매우 공격적이고 아마도 매우 지능이 낮은 예감: 플래시 3이고 총 1.2T, 활성 12B입니다. 프로는 30-3200 정도입니다 Google의 시스템은 이를 허용하고, Google은 인색함에 있어서 타의 추종을 불허하며, 우리는(@AntLingAGI에게 감사드립니다) 99% 이상의 희소성이 계속해서 효율성을 높여준다는 것을 알고 있습니다.
또한 세분성은 아키텍처와 훈련의 세부 사항에 따라 달라지는 복잡한 스케일링 법칙을 가지고 있으며 더 큰 모델(Ant는 총 28B에서 멈춤)이 현재 사용하는 것보다 더 높은 최적 세분성을 갖는다고 예측합니다.
다시 생각해 보니, 내 추측 플래시가 16/3200 전문가 패턴을 갖기 위해서는 그 전문가가 아주 작아야 할 텐데, 이게 최적이라고는 생각하지 않습니다. 반면에: 이 밈 논문과 Qwen3-Next가 이미 그 규모의 전문가를 사용하고 있다는 사실(내 계산이 맞다면)


