그렇게 큰 MoE(특히 고급 DSMoE 이후 아키텍처)의 동작 방식을 제대로 이해하지 못하는 것 같습니다. 하지만 약 280억 개에서 0.8%로 확장이 가능하다는 것은 알고 있습니다. 그리고 "더 미세한 입자"를 넘어서 희소성을 활용하는 영리한 방법들이 가능해지고 있습니다. 10T에서 1%는 *보수적*이라고 생각합니다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
