그러고 보니, V4는 상당히 다를 것 같네요. 우리가 알고 있는 DS-MoE는 2년 전에 나온 건데, 규모만 키우고 두 번 방향을 바꿨죠(MHA=>MLA=>DSA 프로토타입). MTP, 라우팅, 로드 밸런싱도 조금씩 수정했고요. 앞으로 훨씬 더 큰 변화를 만들어낼 능력이 충분히 있다고 봅니다.
저는 그들이 1) ZAYA처럼 압축과 잠재 연산에 대해 훨씬 더 심도 있게 다루고 2) 희소성을 크게 향상시켜, MoE를 완전히 버리고 스몰월드 회로를 직접 사용하거나 UT와 유사한 방식을 탐구할 것으로 기대합니다. V4에서 아니더라도 다음 논문에서는 가능할 것입니다.