저는 그들이 1) ZAYA처럼 압축과 잠재 연산에 대해 훨씬 더 심도 있게 다루고 2) 희소성을 크게 향상시켜, MoE를 완전히 버리고 스몰월드 회로를 직접 사용하거나 UT와 유사한 방식을 탐구할 것으로 기대합니다. V4에서 아니더라도 다음 논문에서는 가능할 것입니다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
트윗 1개 · 2025. 12. 17. 오전 6:25
저는 그들이 1) ZAYA처럼 압축과 잠재 연산에 대해 훨씬 더 심도 있게 다루고 2) 희소성을 크게 향상시켜, MoE를 완전히 버리고 스몰월드 회로를 직접 사용하거나 UT와 유사한 방식을 탐구할 것으로 기대합니다. V4에서 아니더라도 다음 논문에서는 가능할 것입니다.