다시 생각해 보니, 내 추측 플래시가 16/3200 전문가 패턴을 갖기 위해서는 그 전문가가 아주 작아야 할 텐데, 이게 최적이라고는 생각하지 않습니다. 반면에: 이 밈 논문과 Qwen3-Next가 이미 그 규모의 전문가를 사용하고 있다는 사실(내 계산이 맞다면)
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
트윗 1개 · 2025. 11. 5. 오후 8:31
다시 생각해 보니, 내 추측 플래시가 16/3200 전문가 패턴을 갖기 위해서는 그 전문가가 아주 작아야 할 텐데, 이게 최적이라고는 생각하지 않습니다. 반면에: 이 밈 논문과 Qwen3-Next가 이미 그 규모의 전문가를 사용하고 있다는 사실(내 계산이 맞다면)