누군가 그것이 V3.1 셸인지 확인해야 합니다. Ascends에서 V3 규모의 MoE를 훈련할 수 있게 되었다면, 이는 큰 의미가 있습니다. 지난번 메커니즘 가설은 특정 CANN 미세 최적화가 MoE 라우팅에 영향을 미치는 운영자의 정밀도를 저하시켰다는 것이었습니다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
트윗 1개 · 2025. 11. 16. 오후 4:29
누군가 그것이 V3.1 셸인지 확인해야 합니다. Ascends에서 V3 규모의 MoE를 훈련할 수 있게 되었다면, 이는 큰 의미가 있습니다. 지난번 메커니즘 가설은 특정 CANN 미세 최적화가 MoE 라우팅에 영향을 미치는 운영자의 정밀도를 저하시켰다는 것이었습니다.