화웨이가 새로운 모델인 Pangu Ultra-MoE-718B-V1.1을 출시했습니다! 이 모델은 718바이트의 매개변수와 39바이트의 활성화된 매개변수를 가지고 있습니다. 가장 주목할 만한 특징은 수정된 VLLM을 탑재한 Atlas 800T A2 GPU를 사용하여 추론을 수행할 수 있다는 것입니다. Atlas 800T A2는 64GB의 VRAM을 가지고 있으므로, 이 모델을 성공적으로 실행하려면 최소 32개의 GPU가 필요합니다. 성능에 관해서는 AIME 25에서의 수학 성능이 77.50%로 Gemini 2.5 Flash의 78.3%와 비슷합니다. 다른 테스트 결과, 특히 LiveCodeBench에 전적으로 확신하지는 못합니다. (모델 점수가 잘못되었다는 것은 아니지만 LiveCodeBench 리더보드에 문제가 있다고 생각합니다. GPT-OSS-120B가 1위를 차지했지만 실제로 코드를 작성할 때 GPT-OSS-120B가 로컬 디렉터리를 파괴하지 않는 것이 기적입니다. GPT-OSS-120B의 컨텍스트는 4K에 불과하여 20K인 해리 포터와 마법사의 돌의 첫 번째 장을 넣을 수 없습니다... 그렇습니다. 덤블도어가 프리벳 가에서 맥고나걸을 만났고 해리는 모델이 넣을 수 없을 때까지 한 마디도 할 기회조차 없었습니다.) 여러분을 위해 테스트해 드리지 않겠습니다. 이 모델을 배포해 줄 서비스 제공업체를 찾을 수도 없고, 1.5TB 모델을 로컬로 가져와서 테스트하기에는 너무 귀찮기도 하고요... 제 기기의 토큰 생성 속도는 초당 0.02로 추정됩니다...
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
