X (Twitter)

Fiction.LiveBench가 마침내 업데이트되었습니다! 이번에는 다음 모델에 대한 리콜 성능 테스트 결과가 업데이트되었습니다: deepseek-v3.2-exp [추론: 높음], deepseek-v3.2-exp, nemotron-nano-9b-v2:free, qwen-max, qwen3-next-80b-a3b-instruct. 제가 놀랐던 것은 deepseek-v3.2-exp [추론: 높음]가 32K 내에서 최소 83%의 재현율을 기록하며 거의 최상위권의 성능을 달성했다는 점입니다. 이는 deepseek이 달성한 최고의 결과입니다. 그러나 60K 이상의 값에 대한 결과는 테스트 결과를 얻지 못했기 때문에 실패했을 가능성이 높습니다. 게다가 Qwen3-Next의 새로운 아키텍처는 그저 그런 성능을 보이는 것 같습니다. 새 버전에서 개선되기를 바랍니다. 제가 현재 가장 선호하는 중형 모델은 Qwen3-Next와 Kimi-linear입니다.

karminski-牙医(@karminski3)의 스레드

작성자 정보

스레드 내용