Fiction.LiveBench가 마침내 업데이트되었습니다! 이번에는 다음 모델에 대한 리콜 성능 테스트 결과가 업데이트되었습니다: deepseek-v3.2-exp [추론: 높음], deepseek-v3.2-exp, nemotron-nano-9b-v2:free, qwen-max, qwen3-next-80b-a3b-instruct. 제가 놀랐던 것은 deepseek-v3.2-exp [추론: 높음]가 32K 내에서 최소 83%의 재현율을 기록하며 거의 최상위권의 성능을 달성했다는 점입니다. 이는 deepseek이 달성한 최고의 결과입니다. 그러나 60K 이상의 값에 대한 결과는 테스트 결과를 얻지 못했기 때문에 실패했을 가능성이 높습니다. 게다가 Qwen3-Next의 새로운 아키텍처는 그저 그런 성능을 보이는 것 같습니다. 새 버전에서 개선되기를 바랍니다. 제가 현재 가장 선호하는 중형 모델은 Qwen3-Next와 Kimi-linear입니다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
![Fiction.LiveBench가 마침내 업데이트되었습니다! 이번에는 다음 모델에 대한 리콜 성능 테스트 결과가 업데이트되었습니다: deepseek-v3.2-exp [추론: 높음], deepseek-v3.2-exp,](https://pbs.twimg.com/media/G7LrhcRaMAA43KO.jpg)
![Fiction.LiveBench가 마침내 업데이트되었습니다! 이번에는 다음 모델에 대한 리콜 성능 테스트 결과가 업데이트되었습니다: deepseek-v3.2-exp [추론: 높음], deepseek-v3.2-exp,](https://pbs.twimg.com/media/G7LrhcPawAAfqtH.jpg)