这太离谱了。V3.2-thinking,作为目前最强大的LLM之一,竟然落后于许多相对较弱的模型,甚至落后于它自身的更早版本,例如V3.1、V3.2-exp和R1-0528。这或许是lmarena被篡改的最明显例证。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 1 条推文 · 2025年12月5日 04:40
这太离谱了。V3.2-thinking,作为目前最强大的LLM之一,竟然落后于许多相对较弱的模型,甚至落后于它自身的更早版本,例如V3.1、V3.2-exp和R1-0528。这或许是lmarena被篡改的最明显例证。