RT @xeophon_: 卧推很难 他们的 GPT-OSS 分数与参考分数相比最多相差 10 分(GPQA-D),他们的 GPQA-D 实施分数与参考分数相比相差 2-3 分……
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 1 条推文 · 2025年11月27日 19:31
RT @xeophon_: 卧推很难 他们的 GPT-OSS 分数与参考分数相比最多相差 10 分(GPQA-D),他们的 GPQA-D 实施分数与参考分数相比相差 2-3 分……