我的意思是,如果你没有立即发现评估结果中 gpt-oss-20b 的排名高于 gpt-5.1 有什么问题的话,那就是有问题。应该有人建立一个严谨的评估指标体系。仅仅将普遍预期与实际结果进行比对就足够了。