昨天GPT 5.1发布时,大家都抱怨没有基准测试数据。现在有了。注意AIME和Taubench的测试结果略有下降,这进一步证明了GPT 5.1并非为了追求极致的基准测试。 我认为更普遍而言,面向消费者的AI模型实验室的模型沟通必须分为两部分:一部分面向大众,一部分面向技术宅。一部分面向理性派,一部分面向理性派。 最大的问题在于“通用人工智能”(AGI)是否应该采用“一刀切”的模式。在 GPT-5 出现之前,答案是肯定的。但现在看来,我们似乎永远只能拥有 5 个标准模型和 5 个编码集。@fidjissimo 的博文也表达了类似的观点,尽管他是从产品层面出发的。
openai.com/index/gpt-5-1-… cookbook.openai.com/examples/gpt-5… cookbook.openai.com/examples/build… 以下是所有平台链接:https://t.co/Q36Htrk02j platform.openai.com/docs/guides/la… platform.openai.com/docs/pricing platform.openai.com/docs/models/Gp… platform.openai.com/docs/models/Gp… platform.openai.com/docs/models/Gp… platform.openai.com/docs/models/Gp… cookbook.openai.com/examples/gpt-5… https://t.co/RtimCXf3AC https://t.co/0gWnxVtryk https://t.co/uPkxFwfgr9
