X (Twitter)

昨天GPT 5.1发布时，大家都抱怨没有基准测试数据。现在有了。注意AIME和Taubench的测试结果略有下降，这进一步证明了GPT 5.1并非为了追求极致的基准测试。我认为更普遍而言，面向消费者的AI模型实验室的模型沟通必须分为两部分：一部分面向大众，一部分面向技术宅。一部分面向理性派，一部分面向理性派。最大的问题在于“通用人工智能”（AGI）是否应该采用“一刀切”的模式。在 GPT-5 出现之前，答案是肯定的。但现在看来，我们似乎永远只能拥有 5 个标准模型和 5 个编码集。@fidjissimo 的博文也表达了类似的观点，尽管他是从产品层面出发的。

openai.com/index/gpt-5-1-… cookbook.openai.com/examples/gpt-5… cookbook.openai.com/examples/build… 以下是所有平台链接：https://t.co/Q36Htrk02j platform.openai.com/docs/guides/la… platform.openai.com/docs/pricing platform.openai.com/docs/models/Gp… platform.openai.com/docs/models/Gp… platform.openai.com/docs/models/Gp… platform.openai.com/docs/models/Gp… cookbook.openai.com/examples/gpt-5… https://t.co/RtimCXf3AC https://t.co/0gWnxVtryk https://t.co/uPkxFwfgr9

来自 swyx🔜 @aidotEngineer CODE 🗽（@swyx）的推文线程

作者信息

线程正文