开启时会模糊预览图,关闭后正常显示

从首次亮相到现在,文心其实经历了几个关键拐点。 每一代的升级,都没有大规模的吹嘘参数量、排行榜,默默的在 B 端市场让语言模型成为一个具备判断力的系统入口。 这次上榜更多像是在验证一个阶段性假设,谁能以人的方式组织任务。 文心大模型5.0-Preview 在创作感/执行精度/理解复杂任务结构这几个点上出现了它自己的策略感。 我从这次榜单看到的是一个国产模型,在不强调民族主义叙事、不靠宣传强度的前提下,站上了对比场的上位区间。 语言的本质是世界观的映射。 大模型的能力边界,其实是对话世界的方式边界。 下周百度世界,再看正式版落地的系统能力表现,才是真正的对话开始。


traveler btw worlds. bias for makers, I heart art + tech! capitalist. EIC a16zcrypto; Editor in Chief a16z + podcast showrunner 2014-2022; fmr WIRED, Xerox PARC


LMArena 的机制很简单:用户面对两段匿名模型输出,只凭观感、流畅度、完成度做出选择。 某种程度上比常规 benchmark 更贴近真实使用场景。 这次文心的考试结果,在三个方面得分很高:创意写作第一,复杂长问题理解稳定领先,指令遵循能力:进入一线梯队。这三个维度,恰好组成了一个 agent-ready 语言模型最核心的三角形结构。 特别是创意写作这个点,这其实是最不容易欺骗的维度,它考的是语言建模是否真的贴近人类思维节奏,能不能写出不油腻,有节奏感的段落。 这次我看到的文心不一样的点就在能用中文表达出轻盈克制,并且不空洞的内容。这种能力其实有点稀缺, 更关键的是这还只是 Preview,正式版本会下周百度世界大会上亮相。现在看到的能力,还只是可控泄露版本。


curious guy creating things @ https://t.co/HXWladhJaA - up and coming wife guy


喜欢摇滚乐、爱钓鱼的PM 网站:https://t.co/vnUpLt752o


the equivalent of the bailout in this case is technocapital realizing it doesnt actually need the next generation of founders. its okay to cook gen alpha until they cant even form a coherent sentence, because you wont need them by the time theyre 30 to continue economic growth
