Explorar

基于王冠提到的OpenAI研究员之前在斯坦福分享的，让AI写一篇容易懂的文章。训练GPT到底在干什么？大多数人会说"学语言规律""预测下一个词"。这些都对，但还不够深刻。 OpenAI的Jack Rae 在斯坦福提出了一个让人眼前一亮的视角：训练大语言模型，本质上是在做无损压缩。很反直觉对吧？一个175B参数的模型，怎么可能是"压缩"？但如果你理解了这个视角，很多困惑就会豁然开朗。先聊点哲学。早在公元前4世纪，亚里士多德就说过："用更少假设推导出的论证，往往更优越"。这种"简单即美"的思想，后来被14世纪的奥卡姆总结成著名的"奥卡姆剃刀"原则，最简单的解释往往是正确的。但这些哲学思辨，在1964年被Ray Solomonoff变成了可证明的数学定理：如果一个数据集是由某个算法生成的，那么预测这个数据集的最佳方式，就是找到该数据集的最小可执行压缩包。定理很精妙，说的是：你对数据压缩得越好，就越理解数据的本质。回想下"中文房间"这个经典思想实验。一个人拿着一本巨大的规则手册，里面记录了所有可能的英文句子和对应的中文翻译。这个人真的"理解"翻译吗？从压缩的角度看，答案很清楚：这本手册太大了，是最差的理解方式。如果出现一个新词、新表达，系统立刻崩溃，因为它只是在查表，没有真正理解语言的规律。但如果你能把这本手册压缩成一套精简的语法规则和核心词汇，那就不一样了。压缩率越高，说明你提炼出的规律越本质，泛化能力就越强。大语言模型是最好的压缩器先看一组惊人的数字。 Meta发布的Llama模型，65B版本在1.4万亿token的数据上训练了一个epoch。原始数据大小是5.6TB，但如果用这个模型来"压缩"，最终只需要大约400GB的空间。压缩率14倍。作为对比，目前最好的传统文本压缩算法（Hutter Prize获奖者）的压缩率是 8.7倍。大语言模型已经是最先进的无损文本压缩器了。你可能会问：等等，65B的模型本身不就有260GB吗？怎么能说压缩后只有400GB？这就是最精彩的部分。你不需要传输模型权重，关键在于理解"压缩"的真正含义。假设：你想把维基百科的全部内容发给朋友，但带宽很低。传统方法是用gzip压缩，但有个更聪明的办法：你发给朋友两样东西： 1. 一段训练Transformer的代码（只有1MB） 2. 用这个模型压缩后的数据序列（400GB）朋友收到后，用这段代码从头训练一个一模一样的模型。每预测一个token，就用压缩数据"解码"出真实token，然后继续训练，预测下一个。重复这个过程，就能完整还原5.6TB的原始数据。看到了吗？模型权重从来不需要传输。无论你训练10层还是1000层的Transformer，初始化代码的复杂度几乎一样。真正占空间的是"压缩后的数据"，而这个大小取决于模型预测得有多准。这就是为什么更大的模型反而压缩得更好。让我们重新理解"简单"。传统机器学习告诉我们"小模型泛化更好"，因为它们"更简单"。但这里的"简单"指的是参数少。压缩视角告诉我们：真正的简单不是参数少，而是对数据的描述更简洁。 Llama 33B和65B的"代码复杂度"完全一样（都是那1MB的训练代码），但65B把数据压缩得更小。所以从根本上说，65B是更"简单"的模型，也是更智能的模型。这就是为什么大模型不会过拟合，为什么scaling law有效。只要模型能更好地压缩数据，它就在学习更本质的规律，就会有更强的泛化能力。压缩视角还给了我们一个特别的礼物：它是唯一不可博弈的训练目标。测试集污染是现在大模型评估的大问题。但如果用压缩来衡量，这个问题不存在。假设你把整个测试集都塞进训练集，让模型完美记住。这样模型预测准确率是100%，压缩数据的部分确实变成0了。但代价是什么？你要把整个数据集都算进"模型描述长度"里。总体压缩效果反而变差。这就是压缩的优雅之处：任何作弊手段都会在数学上暴露出来。只有真正学到本质规律，才能做到更好的压缩。从这个视角看，通往AGI的路径变得清晰了：收集所有有用的感知信息，然后尽可能地压缩它。任何能提升压缩率的方法都值得研究： • 更好的架构（S4、稀疏注意力） • 继续scaling（更大模型、更多数据） • 工具使用（计算器、检索器） • 合成数据 • 多模态融合只要它能降低"压缩后的总大小"，就是在朝AGI前进。回顾历史，每一次AI的范式转变，本质上都是一次压缩的飞跃： • n-gram 让我们有了基本的语音识别 • RNN 让我们能生成连贯的段落，做机器翻译 • 大规模 Transformer 让我们能理解长文档，做复杂推理每一次，我们都在把世界的信息压缩得更紧凑，理解得更深刻。当然，这个视角也有局限。对图像、视频这种高维数据，逐像素建模可能正确但不实用。计算量会爆炸。可能需要先做一些语义层面的过滤。更重要的是，世界上有很多有用的信息是不可观测的。比如围棋高手的"搜索树"，你只能看到落子，看不到他们考虑的那些分支。这就是为什么AlphaZero需要自我对弈，它在生成那些不可观测的数据。所以压缩可观测数据是必要的，但不充分。强化学习、主动探索这些方法仍然不可或缺。但无论如何，压缩给了我们一个理解智能的新角度。当我们说模型"涌现"了新能力，本质上是不是压缩率跨过了某个临界点？当我们说模型"理解"了某个概念，是不是说它找到了一种更简洁的方式来编码相关信息？当我们追求AGI，是不是就是在寻找宇宙信息的最小描述长度？这些问题没有标准答案。但这正是这个领域迷人的地方：我们在用数学和工程，探索智能的本质。智能的本质，也许就藏在压缩里。而我们现在做的，就是在这条路上，一步步走向那个最简洁、最优雅的答案。

原始视频地址 https://t.co/0PHaKYslmc

向阳乔木

Mon Dec 15 05:51:26

RT @jhleath: an interesting update: the team is starting to move away from AI coding completely (devin/claude/etc) because it's so much har…

Root node of the web of threads: https://t.co/ifH80GcLpo

James Torre

Mon Dec 15 05:50:58

RT @sliminality: My talk "Concrete syntax matters, actually" from the Topos Institute Colloquium is now available! I think it's some of my…

Root node of the web of threads: https://t.co/ifH80GcLpo

James Torre

Mon Dec 15 05:48:11

🍃 One leaf, one world. Intricate leaf-cutout art brings enchanting scenes to life with mesmerizing detail!

Prompt Engineer, dedicated to learning and disseminating knowledge about AI, software engineering, and engineering management.

宝玉

Mon Dec 15 05:38:50

Gemini Web 端回答问题不给链接，每次还得自己搜来源？一句话解决👇 打开设置 → Personal context → 加入： "每次调用搜索后，将和结果相关的搜索链接都放到回答的最后，注明参考链接" 回复质量瞬间上一个档次。

AI and tech aficionado, keen on radios and e-readers. 🌐 https://t.co/aW55vLd67a

nicekate

Mon Dec 15 05:37:44

Wife and I have been laughing at this joke for the past 2 days The loading animation in the calculator broke the tech internet 😂😂😂

Creating software I love to use. 🧠 https://t.co/p4T2vFZoJ1 $137K/m 🧰 https://t.co/y0Lq4RQRsu $5K/m 📕 https://t.co/btuasMBHPT $518/m 🖼️ https://t.co/KfFdieGrVf $50/m

Tony Dinh

Mon Dec 15 05:37:24

Newest first — browse tweet threads

Explorar

Newest first — browse tweet threads

RT @jhleath: an interesting update: the team is starting to move away from AI coding completely (devin/claude/etc) because it's so much har…

RT @sliminality: My talk "Concrete syntax matters, actually" from the Topos Institute Colloquium is now available! I think it's some of my…

🍃 One leaf, one world. Intricate leaf-cutout art brings enchanting scenes to life with mesmerizing detail!

Gemini Web 端回答问题不给链接，每次还得自己搜来源？一句话解决👇 打开设置 → Personal context → 加入： "每次调用搜索后，将和结果相关的搜索链接都放到回答的最后，注明参考链接" 回复质量瞬间上一个档次。

Wife and I have been laughing at this joke for the past 2 days The loading animation in the calculator broke the tech internet 😂😂😂

Explorar

Newest first — browse tweet threads

Explorar

Newest first — browse tweet threads

RT @jhleath: an interesting update: the team is starting to move away from AI coding completely (devin/claude/etc) because it's so much har…

RT @sliminality: My talk "Concrete syntax matters, actually" from the Topos Institute Colloquium is now available! I think it's some of my…

🍃 One leaf, one world. Intricate leaf-cutout art brings enchanting scenes to life with mesmerizing detail!

Gemini Web 端回答问题不给链接，每次还得自己搜来源？ 一句话解决👇 打开设置 → Personal context → 加入： "每次调用搜索后，将和结果相关的搜索链接都放到回答的最后，注明参考链接" 回复质量瞬间上一个档次。

Wife and I have been laughing at this joke for the past 2 days The loading animation in the calculator broke the tech internet 😂😂😂

Gemini Web 端回答问题不给链接，每次还得自己搜来源？一句话解决👇 打开设置 → Personal context → 加入： "每次调用搜索后，将和结果相关的搜索链接都放到回答的最后，注明参考链接" 回复质量瞬间上一个档次。