LogoThread Easy
  • Explorar
  • Criar thread
LogoThread Easy

Seu parceiro completo para threads do Twitter

© 2025 Thread Easy All Rights Reserved.

Explorar

Newest first — browse tweet threads

Keep on to blur preview images; turn off to show them clearly

基于王冠提到的OpenAI研究员之前在斯坦福分享的,让AI写一篇容易懂的文章。

训练GPT到底在干什么?

大多数人会说"学语言规律""预测下一个词"。

这些都对,但还不够深刻。

OpenAI的Jack Rae 在斯坦福提出了一个让人眼前一亮的视角:训练大语言模型,本质上是在做无损压缩。

很反直觉对吧?
一个175B参数的模型,怎么可能是"压缩"?

但如果你理解了这个视角,很多困惑就会豁然开朗。

先聊点哲学。

早在公元前4世纪,亚里士多德就说过:"用更少假设推导出的论证,往往更优越"。

这种"简单即美"的思想,后来被14世纪的奥卡姆总结成著名的"奥卡姆剃刀"原则,最简单的解释往往是正确的。

但这些哲学思辨,在1964年被Ray Solomonoff变成了可证明的数学定理:

如果一个数据集是由某个算法生成的,那么预测这个数据集的最佳方式,就是找到该数据集的最小可执行压缩包。

定理很精妙,说的是:你对数据压缩得越好,就越理解数据的本质。

回想下"中文房间"这个经典思想实验。

一个人拿着一本巨大的规则手册,里面记录了所有可能的英文句子和对应的中文翻译。

这个人真的"理解"翻译吗?

从压缩的角度看,答案很清楚:这本手册太大了,是最差的理解方式。

如果出现一个新词、新表达,系统立刻崩溃,因为它只是在查表,没有真正理解语言的规律。

但如果你能把这本手册压缩成一套精简的语法规则和核心词汇,那就不一样了。

压缩率越高,说明你提炼出的规律越本质,泛化能力就越强。

大语言模型是最好的压缩器

先看一组惊人的数字。

Meta发布的Llama模型,65B版本在1.4万亿token的数据上训练了一个epoch。

原始数据大小是5.6TB,但如果用这个模型来"压缩",最终只需要大约400GB的空间。

压缩率14倍。

作为对比,目前最好的传统文本压缩算法(Hutter Prize获奖者)的压缩率是 8.7倍。

大语言模型已经是最先进的无损文本压缩器了。

你可能会问:等等,65B的模型本身不就有260GB吗?怎么能说压缩后只有400GB?

这就是最精彩的部分。

你不需要传输模型权重,关键在于理解"压缩"的真正含义。

假设:你想把维基百科的全部内容发给朋友,但带宽很低。

传统方法是用gzip压缩,但有个更聪明的办法:

你发给朋友两样东西:
1. 一段训练Transformer的代码(只有1MB)
2. 用这个模型压缩后的数据序列(400GB)

朋友收到后,用这段代码从头训练一个一模一样的模型。

每预测一个token,就用压缩数据"解码"出真实token,然后继续训练,预测下一个。

重复这个过程,就能完整还原5.6TB的原始数据。

看到了吗?模型权重从来不需要传输。

无论你训练10层还是1000层的Transformer,初始化代码的复杂度几乎一样。

真正占空间的是"压缩后的数据",而这个大小取决于模型预测得有多准。

这就是为什么更大的模型反而压缩得更好。

让我们重新理解"简单"。

传统机器学习告诉我们"小模型泛化更好",因为它们"更简单"。

但这里的"简单"指的是参数少。

压缩视角告诉我们:真正的简单不是参数少,而是对数据的描述更简洁。

Llama 33B和65B的"代码复杂度"完全一样(都是那1MB的训练代码),但65B把数据压缩得更小。

所以从根本上说,65B是更"简单"的模型,也是更智能的模型。

这就是为什么大模型不会过拟合,为什么scaling law有效。

只要模型能更好地压缩数据,它就在学习更本质的规律,就会有更强的泛化能力。

压缩视角还给了我们一个特别的礼物:它是唯一不可博弈的训练目标。

测试集污染是现在大模型评估的大问题。

但如果用压缩来衡量,这个问题不存在。

假设你把整个测试集都塞进训练集,让模型完美记住。

这样模型预测准确率是100%,压缩数据的部分确实变成0了。

但代价是什么?你要把整个数据集都算进"模型描述长度"里。

总体压缩效果反而变差。

这就是压缩的优雅之处:任何作弊手段都会在数学上暴露出来。

只有真正学到本质规律,才能做到更好的压缩。

从这个视角看,通往AGI的路径变得清晰了:

收集所有有用的感知信息,然后尽可能地压缩它。

任何能提升压缩率的方法都值得研究:

• 更好的架构(S4、稀疏注意力)
• 继续scaling(更大模型、更多数据)
• 工具使用(计算器、检索器)
• 合成数据
• 多模态融合

只要它能降低"压缩后的总大小",就是在朝AGI前进。

回顾历史,每一次AI的范式转变,本质上都是一次压缩的飞跃:
• n-gram 让我们有了基本的语音识别
• RNN 让我们能生成连贯的段落,做机器翻译
• 大规模 Transformer 让我们能理解长文档,做复杂推理

每一次,我们都在把世界的信息压缩得更紧凑,理解得更深刻。

当然,这个视角也有局限。

对图像、视频这种高维数据,逐像素建模可能正确但不实用。

计算量会爆炸。

可能需要先做一些语义层面的过滤。

更重要的是,世界上有很多有用的信息是不可观测的。

比如围棋高手的"搜索树",你只能看到落子,看不到他们考虑的那些分支。

这就是为什么AlphaZero需要自我对弈,它在生成那些不可观测的数据。

所以压缩可观测数据是必要的,但不充分。

强化学习、主动探索这些方法仍然不可或缺。

但无论如何,压缩给了我们一个理解智能的新角度。

当我们说模型"涌现"了新能力,本质上是不是压缩率跨过了某个临界点?

当我们说模型"理解"了某个概念,是不是说它找到了一种更简洁的方式来编码相关信息?

当我们追求AGI,是不是就是在寻找宇宙信息的最小描述长度?

这些问题没有标准答案。

但这正是这个领域迷人的地方:我们在用数学和工程,探索智能的本质。

智能的本质,也许就藏在压缩里。

而我们现在做的,就是在这条路上,一步步走向那个最简洁、最优雅的答案。

基于王冠提到的OpenAI研究员之前在斯坦福分享的,让AI写一篇容易懂的文章。 训练GPT到底在干什么? 大多数人会说"学语言规律""预测下一个词"。 这些都对,但还不够深刻。 OpenAI的Jack Rae 在斯坦福提出了一个让人眼前一亮的视角:训练大语言模型,本质上是在做无损压缩。 很反直觉对吧? 一个175B参数的模型,怎么可能是"压缩"? 但如果你理解了这个视角,很多困惑就会豁然开朗。 先聊点哲学。 早在公元前4世纪,亚里士多德就说过:"用更少假设推导出的论证,往往更优越"。 这种"简单即美"的思想,后来被14世纪的奥卡姆总结成著名的"奥卡姆剃刀"原则,最简单的解释往往是正确的。 但这些哲学思辨,在1964年被Ray Solomonoff变成了可证明的数学定理: 如果一个数据集是由某个算法生成的,那么预测这个数据集的最佳方式,就是找到该数据集的最小可执行压缩包。 定理很精妙,说的是:你对数据压缩得越好,就越理解数据的本质。 回想下"中文房间"这个经典思想实验。 一个人拿着一本巨大的规则手册,里面记录了所有可能的英文句子和对应的中文翻译。 这个人真的"理解"翻译吗? 从压缩的角度看,答案很清楚:这本手册太大了,是最差的理解方式。 如果出现一个新词、新表达,系统立刻崩溃,因为它只是在查表,没有真正理解语言的规律。 但如果你能把这本手册压缩成一套精简的语法规则和核心词汇,那就不一样了。 压缩率越高,说明你提炼出的规律越本质,泛化能力就越强。 大语言模型是最好的压缩器 先看一组惊人的数字。 Meta发布的Llama模型,65B版本在1.4万亿token的数据上训练了一个epoch。 原始数据大小是5.6TB,但如果用这个模型来"压缩",最终只需要大约400GB的空间。 压缩率14倍。 作为对比,目前最好的传统文本压缩算法(Hutter Prize获奖者)的压缩率是 8.7倍。 大语言模型已经是最先进的无损文本压缩器了。 你可能会问:等等,65B的模型本身不就有260GB吗?怎么能说压缩后只有400GB? 这就是最精彩的部分。 你不需要传输模型权重,关键在于理解"压缩"的真正含义。 假设:你想把维基百科的全部内容发给朋友,但带宽很低。 传统方法是用gzip压缩,但有个更聪明的办法: 你发给朋友两样东西: 1. 一段训练Transformer的代码(只有1MB) 2. 用这个模型压缩后的数据序列(400GB) 朋友收到后,用这段代码从头训练一个一模一样的模型。 每预测一个token,就用压缩数据"解码"出真实token,然后继续训练,预测下一个。 重复这个过程,就能完整还原5.6TB的原始数据。 看到了吗?模型权重从来不需要传输。 无论你训练10层还是1000层的Transformer,初始化代码的复杂度几乎一样。 真正占空间的是"压缩后的数据",而这个大小取决于模型预测得有多准。 这就是为什么更大的模型反而压缩得更好。 让我们重新理解"简单"。 传统机器学习告诉我们"小模型泛化更好",因为它们"更简单"。 但这里的"简单"指的是参数少。 压缩视角告诉我们:真正的简单不是参数少,而是对数据的描述更简洁。 Llama 33B和65B的"代码复杂度"完全一样(都是那1MB的训练代码),但65B把数据压缩得更小。 所以从根本上说,65B是更"简单"的模型,也是更智能的模型。 这就是为什么大模型不会过拟合,为什么scaling law有效。 只要模型能更好地压缩数据,它就在学习更本质的规律,就会有更强的泛化能力。 压缩视角还给了我们一个特别的礼物:它是唯一不可博弈的训练目标。 测试集污染是现在大模型评估的大问题。 但如果用压缩来衡量,这个问题不存在。 假设你把整个测试集都塞进训练集,让模型完美记住。 这样模型预测准确率是100%,压缩数据的部分确实变成0了。 但代价是什么?你要把整个数据集都算进"模型描述长度"里。 总体压缩效果反而变差。 这就是压缩的优雅之处:任何作弊手段都会在数学上暴露出来。 只有真正学到本质规律,才能做到更好的压缩。 从这个视角看,通往AGI的路径变得清晰了: 收集所有有用的感知信息,然后尽可能地压缩它。 任何能提升压缩率的方法都值得研究: • 更好的架构(S4、稀疏注意力) • 继续scaling(更大模型、更多数据) • 工具使用(计算器、检索器) • 合成数据 • 多模态融合 只要它能降低"压缩后的总大小",就是在朝AGI前进。 回顾历史,每一次AI的范式转变,本质上都是一次压缩的飞跃: • n-gram 让我们有了基本的语音识别 • RNN 让我们能生成连贯的段落,做机器翻译 • 大规模 Transformer 让我们能理解长文档,做复杂推理 每一次,我们都在把世界的信息压缩得更紧凑,理解得更深刻。 当然,这个视角也有局限。 对图像、视频这种高维数据,逐像素建模可能正确但不实用。 计算量会爆炸。 可能需要先做一些语义层面的过滤。 更重要的是,世界上有很多有用的信息是不可观测的。 比如围棋高手的"搜索树",你只能看到落子,看不到他们考虑的那些分支。 这就是为什么AlphaZero需要自我对弈,它在生成那些不可观测的数据。 所以压缩可观测数据是必要的,但不充分。 强化学习、主动探索这些方法仍然不可或缺。 但无论如何,压缩给了我们一个理解智能的新角度。 当我们说模型"涌现"了新能力,本质上是不是压缩率跨过了某个临界点? 当我们说模型"理解"了某个概念,是不是说它找到了一种更简洁的方式来编码相关信息? 当我们追求AGI,是不是就是在寻找宇宙信息的最小描述长度? 这些问题没有标准答案。 但这正是这个领域迷人的地方:我们在用数学和工程,探索智能的本质。 智能的本质,也许就藏在压缩里。 而我们现在做的,就是在这条路上,一步步走向那个最简洁、最优雅的答案。

原始视频地址 https://t.co/0PHaKYslmc

avatar for 向阳乔木
向阳乔木
Mon Dec 15 05:51:26
RT @jhleath: an interesting update: the team is starting to move away from AI coding completely (devin/claude/etc) because it's so much har…

RT @jhleath: an interesting update: the team is starting to move away from AI coding completely (devin/claude/etc) because it's so much har…

Root node of the web of threads: https://t.co/ifH80GcLpo

avatar for James Torre
James Torre
Mon Dec 15 05:50:58
RT @sliminality: My talk "Concrete syntax matters, actually" from the Topos Institute Colloquium is now available! I think it's some of my…

RT @sliminality: My talk "Concrete syntax matters, actually" from the Topos Institute Colloquium is now available! I think it's some of my…

Root node of the web of threads: https://t.co/ifH80GcLpo

avatar for James Torre
James Torre
Mon Dec 15 05:48:11
🍃 One leaf, one world. Intricate leaf-cutout art brings enchanting scenes to life with mesmerizing detail!

🍃 One leaf, one world. Intricate leaf-cutout art brings enchanting scenes to life with mesmerizing detail!

Prompt Engineer, dedicated to learning and disseminating knowledge about AI, software engineering, and engineering management.

avatar for 宝玉
宝玉
Mon Dec 15 05:38:50
Gemini Web 端回答问题不给链接,每次还得自己搜来源?

一句话解决👇

打开设置 → Personal context → 加入:

 "每次调用搜索后,将和结果相关的搜索链接都放到回答的最后,注明参考链接"

回复质量瞬间上一个档次。

Gemini Web 端回答问题不给链接,每次还得自己搜来源? 一句话解决👇 打开设置 → Personal context → 加入: "每次调用搜索后,将和结果相关的搜索链接都放到回答的最后,注明参考链接" 回复质量瞬间上一个档次。

AI and tech aficionado, keen on radios and e-readers. 🌐 https://t.co/aW55vLd67a

avatar for nicekate
nicekate
Mon Dec 15 05:37:44
Wife and I have been laughing at this joke for the past 2 days

The loading animation in the calculator broke the tech internet 😂😂😂

Wife and I have been laughing at this joke for the past 2 days The loading animation in the calculator broke the tech internet 😂😂😂

Creating software I love to use. 🧠 https://t.co/p4T2vFZoJ1 $137K/m 🧰 https://t.co/y0Lq4RQRsu $5K/m 📕 https://t.co/btuasMBHPT $518/m 🖼️ https://t.co/KfFdieGrVf $50/m

avatar for Tony Dinh
Tony Dinh
Mon Dec 15 05:37:24
  • Previous
  • 1
  • More pages
  • 736
  • 737
  • 738
  • More pages
  • 5634
  • Next