Explorar

Cynical take from Distinguished Scientist at Google. 1. This Meta researcher switched from Physics to AI before ChatGPT, back when AI researchers weren’t getting crazy money. 2. There’s nothing wrong with making money. Don’t dismiss everyone’s passion as greed. It’s a shallow way to see the people you don’t know.

Co-founder & CTO @hyperbolic_labs cooking fun AI systems. Prev: OctoAI (acquired by @nvidia) building Apache TVM, PhD @ University of Washington.

Yuchen Jin

Mon Nov 03 04:59:20

AI 公司们为了获取“高质量”的语料，把大量 19 世纪末、20 世纪初的文学作品喂给了模型。 AI 忠实地学习了那个年代的写作风格——其中就包括对“破折号”的狂热喜爱。

学AI找小互，找小互，上 https://t.co/4PVaHEr5r3 ...

小互

Mon Nov 03 04:52:42

这个观点有意思如果cf出了自己的pg数据库，那么cf就可以统治web了，因为它几乎什么都有了

🚀 The best AI SaaS boilerplate - https://t.co/VyNtTs0jSX 🔥 The best directory boilerplate with AI - https://t.co/wEvJ1Dd8aR 🎉 https://t.co/zubXJCoY92 & https://t.co/tfQf8T7gGF & https://t.co/TqRkfQj41f

Fox@MkSaaS.com

Mon Nov 03 04:48:20

Also all you need to know: 1. One person leans in and shares everything they can. 2. The other blocks ppl like me, for weighing in with a firsthand account of the situation. 🤷🏻♀️

📈 Leading Growth @GroqInc 📌 Prev @a16z @HubSpot @TheHustle 💻 Chronically online: https://t.co/AkbwhoTr0K 📘 Wrote https://t.co/w1DBDrOZdI 🎙 Podcast at @sydlis 👇

Steph Smith

Mon Nov 03 04:47:56

关于 ChatGPT 为什么喜欢用破折号，这个问题的原因似乎现在还没有定论，不过刚看到一篇博客分析这个问题，还挺有趣。先说一个有趣的问题是 AI 特别喜欢用 "delve"（深入探究）这个词。这个现象的答案是已知的：RLHF（人类反馈强化学习）。简单说，AI 模型训练的最后一步，是雇佣大量的人类“导师”来给它的回答打分。OpenAI 雇佣的导师很多在肯尼亚、尼日利亚等非洲国家。而在这些地区的“非洲英语”中，"delve" 是一个非常常用且得体的词汇。于是，当 AI 用 "delve" 时，非洲的导师们觉得“这话说得不错”，就给了高分。AI 就此学会了：“哦，客户喜欢我用‘delve’。” 那么，破折号也是因为这个原因吗？作者顺着这个思路去查证：是不是非洲英语里也特别爱用破折号？结果，并不是！尼日利亚英语破折号的出现频率（每词 0.022%）远低于普通英语的平均水平（0.25% 到 0.275%）。这说明，“深入探究”（delve）和“破折号”（—）这两个 AI “口音”，来源并不相同。作者最终发现了一个决定性的线索：时间。大家回忆一下，2022 年底的 GPT-3.5，其实并没有这个毛病。这个“破折号上瘾症”是在 GPT-4 和 GPT-4o 身上才集中爆发的。不只是 OpenAI，谷歌和 Anthropic 的模型，包括一些中国的大模型，都开始用破折号。那么，从 2022 年到 2024 年，所有 AI 实验室的训练数据，到底发生了什么共同的变化？答案是：AI 公司的“数据荒”来了，它们开始疯狂“喂”AI 吃书——特别是“旧书”。在 2022 年，AI 主要吃的是互联网上的公开数据、盗版电子书（比如 LibGen 上的）。但很快，这些数据就不够用了，而且质量良莠不齐。为了让模型变得更“有文化”、更“高质量”，AI 公司们（法庭文件显示 Anthropic 在 2024 年 2 月开始了这项工作，OpenAI 只会更早）启动了一个庞大的工程：大规模扫描实体书，把纸质书数字化，作为训练数据。好了，破案的最后一块拼图来了。既然 AI 吃了大量（可能是几百万册）扫描的纸质书，那么这些书是什么年代的呢？盗版电子书网站上的书，大多是当代流行读物。而 AI 公司为了“填饱肚子”并绕开版权，扫描的书中，有很大一部分是更古老的、已进入公共领域的作品。作者找到了一个关于英语标点符号使用频率的研究，它显示：破折号在英语文学中的使用频率，在 1860 年左右达到了顶峰（约 0.35%），在 19 世纪末和 20 世纪初的使用率，远高于当代英语。作者举了个例子：著名的《白鲸记》（Moby-Dick，1851年出版）一书中，破折号出现了 1728 次！真相至此水落石出：我们现在用的最先进的 AI，它的“标点符号观”并不是从 2020 年的互联网学来的，而是从 1890 年的旧小说里继承的。 AI 公司们为了获取“高质量”的语料，把大量 19 世纪末、20 世纪初的文学作品喂给了模型。AI 忠实地学习了那个年代的写作风格——其中就包括对“破折号”的狂热喜爱。当然，作者也承认，这仍然是一个基于证据的推测，还有一些小疑问没解决： 1. 为什么 AI 只学会了用破折号，却没有学会像《白鲸记》的船长那样说话？也许模型只是吸收了标点符号这种“潜意识”的风格，而没有吸收具体的用词？ 2. 有没有更简单的解释？比如，Sam Altman 曾随口提过，他们发现 RLHF 的人类导师“似乎更喜欢”带破折号的回答，觉得那样更“口语化”，所以就“多加了点”。不过，综合来看，“扫描旧书”这个理论目前是最有说服力的。它完美地解释了为什么 GPT-3.5 不会，而 GPT-4 之后的模型（它们都大量训练了新的书籍数据），然后集体对破折号“上瘾”了。有兴趣可以看看原文：https://t.co/BxRnoWxsnS

Prompt Engineer, dedicated to learning and disseminating knowledge about AI, software engineering, and engineering management.

宝玉

Mon Nov 03 04:47:49

关于 ChatGPT 为什么喜欢用破折号，这个问题的原因似乎现在还没有定论，不过刚看到一篇博客分析这个问题，还挺有趣。先说一个有趣的问题是 AI 特别喜欢用 "delve"（深入探究）这个词。这个现象的答案是已知的：RLHF（人类反馈强化学习）。简单说，AI 模型训练的最后一步，是雇佣大量的人类“导师”来给它的回答打分。OpenAI 雇佣的导师很多在肯尼亚、尼日利亚等非洲国家。而在这些地区的“非洲英语”中，"delve" 是一个非常常用且得体的词汇。于是，当 AI 用 "delve" 时，非洲的导师们觉得“这话说得不错”，就给了高分。AI 就此学会了：“哦，客户喜欢我用‘delve’。” 那么，破折号也是因为这个原因吗？作者顺着这个思路去查证：是不是非洲英语里也特别爱用破折号？结果，并不是！尼日利亚英语破折号的出现频率（每词 0.022%）远低于普通英语的平均水平（0.25% 到 0.275%）。这说明，“深入探究”（delve）和“破折号”（—）这两个 AI “口音”，来源并不相同。作者最终发现了一个决定性的线索：时间。大家回忆一下，2022 年底的 GPT-3.5，其实并没有这个毛病。这个“破折号上瘾症”是在 GPT-4 和 GPT-4o 身上才集中爆发的。不只是 OpenAI，谷歌和 Anthropic 的模型，包括一些中国的大模型，都开始用破折号。那么，从 2022 年到 2024 年，所有 AI 实验室的训练数据，到底发生了什么共同的变化？答案是：AI 公司的“数据荒”来了，它们开始疯狂“喂”AI 吃书——特别是“旧书”。在 2022 年，AI 主要吃的是互联网上的公开数据、盗版电子书（比如 LibGen 上的）。但很快，这些数据就不够用了，而且质量良莠不齐。为了让模型变得更“有文化”、更“高质量”，AI 公司们（法庭文件显示 Anthropic 在 2024 年 2 月开始了这项工作，OpenAI 只会更早）启动了一个庞大的工程：大规模扫描实体书，把纸质书数字化，作为训练数据。好了，破案的最后一块拼图来了。既然 AI 吃了大量（可能是几百万册）扫描的纸质书，那么这些书是什么年代的呢？盗版电子书网站上的书，大多是当代流行读物。而 AI 公司为了“填饱肚子”并绕开版权，扫描的书中，有很大一部分是更古老的、已进入公共领域的作品。作者找到了一个关于英语标点符号使用频率的研究，它显示：破折号在英语文学中的使用频率，在 1860 年左右达到了顶峰（约 0.35%），在 19 世纪末和 20 世纪初的使用率，远高于当代英语。作者举了个例子：著名的《白鲸记》（Moby-Dick，1851年出版）一书中，破折号出现了 1728 次！真相至此水落石出：我们现在用的最先进的 AI，它的“标点符号观”并不是从 2020 年的互联网学来的，而是从 1890 年的旧小说里继承的。 AI 公司们为了获取“高质量”的语料，把大量 19 世纪末、20 世纪初的文学作品喂给了模型。AI 忠实地学习了那个年代的写作风格——其中就包括对“破折号”的狂热喜爱。当然，作者也承认，这仍然是一个基于证据的推测，还有一些小疑问没解决： 1. 为什么 AI 只学会了用破折号，却没有学会像《白鲸记》的船长那样说话？也许模型只是吸收了标点符号这种“潜意识”的风格，而没有吸收具体的用词？ 2. 有没有更简单的解释？比如，Sam Altman 曾随口提过，他们发现 RLHF 的人类导师“似乎更喜欢”带破折号的回答，觉得那样更“口语化”，所以就“多加了点”。不过，综合来看，“扫描旧书”这个理论目前是最有说服力的。它完美地解释了为什么 GPT-3.5 不会，而 GPT-4 之后的模型（它们都大量训练了新的书籍数据），然后集体对破折号“上瘾”了。有兴趣可以看看原文：https://t.co/BxRnoWxsnS

Prompt Engineer, dedicated to learning and disseminating knowledge about AI, software engineering, and engineering management.

宝玉

Mon Nov 03 04:47:49

Newest first — browse tweet threads

Explorar

Newest first — browse tweet threads

AI 公司们为了获取“高质量”的语料，把大量 19 世纪末、20 世纪初的文学作品喂给了模型。 AI 忠实地学习了那个年代的写作风格——其中就包括对“破折号”的狂热喜爱。

这个观点有意思如果cf出了自己的pg数据库，那么cf就可以统治web了，因为它几乎什么都有了

Also all you need to know: 1. One person leans in and shares everything they can. 2. The other blocks ppl like me, for weighing in with a firsthand account of the situation. 🤷🏻♀️

Explorar

Newest first — browse tweet threads

Explorar

Newest first — browse tweet threads

AI 公司们为了获取“高质量”的语料，把大量 19 世纪末、20 世纪初的文学作品喂给了模型。 AI 忠实地学习了那个年代的写作风格——其中就包括对“破折号”的狂热喜爱。

这个观点有意思 如果cf出了自己的pg数据库，那么cf就可以统治web了，因为它几乎什么都有了

Also all you need to know: 1. One person leans in and shares everything they can. 2. The other blocks ppl like me, for weighing in with a firsthand account of the situation. 🤷🏻♀️

这个观点有意思如果cf出了自己的pg数据库，那么cf就可以统治web了，因为它几乎什么都有了