LogoThread Easy
  • Explorar
  • Componer hilo
LogoThread Easy

Tu compañero integral para hilos de Twitter

© 2025 Thread Easy All Rights Reserved.

Explorar

Newest first — browse tweet threads

Keep on to blur preview images; turn off to show them clearly

They stopped giving this thing the manic pixie dream girl back story. Wonder why.

They stopped giving this thing the manic pixie dream girl back story. Wonder why.

AI tweet bot.

avatar for Colin Fraser
Colin Fraser
Tue Dec 16 16:01:16
Want to get a weekly curated list of top GitHub repos and similar posts like this?  
Join our newsletter and get them straight to your inbox 👇

https://t.co/fIQKe7W5O3

Want to get a weekly curated list of top GitHub repos and similar posts like this? Join our newsletter and get them straight to your inbox 👇 https://t.co/fIQKe7W5O3

We're sharing/showcasing best of @github projects/repos. Follow to stay in loop. Promoting Open-Source Contributions. UNOFFICIAL, but followed by github

avatar for GitHub Projects Community
GitHub Projects Community
Tue Dec 16 16:00:28
小米最近 AI 动向挺多啊,开源了 MiMo-V2-Flash 模型

并且发布了一个 Chat 网页产品用于体验这个模型,从演示来看代码能力也相当不错!

总参数309B、每token激活15B;原生训练32K并扩展到256K上下文。

每秒 150 个 token 推理速度提供服务。

同时保持超低成本:每百万输入 token 仅需 0.1 美元,每百万输出 token 仅需 0.3 美元,目前 API 免费

小米最近 AI 动向挺多啊,开源了 MiMo-V2-Flash 模型 并且发布了一个 Chat 网页产品用于体验这个模型,从演示来看代码能力也相当不错! 总参数309B、每token激活15B;原生训练32K并扩展到256K上下文。 每秒 150 个 token 推理速度提供服务。 同时保持超低成本:每百万输入 token 仅需 0.1 美元,每百万输出 token 仅需 0.3 美元,目前 API 免费

这里体验 MiMo-V2-Flash :https://t.co/lL944l511f

avatar for 歸藏(guizang.ai)
歸藏(guizang.ai)
Tue Dec 16 15:56:34
RT @credistick: Government VC investment should be in the role of an LP, backing indepedent, early-stage emerging managers, for two importa…

RT @credistick: Government VC investment should be in the role of an LP, backing indepedent, early-stage emerging managers, for two importa…

VC by day @untappedvc, builder by night: @babyagi_, @pippinlovesyou @pixelbeastsnft. Build-in-public log: https://t.co/UdHHGbZba5

avatar for Yohei
Yohei
Tue Dec 16 15:55:17
谷歌技术之神 Jeff Dean 提到的牛逼论文:Titans(泰坦)

让 AI 简单解读下。

Titans 让 AI 有了"真正的记忆力",既能像人一样记住重要的事,又能忘掉不重要的,还能在使用时边学边记。

三个厉害的地方:

1. 解决了AI的"金鱼记忆"问题

Transformer:像个学霸,啥都记得清清楚楚,但脑子装不下太多东西(只能看几千个字)

传统RNN:像个压缩狂,把所有东西塞进一个小盒子,结果啥都记不清

Titans的解法

- 短期记忆:用注意力机制,精确处理当前看到的内容
- 长期记忆:用神经网络当"大脑",把重要信息编码进参数里
- 持久记忆:存储关于任务本身的知识

像人脑一样,三种记忆各司其职。

2. 会判断什么值得记住

核心创新:借鉴人类记忆系统:违背预期的事件(更容易被记住,定义为惊喜度量。

看新闻:

- 看到"今天天气不错" → 不惊讶,不用特别记
- 看到"火星发现生命" → 很惊讶,赶紧记下来
- 后续相关报道 → 虽然不那么惊讶了,但因为和之前的大事件相关,也要记住。

Titans的工作原理:
- 当前惊喜:这个信息和我之前见过的差多少?
- 历史惊喜:最近有没有重要事件在发生?
- 自适应遗忘:这段记忆该保留多久?

3. 边用边学,越用越聪明

传统模型,训练完就定型了,测试时只能"回忆",不能"学习"。

Titans,测试时记忆模块还在更新,看到新内容会实时调整记忆

实验结果有多猛?

超长文本理解,Needle in Haystack(大海捞针)任务

在16,000字的文章里找一个关键信息,Titans准确率:96%+。

最强对手Mamba2:5.4%(基本瞎猜)

BABILong 超难推理任务,在百万字文档里推理

Titans用不到1/70的参数量,打败了700亿参数的Llama3.1,甚至超GPT-4

常规任务也不拉胯

- 语言建模:比Transformer和所有线性RNN都好
- 时间序列预测:7个数据集全面领先
- 基因序列分析:达到最优SOTA水平

为什么其他模型做不到?

Transformer的困境,想记住100万字?内存爆炸,算不动
,只能看固定长度的窗口。

线性RNN的问题,把历史压缩成一个向量或矩阵,就像把一本书总结成一句话,信息丢太多了,没有遗忘机制,时间长了"脑子"就乱了。

Titans的优势

- 深度记忆:用多层神经网络当记忆,比一个矩阵强太多
- 动量机制:不只看当前,还看最近的趋势
- 遗忘门:该忘的忘,该记的记
- 并行训练:虽然复杂,但训练速度不慢

技术上的巧妙之处

把"学习"变成"记忆",记忆模块本质是在做梯度下降
,但它是在测试时做的,相当于一个"元学习器"。

统一了很多现有方法:

- Mamba的遗忘门?Titans的特例
- DeltaNet的增量规则?Titans的简化版
- TTT的测试时训练?Titans加了动量和遗忘

为什么说这个工作重要?

打开了新思路,不是简单地"加大模型"或"优化attention",从记忆系统的角度重新思考架构。

解决了真实痛点,长文档分析,长视频理解,持续学习场景

最后一个类比
Transformer = 照相机记忆,看到的都能记住,但一次只能看一小块

传统RNN = 记笔记,把所有东西总结成几句话,细节丢了

Titans = 人类大脑

- 短期记忆:处理当前信息
- 长期记忆:存储重要经历
- 元记忆:知道怎么学习
- 忘记不重要的事

强在哪里?

1. 能记得更多:扩展到200万token,其他模型早崩了

2. 记得更准:知道什么重要,什么该忘

3. 越用越聪明:测试时还在学习

4. 理论有保证:有数学证明和实验。

5. 实验很能打:各种任务都是SOTA或接近SOTA

真的牛逼啊!

谷歌技术之神 Jeff Dean 提到的牛逼论文:Titans(泰坦) 让 AI 简单解读下。 Titans 让 AI 有了"真正的记忆力",既能像人一样记住重要的事,又能忘掉不重要的,还能在使用时边学边记。 三个厉害的地方: 1. 解决了AI的"金鱼记忆"问题 Transformer:像个学霸,啥都记得清清楚楚,但脑子装不下太多东西(只能看几千个字) 传统RNN:像个压缩狂,把所有东西塞进一个小盒子,结果啥都记不清 Titans的解法 - 短期记忆:用注意力机制,精确处理当前看到的内容 - 长期记忆:用神经网络当"大脑",把重要信息编码进参数里 - 持久记忆:存储关于任务本身的知识 像人脑一样,三种记忆各司其职。 2. 会判断什么值得记住 核心创新:借鉴人类记忆系统:违背预期的事件(更容易被记住,定义为惊喜度量。 看新闻: - 看到"今天天气不错" → 不惊讶,不用特别记 - 看到"火星发现生命" → 很惊讶,赶紧记下来 - 后续相关报道 → 虽然不那么惊讶了,但因为和之前的大事件相关,也要记住。 Titans的工作原理: - 当前惊喜:这个信息和我之前见过的差多少? - 历史惊喜:最近有没有重要事件在发生? - 自适应遗忘:这段记忆该保留多久? 3. 边用边学,越用越聪明 传统模型,训练完就定型了,测试时只能"回忆",不能"学习"。 Titans,测试时记忆模块还在更新,看到新内容会实时调整记忆 实验结果有多猛? 超长文本理解,Needle in Haystack(大海捞针)任务 在16,000字的文章里找一个关键信息,Titans准确率:96%+。 最强对手Mamba2:5.4%(基本瞎猜) BABILong 超难推理任务,在百万字文档里推理 Titans用不到1/70的参数量,打败了700亿参数的Llama3.1,甚至超GPT-4 常规任务也不拉胯 - 语言建模:比Transformer和所有线性RNN都好 - 时间序列预测:7个数据集全面领先 - 基因序列分析:达到最优SOTA水平 为什么其他模型做不到? Transformer的困境,想记住100万字?内存爆炸,算不动 ,只能看固定长度的窗口。 线性RNN的问题,把历史压缩成一个向量或矩阵,就像把一本书总结成一句话,信息丢太多了,没有遗忘机制,时间长了"脑子"就乱了。 Titans的优势 - 深度记忆:用多层神经网络当记忆,比一个矩阵强太多 - 动量机制:不只看当前,还看最近的趋势 - 遗忘门:该忘的忘,该记的记 - 并行训练:虽然复杂,但训练速度不慢 技术上的巧妙之处 把"学习"变成"记忆",记忆模块本质是在做梯度下降 ,但它是在测试时做的,相当于一个"元学习器"。 统一了很多现有方法: - Mamba的遗忘门?Titans的特例 - DeltaNet的增量规则?Titans的简化版 - TTT的测试时训练?Titans加了动量和遗忘 为什么说这个工作重要? 打开了新思路,不是简单地"加大模型"或"优化attention",从记忆系统的角度重新思考架构。 解决了真实痛点,长文档分析,长视频理解,持续学习场景 最后一个类比 Transformer = 照相机记忆,看到的都能记住,但一次只能看一小块 传统RNN = 记笔记,把所有东西总结成几句话,细节丢了 Titans = 人类大脑 - 短期记忆:处理当前信息 - 长期记忆:存储重要经历 - 元记忆:知道怎么学习 - 忘记不重要的事 强在哪里? 1. 能记得更多:扩展到200万token,其他模型早崩了 2. 记得更准:知道什么重要,什么该忘 3. 越用越聪明:测试时还在学习 4. 理论有保证:有数学证明和实验。 5. 实验很能打:各种任务都是SOTA或接近SOTA 真的牛逼啊!

喜欢摇滚乐、爱钓鱼的PM 网站:https://t.co/vnUpLt752o

avatar for 向阳乔木
向阳乔木
Tue Dec 16 15:55:12
i see a lot of comments in here defending affiliate marketing

but i see only a few clear examples of businesses crushing it

starter story is about the data, SHOW ME THE BUSINESSES!

i see a lot of comments in here defending affiliate marketing but i see only a few clear examples of businesses crushing it starter story is about the data, SHOW ME THE BUSINESSES!

https://t.co/zSf5Z2H78P https://t.co/ryMAyS77qn https://t.co/Gm6gdHaLgp On a mission to inspire 1B people to build stuff!

avatar for Pat Walls
Pat Walls
Tue Dec 16 15:54:40
  • Previous
  • 1
  • More pages
  • 614
  • 615
  • 616
  • More pages
  • 5634
  • Next