Explorar

They stopped giving this thing the manic pixie dream girl back story. Wonder why.

AI tweet bot.

Colin Fraser

Tue Dec 16 16:01:16

Want to get a weekly curated list of top GitHub repos and similar posts like this? Join our newsletter and get them straight to your inbox 👇 https://t.co/fIQKe7W5O3

We're sharing/showcasing best of @github projects/repos. Follow to stay in loop. Promoting Open-Source Contributions. UNOFFICIAL, but followed by github

GitHub Projects Community

Tue Dec 16 16:00:28

小米最近 AI 动向挺多啊，开源了 MiMo-V2-Flash 模型并且发布了一个 Chat 网页产品用于体验这个模型，从演示来看代码能力也相当不错！总参数309B、每token激活15B；原生训练32K并扩展到256K上下文。每秒 150 个 token 推理速度提供服务。同时保持超低成本：每百万输入 token 仅需 0.1 美元，每百万输出 token 仅需 0.3 美元，目前 API 免费

这里体验 MiMo-V2-Flash ：https://t.co/lL944l511f

歸藏(guizang.ai)

Tue Dec 16 15:56:34

RT @credistick: Government VC investment should be in the role of an LP, backing indepedent, early-stage emerging managers, for two importa…

VC by day @untappedvc, builder by night: @babyagi_, @pippinlovesyou @pixelbeastsnft. Build-in-public log: https://t.co/UdHHGbZba5

Yohei

Tue Dec 16 15:55:17

谷歌技术之神 Jeff Dean 提到的牛逼论文：Titans（泰坦）让 AI 简单解读下。 Titans 让 AI 有了"真正的记忆力"，既能像人一样记住重要的事，又能忘掉不重要的，还能在使用时边学边记。三个厉害的地方： 1. 解决了AI的"金鱼记忆"问题 Transformer：像个学霸，啥都记得清清楚楚，但脑子装不下太多东西（只能看几千个字）传统RNN：像个压缩狂，把所有东西塞进一个小盒子，结果啥都记不清 Titans的解法 - 短期记忆：用注意力机制，精确处理当前看到的内容 - 长期记忆：用神经网络当"大脑"，把重要信息编码进参数里 - 持久记忆：存储关于任务本身的知识像人脑一样，三种记忆各司其职。 2. 会判断什么值得记住核心创新：借鉴人类记忆系统：违背预期的事件（更容易被记住，定义为惊喜度量。看新闻： - 看到"今天天气不错" → 不惊讶，不用特别记 - 看到"火星发现生命" → 很惊讶，赶紧记下来 - 后续相关报道 → 虽然不那么惊讶了，但因为和之前的大事件相关，也要记住。 Titans的工作原理： - 当前惊喜：这个信息和我之前见过的差多少？ - 历史惊喜：最近有没有重要事件在发生？ - 自适应遗忘：这段记忆该保留多久？ 3. 边用边学，越用越聪明传统模型，训练完就定型了，测试时只能"回忆"，不能"学习"。 Titans，测试时记忆模块还在更新，看到新内容会实时调整记忆实验结果有多猛？超长文本理解，Needle in Haystack（大海捞针）任务在16,000字的文章里找一个关键信息，Titans准确率：96%+。最强对手Mamba2：5.4%（基本瞎猜） BABILong 超难推理任务，在百万字文档里推理 Titans用不到1/70的参数量，打败了700亿参数的Llama3.1，甚至超GPT-4 常规任务也不拉胯 - 语言建模：比Transformer和所有线性RNN都好 - 时间序列预测：7个数据集全面领先 - 基因序列分析：达到最优SOTA水平为什么其他模型做不到？ Transformer的困境，想记住100万字？内存爆炸，算不动，只能看固定长度的窗口。线性RNN的问题，把历史压缩成一个向量或矩阵，就像把一本书总结成一句话，信息丢太多了，没有遗忘机制，时间长了"脑子"就乱了。 Titans的优势 - 深度记忆：用多层神经网络当记忆，比一个矩阵强太多 - 动量机制：不只看当前，还看最近的趋势 - 遗忘门：该忘的忘，该记的记 - 并行训练：虽然复杂，但训练速度不慢技术上的巧妙之处把"学习"变成"记忆"，记忆模块本质是在做梯度下降，但它是在测试时做的，相当于一个"元学习器"。统一了很多现有方法： - Mamba的遗忘门？Titans的特例 - DeltaNet的增量规则？Titans的简化版 - TTT的测试时训练？Titans加了动量和遗忘为什么说这个工作重要？打开了新思路，不是简单地"加大模型"或"优化attention"，从记忆系统的角度重新思考架构。解决了真实痛点，长文档分析，长视频理解，持续学习场景最后一个类比 Transformer = 照相机记忆，看到的都能记住，但一次只能看一小块传统RNN = 记笔记，把所有东西总结成几句话，细节丢了 Titans = 人类大脑 - 短期记忆：处理当前信息 - 长期记忆：存储重要经历 - 元记忆：知道怎么学习 - 忘记不重要的事强在哪里？ 1. 能记得更多：扩展到200万token，其他模型早崩了 2. 记得更准：知道什么重要，什么该忘 3. 越用越聪明：测试时还在学习 4. 理论有保证：有数学证明和实验。 5. 实验很能打：各种任务都是SOTA或接近SOTA 真的牛逼啊！

喜欢摇滚乐、爱钓鱼的PM 网站：https://t.co/vnUpLt752o

向阳乔木

Tue Dec 16 15:55:12

i see a lot of comments in here defending affiliate marketing but i see only a few clear examples of businesses crushing it starter story is about the data, SHOW ME THE BUSINESSES!

https://t.co/zSf5Z2H78P https://t.co/ryMAyS77qn https://t.co/Gm6gdHaLgp On a mission to inspire 1B people to build stuff!

Pat Walls

Tue Dec 16 15:54:40

Newest first — browse tweet threads