LogoThread Easy
  • 탐색
  • 스레드 작성
LogoThread Easy

트위터 스레드의 올인원 파트너

© 2025 Thread Easy All Rights Reserved.

탐색

Newest first — browse tweet threads

Keep on to blur preview images; turn off to show them clearly

Google Research今天发布了全新框架:Titans架构和 MIRAS框架,解决AI超长上下文和长期记忆力问题,把上下文拉到了超200万token

它用深度神经记忆进行实时学习,让大模型在跑起来的同时实时更新自身长时记忆,来实现RNN速度+Transformer精度

Titans,让AI运行时实时更新其长时记忆模块
MIRAS,提供统一记忆系统的理论蓝图

Titans把长时记忆做成一个多层感知机(MLP),而不是传统RNN的固定向量,每读一个新词,先算“惊讶度”,平平无奇就略过,反之就写进长时记忆并同步更新MLP的参数

为了控制容量还加了weight decay,不重要的旧信息自动淡出

最终,Attention层可以“按需”去查长时记忆,也可以只看最近上下文

MIRAS 提供了一个统一的视角,它认为主流序列模型本质上都是在解决同一个问题,如何高效地把新信息和旧记忆结合起来,同时又不会忘记重要的东西,它们都是不同形式的“关联记忆”系统

它把一个AI模型的记忆系统拆解成记忆结构、注意力偏置、保留门、记忆算法四个关键部分

并且提出用更复杂、更精妙的数学方法来做判断,这样就能设计出更强大,鲁棒性更高的记忆系统

实验表明,Titans在语言建模、常识推理、DNA建模、时间序列预测及2M token的BABILong任务上,优于同等规模的Transformer++、Mamba-2、Gated DeltaNet,甚至超过GPT-4

#AI记忆 #Titans

Google Research今天发布了全新框架:Titans架构和 MIRAS框架,解决AI超长上下文和长期记忆力问题,把上下文拉到了超200万token 它用深度神经记忆进行实时学习,让大模型在跑起来的同时实时更新自身长时记忆,来实现RNN速度+Transformer精度 Titans,让AI运行时实时更新其长时记忆模块 MIRAS,提供统一记忆系统的理论蓝图 Titans把长时记忆做成一个多层感知机(MLP),而不是传统RNN的固定向量,每读一个新词,先算“惊讶度”,平平无奇就略过,反之就写进长时记忆并同步更新MLP的参数 为了控制容量还加了weight decay,不重要的旧信息自动淡出 最终,Attention层可以“按需”去查长时记忆,也可以只看最近上下文 MIRAS 提供了一个统一的视角,它认为主流序列模型本质上都是在解决同一个问题,如何高效地把新信息和旧记忆结合起来,同时又不会忘记重要的东西,它们都是不同形式的“关联记忆”系统 它把一个AI模型的记忆系统拆解成记忆结构、注意力偏置、保留门、记忆算法四个关键部分 并且提出用更复杂、更精妙的数学方法来做判断,这样就能设计出更强大,鲁棒性更高的记忆系统 实验表明,Titans在语言建模、常识推理、DNA建模、时间序列预测及2M token的BABILong任务上,优于同等规模的Transformer++、Mamba-2、Gated DeltaNet,甚至超过GPT-4 #AI记忆 #Titans

博客:https://t.co/Ly9ACGORfX

avatar for AIGCLINK
AIGCLINK
Fri Dec 05 03:51:55
It is helpful to realize that even if you're god damn *Mark Zuckerberg* and you spend $77B for 15 years, sometimes it doesn't work out. No shade. Doing brand new categories is so hard and I am thankful he tried (despite haters). Man preserved longer than 99.999 percentile.

It is helpful to realize that even if you're god damn *Mark Zuckerberg* and you spend $77B for 15 years, sometimes it doesn't work out. No shade. Doing brand new categories is so hard and I am thankful he tried (despite haters). Man preserved longer than 99.999 percentile.

Founder: @mixpanel Pizzatarian, programmer, music maker

avatar for Suhail
Suhail
Fri Dec 05 03:49:15
The Karate Kid and the jaden smith Karate Kid actually capture the 20th century and 21st century perfectly.

The Karate Kid and the jaden smith Karate Kid actually capture the 20th century and 21st century perfectly.

AI Optimist. Empiricist, not 'rationalist'. Anti world government.

avatar for renji
renji
Fri Dec 05 03:48:58
Next.js 16 升级指南:https://t.co/9PK0esWBtN

Next.js 16 发布后,我有两三个项目升级测试了,没发现什么问题。

正好昨天 React 出现严重漏洞,索性把 NEXTY 模板升级到 Next.js 最新版了。

有了 Next 团队发布的 MCP,升级版本异常简单,不过太简单的事情反而会让人疑惑是不是真的做好了,所以我写了篇升级指南,照着做就能同步到我用的版本。

Next.js 16 升级指南:https://t.co/9PK0esWBtN Next.js 16 发布后,我有两三个项目升级测试了,没发现什么问题。 正好昨天 React 出现严重漏洞,索性把 NEXTY 模板升级到 Next.js 最新版了。 有了 Next 团队发布的 MCP,升级版本异常简单,不过太简单的事情反而会让人疑惑是不是真的做好了,所以我写了篇升级指南,照着做就能同步到我用的版本。

⛵️全栈工程师,出海开发者,Next.js 手艺人 | Next.js SaaS 模板:https://t.co/YzCDmGttme | Nextjs 中文文档:https://t.co/Ek37EFh3tI | 开源:https://t.co/vMeadXy9OD

avatar for weijunext - nexty.dev
weijunext - nexty.dev
Fri Dec 05 03:45:36
RT @Yangyixxxx: 这条推文为什么跑了20万?因为我在复制爆款
我现在3分钟教会你我的生产流程,你也可以做到

1.使用xaicreator的推文高级检索工具,https://t.co/Z1kX8niGQU 输入任何一个对标账号,检索它的推文,然后点击Impress…

RT @Yangyixxxx: 这条推文为什么跑了20万?因为我在复制爆款 我现在3分钟教会你我的生产流程,你也可以做到 1.使用xaicreator的推文高级检索工具,https://t.co/Z1kX8niGQU 输入任何一个对标账号,检索它的推文,然后点击Impress…

正在研究 100个 AI 变现案例, 用数据思维解构商业增长

avatar for 黄赟
黄赟
Fri Dec 05 03:42:55
Live Avatar

Streaming Real-time Audio-Driven Avatar Generation with Infinite Length

Live Avatar Streaming Real-time Audio-Driven Avatar Generation with Infinite Length

discuss: https://t.co/uZpBcvBqC3

avatar for AK
AK
Fri Dec 05 03:33:18
  • Previous
  • 1
  • More pages
  • 1542
  • 1543
  • 1544
  • More pages
  • 5634
  • Next