LogoThread Easy
  • 発見
  • スレッド作成
LogoThread Easy

Twitter スレッドの万能パートナー

© 2025 Thread Easy All Rights Reserved.

探索

Newest first — browse tweet threads

Keep on to blur preview images; turn off to show them clearly

RT @indie_maker_fox: 😲  难以想象这是用Mkdirs模板做的,高手在客户中

https://t.co/oqZAUS7YVU

Discover Best Apps Built on Cardano

RT @indie_maker_fox: 😲 难以想象这是用Mkdirs模板做的,高手在客户中 https://t.co/oqZAUS7YVU Discover Best Apps Built on Cardano

🔥 The best AI SaaS boilerplate - https://t.co/VyNtTs0jSX 🚀 The best directory boilerplate with AI - https://t.co/wEvJ1Dd8aR 🎉 https://t.co/bh1RxeERuY & https://t.co/zubXJCoY92 & https://t.co/tfQf8T7gGF

avatar for Fox@MkSaaS.com
Fox@MkSaaS.com
Fri Dec 05 03:11:15
one detail of DeepSeek's post-training that we never hear about is their «alignment» with Chinese characteristics. It seems to completely bypass reasoning, even when reasoning happens, the output is just patriotic duckspeak. This is actually… kinda technically impressive?

one detail of DeepSeek's post-training that we never hear about is their «alignment» with Chinese characteristics. It seems to completely bypass reasoning, even when reasoning happens, the output is just patriotic duckspeak. This is actually… kinda technically impressive?

We're in a race. It's not USA vs China but humans and AGIs vs ape power centralization. @deepseek_ai stan #1, 2023–Deep Time «C’est la guerre.» ®1

avatar for Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Fri Dec 05 03:11:04
NeurIPS 2025 最佳论文奖颁给了这篇:Attention 机制让语言模型自己判断哪些 token 更重要,但它有局限性——比如,不管 token 本身重不重要,它都容易过度关注靠前的那些 token。

Gating 机制(选择性地抑制或放大神经网络中的信息流动)改进了其他架构,所以研究人员也尝试把它加到 Attention 里。

但之前的尝试通常把 gating 和其他架构改动打包在一起,很难单独评估 gating 的贡献。

这篇论文把这些影响分开了,系统地测试了超过 30 种 gating 变体,模型参数高达 150 亿。

在标准的 Transformer 层中,每个 attention head 计算出一个加权的值组合;head 的输出会被连接起来,然后通过一个最终的线性投影。

这篇论文里表现最好的方法,是在连接之前插入一个额外的操作:每个 head 的输出,都乘以一个从当前 token 表示计算出的 learned gate(逐元素或逐 head 相乘,逐元素效果最好)。

这样,每个 head 就可以根据上下文来抑制或保留它的贡献。

这些架构上的改动带来了实际的好处,不仅仅是小小的 benchmark 提升:

1. 训练变得更稳定,支持更高的学习率,而 baseline 模型在这种学习率下会发散。

2. Gating 还大大减少了 "attention sinks"——早期 token 吸收过多 attention 的情况。

这反过来又与长文本 benchmark 上的显著改进有关,一旦使用标准技术扩展 context window,效果就更明显。

想深入了解的,可以去 ChapterPal 上看看论文,或者直接阅读 PDF.

NeurIPS 2025 最佳论文奖颁给了这篇:Attention 机制让语言模型自己判断哪些 token 更重要,但它有局限性——比如,不管 token 本身重不重要,它都容易过度关注靠前的那些 token。 Gating 机制(选择性地抑制或放大神经网络中的信息流动)改进了其他架构,所以研究人员也尝试把它加到 Attention 里。 但之前的尝试通常把 gating 和其他架构改动打包在一起,很难单独评估 gating 的贡献。 这篇论文把这些影响分开了,系统地测试了超过 30 种 gating 变体,模型参数高达 150 亿。 在标准的 Transformer 层中,每个 attention head 计算出一个加权的值组合;head 的输出会被连接起来,然后通过一个最终的线性投影。 这篇论文里表现最好的方法,是在连接之前插入一个额外的操作:每个 head 的输出,都乘以一个从当前 token 表示计算出的 learned gate(逐元素或逐 head 相乘,逐元素效果最好)。 这样,每个 head 就可以根据上下文来抑制或保留它的贡献。 这些架构上的改动带来了实际的好处,不仅仅是小小的 benchmark 提升: 1. 训练变得更稳定,支持更高的学习率,而 baseline 模型在这种学习率下会发散。 2. Gating 还大大减少了 "attention sinks"——早期 token 吸收过多 attention 的情况。 这反过来又与长文本 benchmark 上的显著改进有关,一旦使用标准技术扩展 context window,效果就更明显。 想深入了解的,可以去 ChapterPal 上看看论文,或者直接阅读 PDF.

Believing is seeing

avatar for Yangyi
Yangyi
Fri Dec 05 03:07:46
maybe the first convincing evidence for «Engineer state» vs «Lawyer state» I've seen. Normally it's just «the US can't build, plus has parasitic lawyers». But here we see evidence of mighty lawyerly capability, operating in the same domain.

maybe the first convincing evidence for «Engineer state» vs «Lawyer state» I've seen. Normally it's just «the US can't build, plus has parasitic lawyers». But here we see evidence of mighty lawyerly capability, operating in the same domain.

We're in a race. It's not USA vs China but humans and AGIs vs ape power centralization. @deepseek_ai stan #1, 2023–Deep Time «C’est la guerre.» ®1

avatar for Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Fri Dec 05 03:00:34
时间线上又是 Wise 注册的,我记得 SimbaLee 大兄弟在今年7月左右说过,可以用大陆身份证认证,当时我就注册成功了,用身份证认证,日元 港元 美元都丝滑开通,只是在大陆地区还没有借记卡服务。
又可以用身份证认证开通,附上我的 Wise 邀请链接,有需要的兄弟可以注册试试:https://t.co/o21zoqInWk

时间线上又是 Wise 注册的,我记得 SimbaLee 大兄弟在今年7月左右说过,可以用大陆身份证认证,当时我就注册成功了,用身份证认证,日元 港元 美元都丝滑开通,只是在大陆地区还没有借记卡服务。 又可以用身份证认证开通,附上我的 Wise 邀请链接,有需要的兄弟可以注册试试:https://t.co/o21zoqInWk

🧠在家居士 | 🥦素食者 | 🏃🏻马拉松爱好者 | 💰省钱小能手 | 搭🪜技术资深学者 | 👨‍💻科技宅 | 🆕更新狂 | 🆅 六边型战五渣

avatar for Geek
Geek
Fri Dec 05 02:58:03
RT @jturow: What a great evening of technical conversations about the future of AI reasoning with @axiommathai @BCapitalGroup and @MadronaV…

RT @jturow: What a great evening of technical conversations about the future of AI reasoning with @axiommathai @BCapitalGroup and @MadronaV…

@axiommathai : careers@axiommath.ai

avatar for Carina Hong
Carina Hong
Fri Dec 05 02:55:13
  • Previous
  • 1
  • More pages
  • 1544
  • 1545
  • 1546
  • More pages
  • 5634
  • Next