X (Twitter)

“arXiv上最近没什么有趣的东西！” ——一个缺乏好奇心的人的话语我个人对过去几个月发表的大量有趣论文感到非常震撼，并且每天都在热切地关注论文摘要。以下是我最喜欢的一些论文： - 无限计算能力下的预训练（2025 年 9 月，https://t.co/3Q838oO6ei） - 记忆犹新：训练顺序的近期性在语言模型激活中呈线性编码（2025 年 9 月，https://t.co/V9qCttiFPJ） - 潜意识学习：语言模型通过数据中的隐藏信号传递行为特征（2025 年 7 月，https://t.co/eJrGChfq1d） - Transformer 中提示调谐的内存限制（2025 年 9 月，https://t.co/AJR17dkVUx） - 大型语言模型的行为指纹识别（2025 年 9 月，https://t.co/ZdHMlIdcYP） - 无需数据即可进行语言自学训练（2025 年 9 月，https://t.co/9kLvY8dNbe） - 收益递减的错觉：衡量LLM的长期执行情况（2025年9月，https://t.co/X7bwtKE8xe） - 模型激活的自然语言描述是否包含特权信息？（2025 年 9 月，https://t.co/4qjWhFJVUG） - 超越排行榜：通过模型差异分析理解大型语言模型的性能差异（2025 年 9 月，https://t.co/2ejyGDCSVF） - 随机激活（2025 年 9 月，https://t.co/1xoXmLeIiF） - PonderLM-2：利用连续空间中的潜在思维对 LLM 进行预训练（2025 年 9 月，https://t.co/gZW50tvCIK） - 让语言模型感知的词语（2025 年 10 月，https://t.co/IDQEXdeAGv） - 语言模型不会连续嵌入数字（2025 年 10 月，https://t.co/g8Cw3yNcoV） - 通过主动阅读大规模学习事实（2025 年 8 月，https://t.co/aw3fE8dKiJ） - OverFill：用于高效语言模型解码的两阶段模型（2025 年 8 月，https://t.co/Wku5FXbGEz） - 大型语言模型的检索能力随预训练 FLOPs 的增加而扩展（2025 年 8 月，https://t.co/TWgqTCHjuZ） - 推理密集型回归（2025 年 8 月，https://t.co/2G8Lxn323A） - 关注权重：对微调后的LLM进行无监督监测和控制（2025年8月，https://t.co/im0qdNorNQ） - 关于基于嵌入的检索的理论局限性（2025 年 8 月，https://t.co/7haVnfNpTp）

来自 Jack Morris（@jxmnop）的推文线程

作者信息

线程正文