“arXiv上最近没什么有趣的东西!” ——一个缺乏好奇心的人的话语 我个人对过去几个月发表的大量有趣论文感到非常震撼,并且每天都在热切地关注论文摘要。 以下是我最喜欢的一些论文: - 无限计算能力下的预训练(2025 年 9 月,https://t.co/3Q838oO6ei) - 记忆犹新:训练顺序的近期性在语言模型激活中呈线性编码(2025 年 9 月,https://t.co/V9qCttiFPJ) - 潜意识学习:语言模型通过数据中的隐藏信号传递行为特征(2025 年 7 月,https://t.co/eJrGChfq1d) - Transformer 中提示调谐的内存限制(2025 年 9 月,https://t.co/AJR17dkVUx) - 大型语言模型的行为指纹识别(2025 年 9 月,https://t.co/ZdHMlIdcYP) - 无需数据即可进行语言自学训练(2025 年 9 月,https://t.co/9kLvY8dNbe) - 收益递减的错觉:衡量LLM的长期执行情况(2025年9月,https://t.co/X7bwtKE8xe) - 模型激活的自然语言描述是否包含特权信息?(2025 年 9 月,https://t.co/4qjWhFJVUG) - 超越排行榜:通过模型差异分析理解大型语言模型的性能差异(2025 年 9 月,https://t.co/2ejyGDCSVF) - 随机激活(2025 年 9 月,https://t.co/1xoXmLeIiF) - PonderLM-2:利用连续空间中的潜在思维对 LLM 进行预训练(2025 年 9 月,https://t.co/gZW50tvCIK) - 让语言模型感知的词语(2025 年 10 月,https://t.co/IDQEXdeAGv) - 语言模型不会连续嵌入数字(2025 年 10 月,https://t.co/g8Cw3yNcoV) - 通过主动阅读大规模学习事实(2025 年 8 月,https://t.co/aw3fE8dKiJ) - OverFill:用于高效语言模型解码的两阶段模型(2025 年 8 月,https://t.co/Wku5FXbGEz) - 大型语言模型的检索能力随预训练 FLOPs 的增加而扩展(2025 年 8 月,https://t.co/TWgqTCHjuZ) - 推理密集型回归(2025 年 8 月,https://t.co/2G8Lxn323A) - 关注权重:对微调后的LLM进行无监督监测和控制(2025年8月,https://t.co/im0qdNorNQ) - 关于基于嵌入的检索的理论局限性(2025 年 8 月,https://t.co/7haVnfNpTp)
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
