X (Twitter)

“arXiv上最近沒什麼有趣的東西！” ——一個缺乏好奇心的人的話語我個人對過去幾個月發表的大量有趣論文感到非常震撼，並且每天都在熱切地關注論文摘要。以下是我最喜歡的一些論文： - 無限運算能力下的預訓練（2025 年 9 月，https://t.co/3Q838oO6ei） - 記憶猶新：訓練順序的近期性在語言模型活化中呈線性編碼（2025 年 9 月，https://t.co/V9qCttiFPJ） - 潛意識學習：語言模型透過資料中的隱藏訊號傳遞行為特徵（2025 年 7 月，https://t.co/eJrGChfq1d） - Transformer 中提示調諧的記憶體限制（2025 年 9 月，https://t.co/AJR17dkVUx） - 大型語言模型的行為指紋辨識（2025 年 9 月，https://t.co/ZdHMlIdcYP） - 無需資料即可進行語言自學訓練（2025 年 9 月，https://t.co/9kLvY8dNbe） - 收益遞減的錯覺：衡量LLM的長期執行情況（2025年9月，https://t.co/X7bwtKE8xe） - 模型啟動的自然語言描述是否包含特權資訊？（2025 年 9 月，https://t.co/4qjWhFJVUG） - 超越排行榜：透過模型差異分析理解大型語言模型的表現差異（2025 年 9 月，https://t.co/2ejyGDCSVF） - 隨機啟動（2025 年 9 月，https://t.co/1xoXmLeIiF） - PonderLM-2：利用連續空間中的潛在思維對 LLM 進行預訓練（2025 年 9 月，https://t.co/gZW50tvCIK） - 讓語言模型感知的字詞（2025 年 10 月，https://t.co/IDQEXdeAGv） - 語言模型不會連續嵌入數字（2025 年 10 月，https://t.co/g8Cw3yNcoV） - 透過主動閱讀大規模學習事實（2025 年 8 月，https://t.co/aw3fE8dKiJ） - OverFill：高效語言模型解碼的兩階段模型（2025 年 8 月，https://t.co/Wku5FXbGEz） - 大型語言模型的檢索能力隨預訓練 FLOPs 的增加而擴展（2025 年 8 月，https://t.co/TWgqTCHjuZ） - 推理密集型回歸（2025 年 8 月，https://t.co/2G8Lxn323A） - 關注權重：對微調後的LLM進行無監督監控與控制（2025年8月，https://t.co/im0qdNorNQ） - 關於基於嵌入的檢索的理論限制（2025 年 8 月，https://t.co/7haVnfNpTp）

來自 Jack Morris（@jxmnop）的推文串

作者資訊

推文串內容