“arXiv上最近沒什麼有趣的東西!” ——一個缺乏好奇心的人的話語 我個人對過去幾個月發表的大量有趣論文感到非常震撼,並且每天都在熱切地關注論文摘要。 以下是我最喜歡的一些論文: - 無限運算能力下的預訓練(2025 年 9 月,https://t.co/3Q838oO6ei) - 記憶猶新:訓練順序的近期性在語言模型活化中呈線性編碼(2025 年 9 月,https://t.co/V9qCttiFPJ) - 潛意識學習:語言模型透過資料中的隱藏訊號傳遞行為特徵(2025 年 7 月,https://t.co/eJrGChfq1d) - Transformer 中提示調諧的記憶體限制(2025 年 9 月,https://t.co/AJR17dkVUx) - 大型語言模型的行為指紋辨識(2025 年 9 月,https://t.co/ZdHMlIdcYP) - 無需資料即可進行語言自學訓練(2025 年 9 月,https://t.co/9kLvY8dNbe) - 收益遞減的錯覺:衡量LLM的長期執行情況(2025年9月,https://t.co/X7bwtKE8xe) - 模型啟動的自然語言描述是否包含特權資訊? (2025 年 9 月,https://t.co/4qjWhFJVUG) - 超越排行榜:透過模型差異分析理解大型語言模型的表現差異(2025 年 9 月,https://t.co/2ejyGDCSVF) - 隨機啟動(2025 年 9 月,https://t.co/1xoXmLeIiF) - PonderLM-2:利用連續空間中的潛在思維對 LLM 進行預訓練(2025 年 9 月,https://t.co/gZW50tvCIK) - 讓語言模型感知的字詞(2025 年 10 月,https://t.co/IDQEXdeAGv) - 語言模型不會連續嵌入數字(2025 年 10 月,https://t.co/g8Cw3yNcoV) - 透過主動閱讀大規模學習事實(2025 年 8 月,https://t.co/aw3fE8dKiJ) - OverFill:高效語言模型解碼的兩階段模型(2025 年 8 月,https://t.co/Wku5FXbGEz) - 大型語言模型的檢索能力隨預訓練 FLOPs 的增加而擴展(2025 年 8 月,https://t.co/TWgqTCHjuZ) - 推理密集型回歸(2025 年 8 月,https://t.co/2G8Lxn323A) - 關注權重:對微調後的LLM進行無監督監控與控制(2025年8月,https://t.co/im0qdNorNQ) - 關於基於嵌入的檢索的理論限制(2025 年 8 月,https://t.co/7haVnfNpTp)
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
