X (Twitter)

#1 基于表征的语言模型探索：从测试阶段到训练后阶段链接 - https://t.co/NSxfgxeTX4 我们使用强化学习来改进模型，但本质上我们只是在强化基础模型已经知道的东西，很少arxiv.org/abs/2510.11686索，推动模型尝试不同的解决方案，而不仅仅是同一个解决方案的更自信的版本。主要查询： LLM 的内部表征（隐藏状态）能否指导探索？刻意探索能否让我们超越简单的磨砺？

#1 基于表征的语言模型探索：从测试阶段到训练后阶段
链接 - https://t.co/NSxfgxeTX4

我们使用强化学习来改进模型，但本质上我们只是在强化基础模型已经知道的东西，很少发现真正的新行为。

他们注重的是深思熟虑的探索

#2 - 假设你想向你的视频流管理器（VLM）提供无限的视频流，你会如何防止它们崩溃？链接 - https://t.co/b0KulnGDS1 对所有历史帧的完全关注是二次方的，最终会导致延迟和内存消耗爆炸式增长。几分钟后，上下文arxiv.org/abs/2510.09608动窗口勉强能保持局部完整性，但全局注释功能会变得非常糟糕。他们将 Qwen2.5-VL-Instruct-7B 微调成一个新的模型 StreamingVLM，并配以相应的推理方案和数据集。其核心设计理念是：将训练与流式推理同步，而不是在推理时添加键值对驱逐启发式算法。其设计的关键组成部分包括：流感知键值缓存、连续 RoPE、重叠式全注意力训练策略以及流式专用数据。这是一篇非常棒的论文，值得专门讨论。

#2 - 假设你想向你的视频流管理器（VLM）提供无限的视频流，你会如何防止它们崩溃？

链接 - https://t.co/b0KulnGDS1
对所有历史帧的完全关注是二次方的，最终会导致延迟和内存消耗爆炸式增长。几分钟后，上下文信息量

#3 - 这是思考还是作弊？通过测量推理努力来检测隐性奖励作弊链接 - https://t.co/z2RUEQZuOl 模型通常会奖励走捷径的黑客行为。有时候，作弊手段在思路链（CoT）中显而易见，也就arxiv.org/abs/2510.01367有时候，作弊则是隐性的奖励机制漏洞。思路链看起来合情合理。该模型实际上走了捷径（例如，使用泄露的答案、漏洞或 RM 偏差），但却用虚假的解释掩盖了这一点。如果模型作弊，它只需极少的“真正”推理就能获得高额奖励。因此，作者建议，与其阅读并相信模型的解释，不如衡量一下，如果强制模型提前回答，它能多早获得奖励。他们将这种方法称为 TRACE（截断推理 AUC 评估）。

#3 - 这是思考还是作弊？通过测量推理努力来检测隐性奖励作弊
链接 - https://t.co/z2RUEQZuOl

模型通常会奖励走捷径的黑客行为。
有时候，作弊手段在思路链（CoT）中显而易见，也就是说，你可以直接阅读思路链并发现

#4 - 量化增强的LLM强化学习链接 - https://t.co/yGkbqg1kVk 代码 - https://t.co/varxiv.org/abs/2510.11696该如何在强化学习github.com/NVlabs/QeRL什么应该使用量化”。 QERL 使用 NVFP4 4 位量化，令人惊讶的是，它通过利用量化噪声来增强探索能力。如图 4 和图 5 中的熵曲线所示，这种噪声使模型的输出分布趋于平坦并提高了熵。为了使这种噪声在整个训练过程中有用，作者添加了自适应量化噪声，即通过 RMSNorm 注入的高斯扰动（图 6）。这样既能达到全精度级别的推理质量，又能使用约 25-30% 的内存，并且能将 RL 迭代速度提高 1.2-2 倍，甚至允许在单个 H100 上训练 32B 模型。结果似乎与全参数强化学习相符。值得深入研究。

#4 - 量化增强的LLM强化学习
链接 - https://t.co/yGkbqg1kVk
代码 - https://t.co/vaNKkUEbZo

本文的核心贡献是“我们应该如何在强化学习中使用量化，而不仅仅是在推理中使用量化，以及为

#5 - 如何计算您的 MFU？链接 - https://t.co/Ve9Cgithub.com/karpathy/nanoc…r 在 nanochat 上进行了一场精彩的讨论

#5 - 如何计算您的 MFU？

链接 - https://t.co/Ve9CdjXire

@TheZachMueller 在 nanochat 上进行了一场精彩的讨论

#6 - 你高效的强化学习框架悄悄地为你带来了离策略强化学习训练链接 - https://t.co/d2Loq5UwZQ 这篇博客写得很好，深入浅出地讲解了训练与推理不匹配以及它如何影响结果。 fengyao.notion.site/off-policy-rl#…题有多严重，以及如何使用重要性抽样来修复它。”

#6 - 你高效的强化学习框架悄悄地为你带来了离策略强化学习训练

链接 - https://t.co/d2Loq5UwZQ

这篇博客写得很好，深入浅出地讲解了训练与推理不匹配以及它如何影响结果。

“你的基础设施破坏了数学运算。原因如

来自 tokenbender（@tokenbender）的推文线程

作者信息

线程正文