正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 1 条推文 · 2025年11月24日 10:25
如果词元空间是逻辑学习模型(LLM)推理的信息瓶颈,那么强化学习训练的模型应该能够高频地学习使用所有词元。但当我阅读核心目标函数(cots)时,它们似乎使用的空间比基础模型或模型输出要小。