我写了一篇关于 CoT 信息密度和奇怪的 CoT(腌料、观察者、语言混合)的实验的短文,该实验提供了一些证据,证明强化学习语言模型并没有努力将信息压缩到每个标记中。 很想听听大家的想法。链接如下。lesswrong.com/posts/FRevCbwA…