我寫了一篇關於 CoT 資訊密度和奇怪的 CoT(醃料、觀察者、語言混合)的實驗的短文,該實驗提供了一些證據,證明強化學習語言模型並沒有努力將資訊壓縮到每個標記中。 很想聽聽大家的想法。連結如下。lesswrong.com/posts/FRevCbwA…