X (Twitter)

ChatGPT 愛用破折號和擅長編程，這不是文科生和理科生的差別，更像是文科學習和理科學習的差別，當然實際上是兩種不同類型內容生成的訓練方式差別。生成文本的結果是沒有標準答案的，這就依賴於人類定義好的標準答案和回饋，偏好極度依賴標註員標註的結果，就好比我們學文科，會依賴我們閱讀的教材和老師的講解。寫程式碼和做數學題的特點是有標準答案，就好像我們學理科做數學物理，對就是對，錯就是錯，和人類偏好無關，做對了就有獎勵，做錯了就沒有獎勵，所以模型能反複訓練，最終越來越厲害。

来自宝玉（@dotey）的推文线程

作者信息

线程正文