整個行業都一致認為,代理 RFT 和編碼代理 RL 是正確的做法,這一點在 AI Code Summit NYC 上得到了充分體現。 然而,強化學習的問題在於選擇太多。擁有這樣通用協議將大有裨益。 而且它還可以堆肥,所以你無需妥協。 這將大大促進強化學習的民主化。