這世界上很多人的學習模式是SFT的只靠結果進行歸因判斷要么成要么敗從不去分析究竟因為什麼而是直接判斷說這事兒不行因為失敗了 還有很多人的學習模式是RL的,一步一步學,學完a學b,學完b學c,學到最後黃花菜都涼了也沒有結果 能把這兩種模式結合起來進行在策略蒸餾的,已經都成了人才了