我個人理解的做AI Agents評估打分的思路: 1.內部專家評分先通泛搜尋這個領域的所有知識或圖書,或他人的方法論找到專家們的方法,然後把這些方法抽象量化出幾個維度的要素,這就形成了一個評估框架 接下來,找到大量的case資料集,進行專家人工評分 當然,也可以訓練一個Agents進行評分,對齊專家評分結果 2.模型評分在這個具體的場景下,切換不同模型來跑相同的資料集,以獲得評分結果,以便找到該場景下的SOTA模型 3.對比打分把自己的Agents和競品Agents放在一起去打分數評估相同的輸入,拿到不同的結果,再回歸到第一步去評估,以便了解自己和競品之間在具體場景下的差異 4.專家用戶評分尋找專家用戶,聽取他們的評分維度和NPS,以便迭代優化修正評分框架 ----- 千萬不要讓一般用戶來評分,這個打分會失效。 可以詢問一般用戶NPS,但千萬別讓外行人指導內行人。 一個產品結果好不好,專家用戶是可以判斷的。 這裡的專家不是只內部產業專家,而是外部的專家使用者。 專家使用者往往是意見領袖,他們的偏好是會放大影響大眾使用者的。 也就是說這類用戶是大眾用戶的品味聚集器,所以他們的評分更具參考價值
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。