我的總結:更多評估需要採用代理優先而非模型優先的方式,其中代理 = 模型 + 工具。 實際上,在沒有安全帶的情況下評估模型基本上是不可能的,而且通常也沒有用處;即使可以,它究竟在測量什麼呢? 一些說明: 1. 如今,模型架構(harness)在模型本身的基礎上提供了巨大的價值。像@FactoryAI Droid 和 @AmpCode 這樣的公司專注於創建出色且高效能的模型框架,這些框架針對跨模型編碼進行了最佳化。您可以將模型框架作為產品出售,「HaaS=模型框架即服務」。 2. 如今的模型在訓練時會用到其「在環」組件,這包括工具描述以及(我認為)何時/如何進行交錯思考的行為。 3. 透過修改測試框架來確保跨模型評估的「公平性」並不公平。模型在其測試框架中是不可互換的,修改測試框架並不能實現標準化,因為我們缺乏解釋工具來理解每個測試框架如何影響每個模型。我們只是將評估結果作為衡量標準的一種替代,而修改測試框架意味著我們知道模型效能在不同測試框架中是相同的,但事實並非如此。 評估應該衡量完成任務的能力。為什麼要將激發良好行為所需的最佳設定與模型本身脫鉤? 例如我們可以測量「如果我給這個模型最惡劣的條件來完成這項任務,它表現如何,是掙扎著完成,還是完美地完成」…但是為什麼要這麼做呢? !雖然這很酷很有趣,但如今在實際應用中並不實用。我們的目標是設計一個能夠良好運作的系統,而模型只是該系統的一個(儘管是最重要的)組成部分。 即使模型變得越來越智能,對輔助工具的需求越來越少,在評估中加強系統工程仍然是一件好事。我堅信輔助工具永遠不會真正消失,我們可能只是給它改了個名字。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。