我強烈譴責對 Prime Intellect 的嘲諷,他們所做的完全正確。 目前,將中國基礎模型訓練到前沿水平實際上比學習如何預訓練我們自己的基礎模型*更重要*。我基本上不在乎Prime Intellect、Arcee和其他公司能預訓練出什麼模型,儘管我合理地預期他們很快就能趕上。西方擁有豐富的計算資源,我們已經看到西方開放空間中小型模型(這兩個模型加上@ZyphraAI、@Dorialexander、@natolambert 的 Olmo……)的預訓練經驗非常豐富;而且從各方面來看,這種能力是可以擴展的。但這主要關乎……地緣政治意義,關乎你們這些愛國伺服器接入智能體框架後能運作什麼。我既不是西方人也不是中國人,而且與我的貼文相反,我並不真正關心這個層面,這只是一個純粹的工具性問題。請參考簡介:這場競賽不是美國/西方與中國之間的競賽,而是人類和通用人工智慧(AGI)與猿猴權力集中化之間的競賽。而Prime Intellect在阻止權力集中化方面所做的貢獻比任何人都多。 想想就讓人心痛:HF 上滿是天賜的寶藏,我們卻無力利用,它們只能在那裡腐爛,直到過時。成千上萬次的下載,卻毫無成果。 Qwen 為什麼還要做那些過時且極為昂貴的 Llama 式密集模型呢?主要原因有二:一是阿里巴巴的 KPI 是「HF 月下載量」;二是學術界和小實驗室搞不清楚如何微調現代架構。即便基礎設施更成熟,技術水準更高,他們又該如何微調呢?開源微調的巔峰之作是 Nous-Hermes,而它的範式基本上就是對 GPT-4 進行提煉,根據“喜好”和模糊的標準進行篩選,在一個強大的基礎上進行 SFT,然後祈禱好運。 OpenAI 等公司事先就對這種切入點嗤之以鼻,認為它毫無威脅,只會獎勵幻覺和風格模仿,不出所料,它最終不了了之。接下來呢? “強化學習”?強化學習究竟是什麼?如何進行強化學習?訊號產生器是什麼?它如何與下游任務相交? Kimi-K2,一個完美的前沿級基礎模型,已經向所有人開放數月。 DeepSeek-V3,也已經將近一年了。 V2,更是超過一年。數十個不同規模的模型,定期更新,包含更長的上下文和其他優勢。而我們又用這一切又建構了什麼呢? 任何能接近中國內部發展的模型,更別提當代前沿模型了?餵?你能給我指出這些衍生模型嗎?這完全褻瀆了開放科學的概念。連中國人也懶得費這個勁,他們都直接從零開始訓練自己的模型。我能想到極少數例外(例如Rednote開發了DSV3-VL),但它們都沒引起什麼轟動。那些價值數十億美元的新創公司,憑藉搜尋或智能體編碼等優勢,擁有龐大的訓練後資料集,偷偷地在自己的專有產品中使用DS/GLM/Qwen,卻不分享alpha版本。大概就是這樣。 Prime Intellect 橫空出世。他們正在解決訓練問題,解決環境生成問題。他們以嚴謹的原則思考塑造一般模型認知的訊號。實際上,他們正在釋放先前累積的巨大惰性價值。對世界而言,這遠遠不只是另一個平庸的模型。他們才華橫溢,目標明確,擁有清晰的路線圖,而且他們是我的朋友。我絕不會容忍對他們的工作嗤之以鼻,因為它服務於偉大的共同目標。如果你看不到這一點,你就根本不明白在這個階段真正重要的東西是什麼。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。