X (Twitter)

[值得每一個AI 應用團隊仔細閱讀] 上線一個新的LLM 並非像用戶想像中那樣「點擊開關」般簡單，而是一項嚴謹、複雜的系統工程。模型選擇不應只是個人的偏好和簡單對比Benchmark，而是一個極為複雜的系統問題。 @coderabbitai 團隊透過繁重的基礎設施工作，屏蔽了底層的複雜性，只將打磨好的最終結果呈現給用戶，他們總結出了從實驗到上線的五個階段。 1. 探索期：解析模型的“DNA” 核心任務：搞清楚這個新模型到底是什麼。具體做法：不僅看宣傳噱頭（如「推理較強」），而是深入分析它的架構偏好：它是比較擅長推理，還是比較擅長寫程式碼？它適合做複雜的差異分析，還是簡單的總結工作？目的：不盲目問“它更好嗎？”，而是問“它適合放在系統的哪個環節？”。 2. 評估期間：數據勝於感覺核心任務：用硬指標說話，拒絕主觀臆斷。具體做法： · 定量：執行內部基準測試，考察覆蓋率、精確度、訊號雜訊比和延遲等指標。 · 定性：對比產生的評論語氣、清晰度和幫助性。因為即使指標好看，模型說話的風格如果不符合人類開發者的習慣（例如太囉嗦或太生硬），也是不合格的。 · 關鍵點：模型之間不可互換。在一個模型上表現完美的提示詞，在另一個模型上可能完全失效。 3. 適配期：馴服差異核心任務：微調與磨合。具體做法：針對模型的「脾氣」調整提示詞。有趣的是，團隊會利用LLM 自己來優化自己（例如問模型：「這句話太客氣了，基於原始邏輯，怎麼改得更直接一點？」）。同時，團隊會與模型提供者保持密切聯繫，並回饋邊緣情況下的Bug。 4. 發布期：從實驗室到實戰核心任務：極度謹慎的灰階發布。具體做法： · 內部狗糧：先讓CodeRabbit 自己的團隊在實際開發中使用。 · 小範圍公測：開放給一小部分外部使用者。 · 隨機分流：在不同類型的程式碼庫和組織中均勻分配流量，期間密切監控錯誤率、使用者接受度以及是否有負面回饋。原則：一旦發現任何品質下降或風格漂移，立即回滾。 5. 穩態期：持續警覺核心任務：防止模型「悄悄變笨」。具體做法：上線不是終點。透過自動化警報和每日抽樣檢查，確保模型隨著時間或流量增加，依然保持高品質的輸出，防止隱性的效能衰退。核心總結：為什麼要這麼做？為什麼不讓使用者自己選擇模型？雖然技術上可以讓用戶自己在設定裡選GPT-5 或Claude Opus 4.5，但這實際上是將複雜性轉嫁給了用戶。如果使用者想獲得最佳效果，他們自己需要完成上述所有的評估、調試、提示詞優化和監控工作——這對於普通開發者或團隊來說是不切實際的，也是巨大的成本浪費。閱讀原文

来自 meng shao（@shao__meng）的推文线程

作者信息

线程正文