LLM 背後的33 個關鍵概念全解:避開數學公式、直擊本質、從基礎到實踐的清晰指南 LLM 的核心基礎:從文字到智慧預測 LLM 是基於機器學習和自然語言處理的生成式AI 模型,專攻文字處理。它像一個超級智慧的自動補全系統:給定輸入(如「What is fine-tuning?」),模型會逐一預測下一個token,逐步拼出完整句子。例如,它可能先輸出“Fine-tuning”,再接“is”、“the”、“process”… · Tokens:這是LLM 處理文字的最小單位,包括單字、子字或標點。輸入文字先被「分詞器」拆解成數字ID(如「What」對應1023),以便模型計算。簡單說,詞元化讓模型能有效率地「閱讀」海量數據,但也意味著長文本可能被截斷。 · 嵌入(Embeddings):Token ID 被轉換為高維向量,這些向量在「潛在空間」(latent space)中捕捉語意相似性。例如,「狗」和「小狗」的向量很近,「國王- 男人+ 女人≈ 女王」。這讓模型能處理同義表達,避免死記硬背。 · 參數(Parameters):模型內部的數十億“可調旋鈕”,透過訓練不斷優化,編碼語言模式、語法和知識。預訓練(pre-training)階段,模型在海量文本上反覆預測下一個詞元,累積「世界知識」。 預訓練後的基礎模型(base model)僅能預測文本,無法回應指令。透過指令微調(fine-tuning),它變成「指令模型」(instruct model),學會跟隨使用者提示。進一步的「對齊」(alignment)確保輸出helpful(有用)、honest(誠實)和harmless(無害),常用強化學習從人類回饋(RLHF)來訓練獎勵模型,優先產生高品質回應。 互動與產生:提示、推理與效率使用者與LLM 的對話是靠「提示」(prompt)驅動,包括系統提示(定義角色,如「用簡潔語言回答,避免偏見」)和使用者提示(具體問題)。提示總長度受「上下文視窗」(context window)限制,通常幾千到數十萬個詞元,長對話可能需要截斷歷史。 · 零樣本與少樣本學習:零樣本(zero-shot)直接問問題,靠模型內置知識;少樣本(few-shot)在提示中加示例,引導輸出格式,如提供bullet points 來要求列表式總結。 · 推理與思考鏈(Chain-of-Thought, CoT):複雜問題用「一步步思考」提示,能提升準確率。新一代模型(如Gemini 2.5 Pro)內建此機制,模擬人類逐步推理。 生成過程叫做「推理」(inference),模型逐詞輸出,直到結束標記。影響體驗的關鍵是延遲(latency):首字時間(TTFT)和後續詞間隙。溫度(temperature)參數控制隨機性-低值(0.0)確保一致輸出,高值激發創意,但可能偏離事實。 擴展機制:從RAG 到智能體 LLM 並非孤立運行,常與外部工具結合,提升可靠性。 · RAG:先從資料庫或網頁檢索相關文檔,注入提示中產生回應,避免模型「幻覺」(hallucinations,即自信編造假訊息)。如Perplexity AI 搜尋網路並引用來源。 · 工作流程vs. 智能體(Agent):工作流程是固定步驟(如RAG 的「檢索-增強-生成」),適合重複任務。智能體則是動態規劃:它能自主選擇工具、分解目標、執行多步驟操作。例如,一個智能體可搜尋資料、總結成學習指南,遠遠超越靜態流程的彈性。 其他變體包括小型語言模型(SLM,參數少於150 億,適合設備端運行)和多模態模型(multimodal,如GPT-4o 處理文字+圖像)。開源模型(如Llama 3.1)公開權重,便於自訂;專有模型(如GPT-5)透過API 訪問,強調安全。 評估、挑戰與未來方向文章客觀檢視LLM 的短板:幻覺(虛構事實)、推理弱點(數學常出錯)、資料偏見(繼承訓練集刻板印象)和知識截止(訓練後資訊過時)。解決方案包括RAG grounding(錨定事實)、工具整合(如計算器)和RLHF 緩解偏見。但這些有權衡:準確度提升往往犧牲速度或成本。 評估用基準測試(如MMLU 測知識、HumanEval 測程式碼)和指標(如faithfulness,檢查是否忠實來源)。新興「LLM 作為評判者」(LLM-as-Judge)用另一個模型自動評分,加速迭代。 文章地址:
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
