X (Twitter)

LLM 背後的33 個關鍵概念全解：避開數學公式、直擊本質、從基礎到實踐的清晰指南 LLM 的核心基礎：從文字到智慧預測 LLM 是基於機器學習和自然語言處理的生成式AI 模型，專攻文字處理。它像一個超級智慧的自動補全系統：給定輸入（如「What is fine-tuning?」），模型會逐一預測下一個token，逐步拼出完整句子。例如，它可能先輸出“Fine-tuning”，再接“is”、“the”、“process”… · Tokens：這是LLM 處理文字的最小單位，包括單字、子字或標點。輸入文字先被「分詞器」拆解成數字ID（如「What」對應1023），以便模型計算。簡單說，詞元化讓模型能有效率地「閱讀」海量數據，但也意味著長文本可能被截斷。 · 嵌入（Embeddings）：Token ID 被轉換為高維向量，這些向量在「潛在空間」（latent space）中捕捉語意相似性。例如，「狗」和「小狗」的向量很近，「國王- 男人+ 女人≈ 女王」。這讓模型能處理同義表達，避免死記硬背。 · 參數（Parameters）：模型內部的數十億“可調旋鈕”，透過訓練不斷優化，編碼語言模式、語法和知識。預訓練（pre-training）階段，模型在海量文本上反覆預測下一個詞元，累積「世界知識」。預訓練後的基礎模型（base model）僅能預測文本，無法回應指令。透過指令微調（fine-tuning），它變成「指令模型」（instruct model），學會跟隨使用者提示。進一步的「對齊」（alignment）確保輸出helpful（有用）、honest（誠實）和harmless（無害），常用強化學習從人類回饋（RLHF）來訓練獎勵模型，優先產生高品質回應。互動與產生：提示、推理與效率使用者與LLM 的對話是靠「提示」（prompt）驅動，包括系統提示（定義角色，如「用簡潔語言回答，避免偏見」）和使用者提示（具體問題）。提示總長度受「上下文視窗」（context window）限制，通常幾千到數十萬個詞元，長對話可能需要截斷歷史。 · 零樣本與少樣本學習：零樣本（zero-shot）直接問問題，靠模型內置知識；少樣本（few-shot）在提示中加示例，引導輸出格式，如提供bullet points 來要求列表式總結。 · 推理與思考鏈（Chain-of-Thought, CoT）：複雜問題用「一步步思考」提示，能提升準確率。新一代模型（如Gemini 2.5 Pro）內建此機制，模擬人類逐步推理。生成過程叫做「推理」（inference），模型逐詞輸出，直到結束標記。影響體驗的關鍵是延遲（latency）：首字時間（TTFT）和後續詞間隙。溫度（temperature）參數控制隨機性－低值（0.0）確保一致輸出，高值激發創意，但可能偏離事實。擴展機制：從RAG 到智能體 LLM 並非孤立運行，常與外部工具結合，提升可靠性。 · RAG：先從資料庫或網頁檢索相關文檔，注入提示中產生回應，避免模型「幻覺」（hallucinations，即自信編造假訊息）。如Perplexity AI 搜尋網路並引用來源。 · 工作流程vs. 智能體（Agent）：工作流程是固定步驟（如RAG 的「檢索-增強-生成」），適合重複任務。智能體則是動態規劃：它能自主選擇工具、分解目標、執行多步驟操作。例如，一個智能體可搜尋資料、總結成學習指南，遠遠超越靜態流程的彈性。其他變體包括小型語言模型（SLM，參數少於150 億，適合設備端運行）和多模態模型（multimodal，如GPT-4o 處理文字+圖像）。開源模型（如Llama 3.1）公開權重，便於自訂；專有模型（如GPT-5）透過API 訪問，強調安全。評估、挑戰與未來方向文章客觀檢視LLM 的短板：幻覺（虛構事實）、推理弱點（數學常出錯）、資料偏見（繼承訓練集刻板印象）和知識截止（訓練後資訊過時）。解決方案包括RAG grounding（錨定事實）、工具整合（如計算器）和RLHF 緩解偏見。但這些有權衡：準確度提升往往犧牲速度或成本。評估用基準測試（如MMLU 測知識、HumanEval 測程式碼）和指標（如faithfulness，檢查是否忠實來源）。新興「LLM 作為評判者」（LLM-as-Judge）用另一個模型自動評分，加速迭代。文章地址：

來自 meng shao（@shao__meng）的推文串

作者資訊

推文串內容