X (Twitter)

使用Gemini 3 從零建立智能體實用指南來自Phil Schmid 最新發布的實用教程，核心目標是「去神秘化」AI 智能體的建構過程。 Schmid 強調：智能體本質上非常簡單──就是一個LLM 放在一個循環裡，加上一些工具，讓模型自己決定什麼時候用工具、怎麼規劃任務。整個教學課程是基於Gemini 3 Pro，從最基礎的文字生成，一步步進化到能讀寫檔案、持續對話的完整CLI 智能體。全程程式碼不到100 行，非常適合想快速上手的人。智能體的核心組成（Schmid 的「生命體」比喻） · 大腦（Model）：Gemini 3 Pro，負責思考、規劃、決定是否呼叫工具。 · 手和眼睛（Tools）：外部函數，例如讀取檔案、列出目錄、寫入檔案等。 · 工作空間/記憶（Context）：對話歷史+ 工具執行結果，這就是所謂的「情境工程」。 · 生命循環（Loop）：觀察→ 思考→ 行動→ 觀察…直到任務完成或達到終止條件。整個流程就是經典的ReAct 模式（Reasoning + Acting），但用Gemini 原生函數呼叫實現，不依賴LangGraph、CrewAI 等複雜框架。逐步建置過程 1. 最基礎：純文字生成（還不是智能體）先建立一個Agent 類，用gemini-3-pro-preview 模型直接產生文字。相當於一個加強版聊天機器人。 2. 第二步：加入工具（Function Calling） · 用JSON Schema 定義工具（名稱、描述、參數）。 · 實作對應的Python 函數（例如read_file、write_file、list_dir）。 · 把工具定義傳給模型，模型如果需要就會回傳結構化的工具呼叫請求。 3. 第三步：閉環（真正成為智能體） · 在程式碼裡偵測模型是否要呼叫工具→ 執行工具→ 把結果以functionResponse 形式塞回模型→ 模型繼續思考。 · 關鍵技巧：Gemini 3 有特殊的“Thought Signatures”，必須原樣保留，否則會失去鍊式推理能力。 · 加上系統引導指令，例如讓它像Linus Torvalds 一樣說話，增加個性。 4. 第四步：多輪CLI 互動用while True 循環包裝，讓使用者可以持續輸入指令，智能體就能處理多步驟任務（例如先列目錄→ 再讀某個檔案→ 再修改內容）。最終效果：你可以在終端機裡對智能體說“幫我把data.txt 裡的內容改成“Hello World””，它會自動呼叫`read_file` → 思考→ write_file，一步步完成。最佳工程實務（文章乾貨最集中的部分） 1. 工具設計（Tools Design） · 工具的名稱和描述必須寫得極度清晰、毫不含糊，讓模型一眼就能明白這個工具到底是做什麼的以及什麼時候該用。 · 每個工具的參數要盡量精簡，只保留真正必要的字段，避免參數過多導致模型困惑或產生錯誤調用。 · 工具執行後的回傳結果一定要對人類友善：包含清晰的成功/失敗狀態、詳細的錯誤訊息、必要的上下文，甚至可以主動給出下一步建議。這樣模型在下一輪推理時就能獲得高品質輸入。 2. 上下文管理（Context Management） · 絕對不要一次把大量文件內容或資料直接塞進上下文（容易超窗口或讓模型迷失重點）。 · 優先設計「按需載入」類別的工具，例如read_file、search_database 等，讓模型自己決定何時需要拉取哪些具體資訊。 · 當對話輪次變長、上下文快要爆炸時，要麼用摘要壓縮歷史，要麼引入外部記憶系統（向量資料庫、鍵值儲存等）。 3. 避免過度工程（Avoid Over-Engineering） · 先用「單一強大模型+ 簡單while 迴圈+ 原生函數呼叫」把原型跑通，這是性價比最高的方式。 · 只有當任務確實需要複雜的狀態機、多智能體協作、回滾機制時，再引入LangGraph、CrewAI、Autogen 等重型框架。大多數實際場景下，簡單循環已經完全夠用。 4. 安全與健壯性（Safety & Robustness） · 必須設定最大循環次數（max_iterations），防止模型陷入死循環。 · 任何涉及破壞性操作的工具（刪除文件、發送電子郵件、轉帳等）都要加入人工確認步驟或嚴格的白名單機制。 · 透過強而有力的系統指令（System Instruction）建立guardrails，明確告訴模型哪些事情絕對不允許做。 5. 調試與可觀測性（Debugging） · 在開發階段，把每一次工具呼叫請求、工具執行結果、模型的思考過程全部列印出來。 · 這種極高的透明度能讓你瞬間定位問題是出在工具定義、返回格式，還是模型推理邏輯上，是建構可靠智能體最快的調試方式。這些建議高度凝練，幾乎適用於所有基於LLM 的智能體專案（不管你用Gemini、Claude、GPT 還是開源模型），強烈建議把它們當作檢查清單，在每次搭建新智能體時逐條對照。文章的核心結論· 建構一個實用的智能體**遠沒有想像中複雜**，核心就是「模型+ 工具+ 循環+ 良好情境管理」。 · 只要工具設計得好、上下文控制得當，Gemini 3 Pro 這種原生支援多工具呼叫的模型，完全可以單體搞定大部分任務。 · Schmid 鼓勵大家先從最簡原型開始跑通，再逐步增加記憶、規劃器、多智能體協作等高階特性。部落格地址

來自 meng shao（@shao__meng）的推文串

作者資訊

推文串內容