想在自己的電腦上跑一個完全離線、零 API 費用的 AI agent,不必綁任何雲端訂閱——這是我這次的目標。手邊的機器並不豪華(Windows 11、GTX 1660 6GB、16GB RAM),但實測下來是可行的,只是中間踩了好幾個坑。這篇把「Hermes Agent 桌面版接本地模型」的完整路徑、關鍵心得與所有雷區一次整理清楚。
相關:hermes本地模型安裝(安裝截圖)|環境:Windows 11 Pro、GTX 1660(6GB)、RAM 16GB
結論先講(TL;DR)
如果你只想知道「怎樣會動」,先記這三點,細節在下面:
- Hermes GUI 的模型下拉選不到本地模型,必須直接改設定檔(坑 1、坑 2)。
- 2B 等級小模型(如
gemma4:e2b)扛不住 Hermes 的 agent 系統 prompt,會吐亂碼 → agent 用途請選 4B 以上、工具能力強的模型(如qwen3:4b)(踩雷 3)。 - Hermes 強制要求 context ≥ 64,000,低於會直接
agent init failed(踩雷 4)。
本次實測通過的組合:
| 項目 | 狀態 |
|---|---|
| Ollama | v0.30.4(winget 安裝) |
gemma4:e2b | 純對話正常,但 agent 模式會崩(吐「我PleaseI」亂碼)→ 見踩雷 3 |
最終採用 qwen3:4b | 已裝(2.5GB),agent 模式正常運作 ✅ |
OLLAMA_CONTEXT_LENGTH | 64000 |
| Hermes config.yaml / .env | 已改為本地 qwen3:4b,Chat 實測可回覆 |
0. 名詞釐清(先看這個,避免走錯路)
很多人(包括一開始的我)會把幾個名字搞混,先對齊一下:
| 你以為的 | 實際對應 | 說明 |
|---|---|---|
| Hermes desktop | Hermes Agent(Nous Research 出品) | 開源、可完全離線運行的 AI agent,具備記憶與技能系統。它本身不附帶模型,需要外接一個「模型端點」。 |
| Gemini 的 Gemma 4 E2B | gemma4:e2b(Google Gemma 系列,Apache 2.0) | 邊緣裝置用的輕量模型,「有效 2B 參數」、支援文字/圖片/音訊多模態。不是 Gemini,是 Gemma(Gemini 的開源親戚)。 |
| 中間的橋樑 | Ollama | 把模型跑在本機,並開出一個 OpenAI 相容的 API(http://localhost:11434/v1),讓 Hermes 連上。 |
架構流程:
Hermes 桌面 App ──(OpenAI 相容 API)──> Ollama ──> 本地模型
(Windows 原生) (Windows 本機,port 11434)
✅ 本教學使用 Hermes 桌面版 GUI(原生 Windows App,不需要 WSL)。 若你改用 CLI 版,安裝是
curl | bash腳本,才需要 WSL2 / Git Bash(見文末附錄)。
Gemma 4 E2B 規格速覽
- 下載大小:約 7.2 GB(Q4_K_M 量化)
- 有效參數:2.3B(含 embedding 約 5.1B)
- 上下文長度:128K tokens
- 多模態輸入:文字、圖片、音訊
- 建議取樣參數:
temperature=1.0、top_p=0.95、top_k=64 - 記憶體建議:至少 8GB RAM(16GB 以上更順)
桌面版 GUI 接本地模型(實戰走通版)
這版 GUI 比 CLI 友善,但有兩個坑會讓你卡住。模型本體一律由 Ollama 存放,GUI 不會幫你下載——所以務必先完成下方第 1、2 節。
知識點:為什麼 GUI 沒有「下載模型」按鈕?
Hermes 是「agent 大腦的指揮中心」,只負責「連到一個會講話的端點」。把幾 GB 權重抓下來、量化、開 API 的活,是 Ollama(模型倉庫 + 引擎)幹的。流程永遠是:Ollama 先把模型備好 → Hermes 再連過去。
⚠️ 坑 1:Providers 沒有「Custom endpoint」選項
Providers 分頁預設只顯示「用帳號登入」的雲端供應商(Nous Portal、Anthropic、OpenAI…)。本地入口藏在 右上角小字 →「Have an API key instead?」。但點進去後也沒有 Custom / Self-hosted 選項,最接近的是 「Ollama Cloud」,它附一格 「Ollama Cloud base URL override(預設 https://ollama.com/v1)」——我們就「借殼」這格指向本地。
⚠️ 坑 2:Ollama Cloud 的模型下拉「只列雲端目錄」
就算把 base URL 改成本地,Model 分頁第二個下拉仍只會出現 qwen3-vl:235b、kimi-k2:1t、gemma4:31b… 這些雲端大模型,永遠不會出現你本機的 gemma4:e2b。所以純靠 GUI 點選無法完成,必須改設定檔。
✅ 實測走通做法:直接改設定檔(最可靠)
真正決定「連哪裡、用哪個模型」的是設定檔;GUI 下拉只是輔助清單。下拉抓不到本地模型,就從檔案直接寫死。
步驟 A — 完全關閉 Hermes App 右鍵系統匣圖示 →「Quit / Exit」(不是縮小!否則 App 關閉時會用舊設定覆蓋你的修改)。
步驟 B — 編輯主設定檔
路徑:C:\Users\<你的帳號>\AppData\Local\Hermes\config.yaml,把最上面的 model: 區塊改成(這是本次實測可用的最終設定):
model:
default: qwen3:4b
provider: ollama-cloud
base_url: http://localhost:11434/v1
context_length: 64000| 欄位 | 說明 |
|---|---|
default | 你本機 ollama list 看到的模型名。agent 用途請用 qwen3:4b 而非 gemma4:e2b(原因見踩雷 3) |
provider | 沿用 ollama-cloud(借殼),靠下面的 base_url 改導到本地 |
base_url | http 不是 https,結尾要有 /v1 |
context_length | 必須 ≥ 64000,否則 Hermes 直接 agent init failed(踩雷 4) |
步驟 C — 設定檔 .env 補一個假 key
路徑:C:\Users\<你的帳號>\AppData\Local\Hermes\.env,找到 # OLLAMA_API_KEY=... 那行,改成(去掉 #、填任意字):
OLLAMA_API_KEY=ollama
本地 Ollama 不驗證,但 OpenAI 相容客戶端要求 key 欄位不可為空,否則初始化會報錯。
步驟 D — 重開 App,直接去 Chat 測試
- ⚠️ 不要再去碰
Model分頁的下拉或按 Apply——一碰可能把設定覆蓋回雲端模型。 - 直接到
Chat打一句話,能回覆就成功 🎉(完全離線、零費用)。 - 💡 第一句會慢(模型載入 + 思考),請耐心等數十秒。
選對模型(本次最重要的教訓)
一開始裝的 gemma4:e2b 純聊天正常,一進 Hermes agent 就吐「我PleaseI」亂碼中斷。折騰一輪才發現:不是設定錯,是模型太小。
⚠️ 踩雷 3:2B 小模型扛不住 agent 系統 prompt
Hermes 是 agent,會塞一大包「系統指令 + 工具定義 + 技能 + 記憶」給模型(動輒上萬 token)。gemma4:e2b「有效 2B 參數」,是給手機輕對話用的,被這包淹沒就輸出亂碼。
診斷法:直接打 Ollama API 測(curl http://localhost:11434/api/chat)。若純對話正常、進 Hermes 才壞,幾乎就是模型太小。
⚠️ 踩雷 4:context 必須 ≥ 64,000
Hermes 啟動時會檢查模型 context,低於 64K 直接報:agent init failed: ... below the minimum 64,000 required by Hermes Agent → 在 config.yaml 的 model.context_length 填 64000(model 原生 context 要夠大才行;qwen3 原生 256K,OK)。
依硬體選模型(agent 用途)
| 你的硬體 | 建議模型 | 備註 |
|---|---|---|
| 6GB 顯卡 / 16GB RAM | qwen3:4b(2.5GB) | 工具能力強、CP 值高。64K context 的 KV 快取會溢到 RAM → 較慢但能跑 |
| 想更聰明、可接受更慢 | qwen2.5-coder:7b、qwen3:8b | 部分溢到 RAM |
| 純輕對話、不跑 agent | gemma4:e2b 也可 | 但別拿來驅動工具 |
💡 qwen3 是「思考模型」+ 中國模型,兩個提醒
- 思考模型:回答前先想一段(agent 推理更準,但較慢)。Hermes 已設
show_reasoning: false不顯示思考。嫌慢可在 prompt 加/no_think關閉。 - 內建立場:Qwen 是阿里巴巴模型,政治敏感話題會帶北京官方框架。若用於社群發文且涉及敏感議題,建議改用非中國模型(Llama / 較大 Gemma / 雲端 Claude·GPT)。
1. 安裝並啟動 Ollama(Windows 端)
- 前往 ollama.com 下載 Windows 版 安裝(或用
winget install Ollama.Ollama)。 - 安裝後 Ollama 會在背景常駐,並監聽
http://localhost:11434。 - 開 PowerShell 確認服務在跑:
ollama --version
Ollama 是什麼? 把它想成「本地版的模型 App Store + 引擎」。它做三件事:① 下載模型權重檔;② 自動量化(壓縮成電腦跑得動的大小);③ 開一個
localhost:11434的服務,讓別的程式(這裡是 Hermes)能呼叫模型。
什麼是「OpenAI 相容 API」? 它是一種「講話的通用插頭規格」。只要端點長得像 OpenAI 的格式(網址後面有
/v1),各種前端(Hermes、LM Studio…)就能無痛接上。
2. 下載模型
在 PowerShell 執行(會自動下載 + 量化 + 啟動本機 API):
# ✅ agent 用途(推薦):工具能力強,本次實測可正常驅動 Hermes
ollama pull qwen3:4b
# (選用)輕量多模態,僅適合純聊天、不要拿來跑 agent
ollama pull gemma4:e2b下載完成後,先在本機測一下模型能否回應:
ollama run gemma4:e2b出現對話提示符後隨便輸入一句話測試,能回覆即代表模型 OK,按
Ctrl + D離開。
pull和run差在哪?pull= 只下載不開聊;run= 下載(如果還沒有)+ 直接進入對話。第一次下載約 7.2 GB,之後就存在本機、離線可用。
E2B 的「E」和「2B」是什麼意思?
E2B= Effective 2 Billion(有效 20 億參數)。模型實際更大(含 embedding 約 5.1B),但每次推論只「點亮」約 2B,所以跑起來像 2B 那麼省資源、但聰明度比真正的 2B 高。
疑難排解
| 症狀 | 可能原因 / 解法 |
|---|---|
| 回覆吐亂碼如「我PleaseI」後中斷 | 模型太小扛不住 agent prompt(踩雷 3)。換 qwen3:4b 以上。先用 curl .../api/chat 直測:純對話正常=模型沒壞,是太小。 |
agent init failed ... below the minimum 64,000 | context 太小(踩雷 4)。config.yaml 的 model.context_length 設 64000。 |
| GUI 模型下拉選不到本地模型 | 正常現象(坑 2)。改設定檔指定。 |
| Hermes 連不上端點 | 確認 Ollama 在跑(ollama ps);.env 的 OLLAMA_API_KEY 不可空(填 ollama)。 |
| 回應很慢 / 記憶體爆 | 64K context 的 KV 快取大、6GB 顯卡塞不下會溢到 RAM。關閉其他大程式;或加 /no_think 關思考提速。 |
| 改了設定檔卻沒生效 | App 沒完全關閉就被重開 → 用記憶體舊設定覆蓋了。先 Quit 再改。 |
| 改完 GUI 又跑回雲端模型 | 在 Model 分頁按了 Apply。改完設定檔後別碰那個下拉。 |
附帶結論:Claude Max 訂閱不能餵 Hermes。 第三方 App 的 Anthropic OAuth 會被導到獨立的 extra_usage 計費池(預設空的),常被 HTTP 400 擋。要用雲端 Claude 得另辦 API key。本地模型則完全避開此問題。
小結
在一台 6GB 顯卡的 Windows 機器上跑離線 AI agent 是做得到的,但成功關鍵不在「設定多難」,而在選對模型與避開 GUI 的兩個陷阱:
- GUI 下拉看不到本地模型是正常的,直接改
config.yaml最可靠。 - agent 用途請用 4B 以上、工具能力強的模型(
qwen3:4b實測 OK),別用 2B 小模型。 context_length一定要 ≥ 64,000,否則連啟動都過不了。
把這三點顧好,剩下就是耐心等模型載入而已。完整安裝過程的截圖另見 hermes本地模型安裝。
附錄:CLI 版安裝(非本次使用,僅供參考)
以下是 Hermes CLI 版 的裝法(curl | bash,需要 WSL2)。本次用的是桌面 GUI 版,這段純參考。
安裝 Hermes Agent(WSL2 / Git Bash 端)
curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash
source ~/.bashrc # zsh 使用者改用 source ~/.zshrc
hermes --version把 Hermes 指向本地模型
執行 hermes model,選 Custom OpenAI-compatible endpoint,填入 Base URL http://localhost:11434/v1、API Key 留空、Model name gemma4:e2b、Context length 64000 以上。
⚠️ Ollama 預設 context 很小(常見 2K~4K),啟動前先設環境變數:
$env:OLLAMA_CONTEXT_LENGTH = "64000"
啟動驗證:
hermes啟動橫幅應顯示目前模型,隨意問一個問題即會回應,且全程無任何網路呼叫。