Hermes Agent (Desktop) 接本地模型教學（Ollama + Gemma / Qwen）

想在自己的電腦上跑一個完全離線、零 API 費用的 AI agent，不必綁任何雲端訂閱——這是我這次的目標。手邊的機器並不豪華（Windows 11、GTX 1660 6GB、16GB RAM），但實測下來是可行的，只是中間踩了好幾個坑。這篇把「Hermes Agent 桌面版接本地模型」的完整路徑、關鍵心得與所有雷區一次整理清楚。

相關：hermes本地模型安裝（安裝截圖）｜環境：Windows 11 Pro、GTX 1660（6GB）、RAM 16GB

結論先講（TL;DR）

如果你只想知道「怎樣會動」，先記這三點，細節在下面：

Hermes GUI 的模型下拉選不到本地模型，必須直接改設定檔（坑 1、坑 2）。
2B 等級小模型（如 gemma4:e2b）扛不住 Hermes 的 agent 系統 prompt，會吐亂碼 → agent 用途請選 4B 以上、工具能力強的模型（如 qwen3:4b）（踩雷 3）。
Hermes 強制要求 context ≥ 64,000，低於會直接 agent init failed（踩雷 4）。

本次實測通過的組合：

項目	狀態
Ollama	v0.30.4（winget 安裝）
`gemma4:e2b`	純對話正常，但 agent 模式會崩（吐「我PleaseI」亂碼）→ 見踩雷 3
最終採用 `qwen3:4b`	已裝（2.5GB），agent 模式正常運作 ✅
`OLLAMA_CONTEXT_LENGTH`	64000
Hermes config.yaml / .env	已改為本地 `qwen3:4b`，Chat 實測可回覆

0. 名詞釐清（先看這個，避免走錯路）

很多人（包括一開始的我）會把幾個名字搞混，先對齊一下：

你以為的	實際對應	說明
Hermes desktop	Hermes Agent（Nous Research 出品）	開源、可完全離線運行的 AI agent，具備記憶與技能系統。它本身不附帶模型，需要外接一個「模型端點」。
Gemini 的 Gemma 4 E2B	`gemma4:e2b`（Google Gemma 系列，Apache 2.0）	邊緣裝置用的輕量模型，「有效 2B 參數」、支援文字／圖片／音訊多模態。不是 Gemini，是 Gemma（Gemini 的開源親戚）。
中間的橋樑	Ollama	把模型跑在本機，並開出一個 OpenAI 相容的 API（`http://localhost:11434/v1`），讓 Hermes 連上。

架構流程：

Hermes 桌面 App ──(OpenAI 相容 API)──> Ollama ──> 本地模型
  (Windows 原生)                       (Windows 本機，port 11434)

✅ 本教學使用 Hermes 桌面版 GUI（原生 Windows App，不需要 WSL）。若你改用 CLI 版，安裝是 curl | bash 腳本，才需要 WSL2 / Git Bash（見文末附錄）。

Gemma 4 E2B 規格速覽

下載大小：約 7.2 GB（Q4_K_M 量化）
有效參數：2.3B（含 embedding 約 5.1B）
上下文長度：128K tokens
多模態輸入：文字、圖片、音訊
建議取樣參數：temperature=1.0、top_p=0.95、top_k=64
記憶體建議：至少 8GB RAM（16GB 以上更順）

桌面版 GUI 接本地模型（實戰走通版）

這版 GUI 比 CLI 友善，但有兩個坑會讓你卡住。模型本體一律由 Ollama 存放，GUI 不會幫你下載——所以務必先完成下方第 1、2 節。

知識點：為什麼 GUI 沒有「下載模型」按鈕？

Hermes 是「agent 大腦的指揮中心」，只負責「連到一個會講話的端點」。把幾 GB 權重抓下來、量化、開 API 的活，是 Ollama（模型倉庫 + 引擎）幹的。流程永遠是：Ollama 先把模型備好 → Hermes 再連過去。

⚠️ 坑 1：Providers 沒有「Custom endpoint」選項

Providers 分頁預設只顯示「用帳號登入」的雲端供應商（Nous Portal、Anthropic、OpenAI…）。本地入口藏在 右上角小字 →「Have an API key instead?」。但點進去後也沒有 Custom / Self-hosted 選項，最接近的是 「Ollama Cloud」，它附一格 「Ollama Cloud base URL override（預設 https://ollama.com/v1）」——我們就「借殼」這格指向本地。

⚠️ 坑 2：Ollama Cloud 的模型下拉「只列雲端目錄」

就算把 base URL 改成本地，Model 分頁第二個下拉仍只會出現 qwen3-vl:235b、kimi-k2:1t、gemma4:31b… 這些雲端大模型，永遠不會出現你本機的 gemma4:e2b。所以純靠 GUI 點選無法完成，必須改設定檔。

✅ 實測走通做法：直接改設定檔（最可靠）

真正決定「連哪裡、用哪個模型」的是設定檔；GUI 下拉只是輔助清單。下拉抓不到本地模型，就從檔案直接寫死。

步驟 A — 完全關閉 Hermes App 右鍵系統匣圖示 →「Quit / Exit」（不是縮小！否則 App 關閉時會用舊設定覆蓋你的修改）。

步驟 B — 編輯主設定檔 路徑：C:\Users\<你的帳號>\AppData\Local\Hermes\config.yaml，把最上面的 model: 區塊改成（這是本次實測可用的最終設定）：

model:
  default: qwen3:4b
  provider: ollama-cloud
  base_url: http://localhost:11434/v1
  context_length: 64000

欄位	說明
`default`	你本機 `ollama list` 看到的模型名。agent 用途請用 `qwen3:4b` 而非 `gemma4:e2b`（原因見踩雷 3）
`provider`	沿用 `ollama-cloud`（借殼），靠下面的 base_url 改導到本地
`base_url`	`http` 不是 https，結尾要有 `/v1`
`context_length`	必須 ≥ `64000`，否則 Hermes 直接 `agent init failed`（踩雷 4）

步驟 C — 設定檔 .env 補一個假 key 路徑：C:\Users\<你的帳號>\AppData\Local\Hermes\.env，找到 # OLLAMA_API_KEY=... 那行，改成（去掉 #、填任意字）：

OLLAMA_API_KEY=ollama

本地 Ollama 不驗證，但 OpenAI 相容客戶端要求 key 欄位不可為空，否則初始化會報錯。

步驟 D — 重開 App，直接去 Chat 測試

⚠️ 不要再去碰 Model 分頁的下拉或按 Apply——一碰可能把設定覆蓋回雲端模型。
直接到 Chat 打一句話，能回覆就成功 🎉（完全離線、零費用）。
💡 第一句會慢（模型載入 + 思考），請耐心等數十秒。

選對模型（本次最重要的教訓）

一開始裝的 gemma4:e2b 純聊天正常，一進 Hermes agent 就吐「我PleaseI」亂碼中斷。折騰一輪才發現：不是設定錯，是模型太小。

⚠️ 踩雷 3：2B 小模型扛不住 agent 系統 prompt

Hermes 是 agent，會塞一大包「系統指令 + 工具定義 + 技能 + 記憶」給模型（動輒上萬 token）。gemma4:e2b「有效 2B 參數」，是給手機輕對話用的，被這包淹沒就輸出亂碼。

診斷法：直接打 Ollama API 測（curl http://localhost:11434/api/chat）。若純對話正常、進 Hermes 才壞，幾乎就是模型太小。

⚠️ 踩雷 4：context 必須 ≥ 64,000

Hermes 啟動時會檢查模型 context，低於 64K 直接報：agent init failed: ... below the minimum 64,000 required by Hermes Agent → 在 config.yaml 的 model.context_length 填 64000（model 原生 context 要夠大才行；qwen3 原生 256K，OK）。

依硬體選模型（agent 用途）

你的硬體	建議模型	備註
6GB 顯卡 / 16GB RAM	`qwen3:4b`（2.5GB）	工具能力強、CP 值高。64K context 的 KV 快取會溢到 RAM → 較慢但能跑
想更聰明、可接受更慢	`qwen2.5-coder:7b`、`qwen3:8b`	部分溢到 RAM
純輕對話、不跑 agent	`gemma4:e2b` 也可	但別拿來驅動工具

💡 qwen3 是「思考模型」+ 中國模型，兩個提醒

思考模型：回答前先想一段（agent 推理更準，但較慢）。Hermes 已設 show_reasoning: false 不顯示思考。嫌慢可在 prompt 加 /no_think 關閉。
內建立場：Qwen 是阿里巴巴模型，政治敏感話題會帶北京官方框架。若用於社群發文且涉及敏感議題，建議改用非中國模型（Llama / 較大 Gemma / 雲端 Claude·GPT）。

1. 安裝並啟動 Ollama（Windows 端）

前往 ollama.com 下載 Windows 版 安裝（或用 winget install Ollama.Ollama）。
安裝後 Ollama 會在背景常駐，並監聽 http://localhost:11434。
開 PowerShell 確認服務在跑：
```
ollama --version
```

Ollama 是什麼？ 把它想成「本地版的模型 App Store + 引擎」。它做三件事：① 下載模型權重檔；② 自動量化（壓縮成電腦跑得動的大小）；③ 開一個 localhost:11434 的服務，讓別的程式（這裡是 Hermes）能呼叫模型。

什麼是「OpenAI 相容 API」？ 它是一種「講話的通用插頭規格」。只要端點長得像 OpenAI 的格式（網址後面有 /v1），各種前端（Hermes、LM Studio…）就能無痛接上。

2. 下載模型

在 PowerShell 執行（會自動下載 + 量化 + 啟動本機 API）：

# ✅ agent 用途（推薦）：工具能力強，本次實測可正常驅動 Hermes
ollama pull qwen3:4b
 
# （選用）輕量多模態，僅適合純聊天、不要拿來跑 agent
ollama pull gemma4:e2b

下載完成後，先在本機測一下模型能否回應：

ollama run gemma4:e2b

出現對話提示符後隨便輸入一句話測試，能回覆即代表模型 OK，按 Ctrl + D 離開。

pull 和 run 差在哪？ pull = 只下載不開聊；run = 下載（如果還沒有）+ 直接進入對話。第一次下載約 7.2 GB，之後就存在本機、離線可用。

E2B 的「E」和「2B」是什麼意思？ E2B = Effective 2 Billion（有效 20 億參數）。模型實際更大（含 embedding 約 5.1B），但每次推論只「點亮」約 2B，所以跑起來像 2B 那麼省資源、但聰明度比真正的 2B 高。

疑難排解

症狀	可能原因 / 解法
回覆吐亂碼如「我PleaseI」後中斷	模型太小扛不住 agent prompt（踩雷 3）。換 `qwen3:4b` 以上。先用 `curl .../api/chat` 直測：純對話正常=模型沒壞，是太小。
`agent init failed ... below the minimum 64,000`	context 太小（踩雷 4）。`config.yaml` 的 `model.context_length` 設 `64000`。
GUI 模型下拉選不到本地模型	正常現象（坑 2）。改設定檔指定。
Hermes 連不上端點	確認 Ollama 在跑（`ollama ps`）；`.env` 的 `OLLAMA_API_KEY` 不可空（填 `ollama`）。
回應很慢 / 記憶體爆	64K context 的 KV 快取大、6GB 顯卡塞不下會溢到 RAM。關閉其他大程式；或加 `/no_think` 關思考提速。
改了設定檔卻沒生效	App 沒完全關閉就被重開 → 用記憶體舊設定覆蓋了。先 Quit 再改。
改完 GUI 又跑回雲端模型	在 `Model` 分頁按了 Apply。改完設定檔後別碰那個下拉。

附帶結論：Claude Max 訂閱不能餵 Hermes。 第三方 App 的 Anthropic OAuth 會被導到獨立的 extra_usage 計費池（預設空的），常被 HTTP 400 擋。要用雲端 Claude 得另辦 API key。本地模型則完全避開此問題。

小結

在一台 6GB 顯卡的 Windows 機器上跑離線 AI agent 是做得到的，但成功關鍵不在「設定多難」，而在選對模型與避開 GUI 的兩個陷阱：

GUI 下拉看不到本地模型是正常的，直接改 config.yaml 最可靠。
agent 用途請用 4B 以上、工具能力強的模型（qwen3:4b 實測 OK），別用 2B 小模型。
context_length 一定要 ≥ 64,000，否則連啟動都過不了。

把這三點顧好，剩下就是耐心等模型載入而已。完整安裝過程的截圖另見 hermes本地模型安裝。

附錄：CLI 版安裝（非本次使用，僅供參考）

以下是 Hermes CLI 版 的裝法（curl | bash，需要 WSL2）。本次用的是桌面 GUI 版，這段純參考。

安裝 Hermes Agent（WSL2 / Git Bash 端）

curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash
source ~/.bashrc   # zsh 使用者改用 source ~/.zshrc
hermes --version

把 Hermes 指向本地模型

執行 hermes model，選 Custom OpenAI-compatible endpoint，填入 Base URL http://localhost:11434/v1、API Key 留空、Model name gemma4:e2b、Context length 64000 以上。

⚠️ Ollama 預設 context 很小（常見 2K～4K），啟動前先設環境變數：
$env:OLLAMA_CONTEXT_LENGTH = "64000"

啟動驗證：

hermes

啟動橫幅應顯示目前模型，隨意問一個問題即會回應，且全程無任何網路呼叫。

Jun 的學習筆記

探索