AI VTuber 是什麼？——白話引導入門

你是否曾看過像 Neuro-sama 這樣在直播中一邊打遊戲、一邊和觀眾精準對答，甚至還會唱歌、開玩笑的 AI 虛擬主播？看著畫面上動感活潑的角色，你可能也曾萌生過「我自己是不是也能做一個」的想法。

不過，在動手寫程式或下載軟體之前，最重要的事情是先建立腦中的地圖。這篇文章不教你複雜的代碼，而是透過「真人直播主需要哪些零件」的白話比喻，帶你從零搞懂 AI VTuber 是如何運作的。讀完這篇文章，你將能清楚回答：AI VTuber 到底是什麼？它由哪些零件組成？以及這些零件是如何串接，打造出一個會說話、會動、會看留言回嘴的虛擬主播。

Part 1｜AI VTuber 到底是什麼？

在深入技術之前，我們先把「AI VTuber」這個詞拆開來理解：

VTuber（Virtual YouTuber，虛擬主播）：直播時露臉的不是真人，而是一個 2D 或 3D 的卡通角色。一般情況下，背後其實是有真人在說話、做表情，並透過動態捕捉技術即時帶動卡通角色，這位幕後配音與表演者在業界被稱為「中之人」。
AI VTuber：簡單來說，就是把「中之人」換成 AI。這裡沒有真人操作，角色的腦袋就是一個 AI 系統，它會自己思考、自己說話，並即時回覆觀眾的留言。

目前全球最知名的例子就是 Neuro-sama。她是一個 AI 少女角色，能一邊在直播中玩遊戲，一邊跟觀眾互動、唱歌、講冷笑話，所有觀眾的留言她都能即時讀出並巧妙回嘴。整場直播沒有任何真人在幕後操控，全部由 AI 即時生成。

如果你未來的目標是實現「一群 AI 直播主每天在 YouTube 自動直播」，那麼本質上就是做好幾個擁有不同人設、個性的 AI 角色，並讓它們自動化開播。

Part 2｜拆開來看：一個 AI 主播等於 7 個零件

想像一下，如果要幫一個「真人主播」開台，他需要具備哪些條件？AI 主播需要的東西幾乎一模一樣，只是我們把每個實體器官和工具，都換成了對應的軟體模組：

真人主播需要	AI 主播的對應零件	術語	白話解釋
🧠 一顆會思考的腦	語言模型	LLM	決定「要說什麼」
👄 一張嘴/聲音	語音合成	TTS	把文字「念出聲音」
👂 耳朵（聽人講話）	語音辨識	ASR / STT	把聲音「轉成文字」（選用）
🧍 一張臉和身體	虛擬模型 + 驅動	Live2D + VTube Studio	讓卡通角色動起來、嘴型對上聲音
👀 看聊天室的眼睛	聊天室串接	平台 API	即時抓取觀眾留言
📒 記憶力	記憶系統	memory	記得剛剛聊過什麼、維持自己的人設
🎥 攝影機+轉播車	推流軟體	OBS	把整個畫面與聲音送上 YouTube

接下來，我們逐一用白話來認識這 7 個核心零件。

🧠 大腦：LLM（語言模型）

這就是類似 ChatGPT 的技術。當你給它一段文字（例如觀眾的留言），它會生成一段對應的回答。它也是角色「個性」的靈魂來源——我們會賦予它一段設定（稱為 system prompt / 系統提示），例如：「你是一個傲嬌、愛吐槽、喜歡貓的虛擬少女」，此後它講話就會完全遵循這個設定與調性。

雲端方案：連線到網路上的 AI 服務（如 OpenAI），依照使用量付費或使用免費額度。
本地方案：將模型下載到自己的電腦執行。雖然完全不用連網、不用付費，但非常考驗顯示卡的效能。

👄 嘴巴：TTS（Text To Speech，文字轉語音）

負責把大腦（LLM）產生的回答文字「念成聲音」。這裡的重點在於音色——你可以讓它使用特定風格的聲音說話，甚至進行聲音克隆（只要提供幾秒鐘的聲音樣本，AI 就能學會模仿）。這是讓虛擬角色擁有獨特聲線的關鍵。

👂 耳朵：ASR / STT（語音辨識）

反過來，負責把「聲音轉成文字」。如果你想直接用「講話」的方式跟 AI 互動（而非打字），就會需要這個功能。不過，由於 AI VTuber 主要還是讀取聊天室的文字留言，因此這個零件常常是選用的，在開發初期可以先忽略。

🧍 臉和身體：Live2D ＋ VTube Studio

Live2D：這是一種能讓平面 2D 插畫「動起來」的技術。它把一張平面角色圖切成許多圖層（頭髮、眼睛、嘴巴等），就能做出眨眼、轉頭或嘴巴開合等微表情，呈現出精緻的 2.5D 效果。
VTube Studio：這是目前最主流的驅動軟體，負責讓 Live2D 角色動起來（例如待機微動、眨眼），並在講話時讓嘴型精準對上聲音（稱為唇形同步 / lip-sync）。

💡 業界實用小知識：聲音如何驅動嘴巴動？標準做法是使用一條「虛擬音訊線」——系統會把 TTS 合成出的聲音，偽裝成一個麥克風訊號餵給 VTube Studio。VTube Studio 只要偵測到音訊輸入，就會自動讓角色的嘴巴開合，你不需要手動去計算或對嘴型。

👀 看留言的眼睛：聊天室串接

在直播過程中，觀眾會不斷在聊天室打字。我們需要透過直播平台（例如 YouTube）提供的程式介面（API，即軟體間溝通的窗口），即時把觀眾的留言抓取下來，再丟給大腦（LLM）去思考如何回應。

📒 記憶：memory

大腦（LLM）預設是「金魚腦」，講完話下一秒就會忘記。記憶系統能讓角色記住「五分鐘前觀眾問過什麼」、「自己的人設」或「上次直播聊過的話題」，如此一來講話才會有連續性與一致性。不過，這部分在目前的現成框架中通常還在發展階段，表現尚未到完美。

🎥 攝影機+轉播車：OBS（推流軟體）

上述的所有零件，最終只會在「你自己的電腦螢幕上」呈現出一個會動、會說話的角色。若要讓全世界在 YouTube 上看到，就需要 OBS 這款廣播級的推流軟體：它會把角色的動態畫面、直播背景、遊戲畫面與字幕整合在一起，編碼後推送（推流）到 YouTube 直播伺服器。

⚠️ 新手最容易忽略的關卡：市面上大部分現成的 AI VTuber 軟體只處理到「讓角色在電腦上動起來」。至於**「如何推流到 YouTube、如何做到每天自動開播、斷線如何自動重連」這一段，往往需要自己手動串接 OBS 與自動化排程**。這也是要打造「多角色、每日自動直播」系統時，最花心思和工夫的地方。

Part 3｜這些零件怎麼串起來？（完整運作流程）

當我們把這 7 個零件接上後，一次標準的「觀眾留言 → 角色回嘴」流程會是這樣運作的：

觀眾在 YouTube 打字：「你今天午餐吃什麼？」
        │
        ▼
👀 聊天室串接  抓到這句留言（文字）
        │
        ▼
🧠 LLM 大腦   讀留言 + 角色人設 + 記憶，生成回答文字：
              「哼，AI 才不用吃飯呢～不過我想嚐嚐拉麵的說！」
        │
        ▼
👄 TTS 嘴巴    把這句文字念成有角色音色的「聲音」
        │
        ├────────────▼
        │      📒 記憶  把這輪對話存起來（下次記得聊過拉麵）
        │
        ▼
🧍 VTube Studio  聲音透過「虛擬音訊線」進來 → 角色嘴巴跟著動（唇形同步）
        │
        ▼
🎥 OBS 推流    把「會動會講話的角色畫面」編碼，送上 YouTube
        │
        ▼
觀眾聽到、看到角色開口回答 ✅

為了不讓觀眾感到嚴重的延遲卡頓，上述的整個流程必須在短短幾秒鐘內執行完畢。這也是為什麼系統運算的速度至關重要，且電腦硬體（尤其是顯示卡）的效能會直接影響直播體驗。

Part 4｜好消息：不用自己從零開發

看到這裡，你可能會擔心自己需要寫成千上萬行的程式碼才能把這 7 個零件串起來。事實上，完全不用！ 網路上已經有許多熱心的開發者將這些零件打包好，並以「開源（Open Source）」的形式免費提供給大家使用。以下是目前最受矚目的三個開源框架：

AIRI：目前社群規模最大、最活躍的專案，開發目標非常明確，就是「追上 Neuro-sama」。
Open-LLM-VTuber：主打完全離線、可在本地端運行，文件寫得相當清楚，對新手非常友善。
Ikaros-521/AI-Vtuber：平台支援度最廣泛，能直接串接 YouTube、Twitch 以及 Bilibili 等主流平台。

編輯建議：剛起步時，請務必先使用現成的框架，不要嘗試從零開發。 你真正需要動手寫程式的部分，通常會落在現成框架尚未完美解決的「自動推流」與「多角色管理」這兩大區塊。

Part 5｜錢會花在哪？（白話成本分析）

如果你目前的預算大概是每個月台幣一兩千元（約折合 USD 10–60），那麼你一定要建立這個觀念：軟體幾乎都是免費的，真正的成本卡在「你的電腦顯示卡夠不夠力」。

LLM 大腦成本：若使用本地端模型是完全免費的（但極度消耗顯卡資源）；若使用雲端 API 則有許多免費額度，甚至有些第三方服務只需支付一次性小額費用（如 $10 美元）就能使用很久。
TTS 聲音成本：目前有非常優秀且免費的開源工具（例如 GPT-SoVITS），這是最省錢的方案。切記不要在初期使用像 ElevenLabs 那種按字數/按量付費的雲端服務，因為在每天長時間直播的消耗下，其昂貴的費率會瞬間擠爆你的預算。
Live2D 角色成本：使用網路上免費、現成的公用模型成本為 0 元；若未來要找繪師和建模師量身打造客製化角色，費用可能從數千到數萬元不等。
隱藏的大魔王 —— 顯示卡：在本地端跑 AI 模型極度依賴顯示卡記憶體（VRAM）。如果顯卡效能不足，除了直播會嚴重卡頓外，你就必須花錢去租用雲端顯卡服務。然而，雲端顯卡如果 24 小時不間斷運行，一個月的租金將會大幅超出你的預算。

Part 6｜你的電腦硬體行不行？（以 GTX 1660 為例）

假設你的配備是 GTX 1660 顯示卡，擁有 6GB 的顯示記憶體（VRAM），這裡給出最誠實的結論：這張顯卡絕對可以拿來做開發實驗，但必須聰明地分工，千萬不要把所有任務都塞給它。

6GB VRAM 的容量，並不足以同時跑「大腦（LLM）」與「嘴巴（TTS）」這兩個都極度吃顯卡記憶體的工作。
最順暢的配置建議：將大腦（LLM）外包給雲端 API（藉此省下大量顯卡記憶體），並把整張顯卡的 6GB VRAM 資源全部留給本地端的 TTS 語音合成來跑即時語音。
雖然 GTX 1660 這代顯卡在部分高精度運算上有些硬體限制，但只要選用「經過量化（Quantization）處理的小模型」，依然能跑得非常順暢，而現成的開源框架大多預設就支援這項優化技術。

Part 7｜技術黑話對照表

在摸索的過程中，你可能會遇到許多術語。這裡幫大家整理好對照表，方便你隨時回來查閱：

常見技術詞彙	白話意思
VTuber	使用虛擬卡通角色代替真人露臉的主播。
LLM	AI 的大腦，決定角色要說什麼（如 ChatGPT 類型的模型）。
TTS	文字轉語音，將大腦生成的文字轉化成聲音。
ASR / STT	語音轉文字，讓 AI 聽懂人類說的話（非必備）。
Live2D	讓 2D 平面插畫動起來，呈現精緻動態的技術。
VTube Studio	驅動 Live2D 角色、自動處理唇形同步的軟體。
唇形同步 / lip-sync	讓角色的嘴型動作與發出的聲音精確對上。
OBS	最主流的直播推流軟體，負責把畫面送上直播平台。
API	軟體與軟體之間互相溝通、傳遞資料的窗口。
system prompt	給 AI 大腦的系統提示（角色人設），決定其說話語氣與個性。
VRAM	顯示卡上的記憶體，在自己電腦跑本地 AI 時最重要的硬體指標。
本地 / local	在自己電腦本機運作，不依賴網際網路與外部伺服器。
雲端 / API 服務	將運算工作發送給網路上別人的高效能伺服器來處理。
開源 / open source	原始碼公開，任何人都可以免費下載、修改與使用。
量化 / quantization	一種將 AI 模型「壓縮變小」的技術，以便塞進配備較差的顯卡。
框架 / framework	開發者幫你組裝好的半成品，只要拿來稍加修改就能直接使用。
推流 / streaming	將直播畫面編碼並即時傳送到 YouTube、Twitch 等平台。
中之人	VTuber 虛擬皮囊背後的真人表演與配音員（AI VTuber 則無）。

小結

釐清了這份地圖後，你腦中應該已經有了清晰的輪廓。接下來的實作之路，建議可以按照以下三個階段循序漸進地動手：

第一階段：使用現成的開源框架（如 Open-LLM-VTuber），先在自己的電腦上成功跑出「一個會講話、有 Live2D 動作的角色」。
第二階段：串接 YouTube 聊天室 API，進行短時間的直播實測，驗證互動效果。
第三階段：挑戰將系統擴充為「多個角色」，並撰寫腳本實現每日自動排程開播。

動手前的待辦清單

決定第一個 AI 角色的人設方向（包含個性、主題、世界觀設定）。
確認 GPT-SoVITS 語音合成所需的「聲音樣本」要採用誰的聲線。
釐清「每天自動開播、斷線重連」的自動化 OBS 排程該如何實作（因目前開源框架大多無現成方案）。
在動手安裝前，誠實、耐心地把 Open-LLM-VTuber 的官方文件完整閱讀一遍。

Jun 的學習筆記

探索