你是否曾看過像 Neuro-sama 這樣在直播中一邊打遊戲、一邊和觀眾精準對答,甚至還會唱歌、開玩笑的 AI 虛擬主播?看著畫面上動感活潑的角色,你可能也曾萌生過「我自己是不是也能做一個」的想法。
不過,在動手寫程式或下載軟體之前,最重要的事情是先建立腦中的地圖。這篇文章不教你複雜的代碼,而是透過「真人直播主需要哪些零件」的白話比喻,帶你從零搞懂 AI VTuber 是如何運作的。讀完這篇文章,你將能清楚回答:AI VTuber 到底是什麼?它由哪些零件組成?以及這些零件是如何串接,打造出一個會說話、會動、會看留言回嘴的虛擬主播。
Part 1|AI VTuber 到底是什麼?
在深入技術之前,我們先把「AI VTuber」這個詞拆開來理解:
- VTuber(Virtual YouTuber,虛擬主播):直播時露臉的不是真人,而是一個 2D 或 3D 的卡通角色。一般情況下,背後其實是有真人在說話、做表情,並透過動態捕捉技術即時帶動卡通角色,這位幕後配音與表演者在業界被稱為「中之人」。
- AI VTuber:簡單來說,就是把「中之人」換成 AI。這裡沒有真人操作,角色的腦袋就是一個 AI 系統,它會自己思考、自己說話,並即時回覆觀眾的留言。
目前全球最知名的例子就是 Neuro-sama。她是一個 AI 少女角色,能一邊在直播中玩遊戲,一邊跟觀眾互動、唱歌、講冷笑話,所有觀眾的留言她都能即時讀出並巧妙回嘴。整場直播沒有任何真人在幕後操控,全部由 AI 即時生成。
如果你未來的目標是實現「一群 AI 直播主每天在 YouTube 自動直播」,那麼本質上就是做好幾個擁有不同人設、個性的 AI 角色,並讓它們自動化開播。
Part 2|拆開來看:一個 AI 主播等於 7 個零件
想像一下,如果要幫一個「真人主播」開台,他需要具備哪些條件?AI 主播需要的東西幾乎一模一樣,只是我們把每個實體器官和工具,都換成了對應的軟體模組:
| 真人主播需要 | AI 主播的對應零件 | 術語 | 白話解釋 |
|---|---|---|---|
| 🧠 一顆會思考的腦 | 語言模型 | LLM | 決定「要說什麼」 |
| 👄 一張嘴/聲音 | 語音合成 | TTS | 把文字「念出聲音」 |
| 👂 耳朵(聽人講話) | 語音辨識 | ASR / STT | 把聲音「轉成文字」(選用) |
| 🧍 一張臉和身體 | 虛擬模型 + 驅動 | Live2D + VTube Studio | 讓卡通角色動起來、嘴型對上聲音 |
| 👀 看聊天室的眼睛 | 聊天室串接 | 平台 API | 即時抓取觀眾留言 |
| 📒 記憶力 | 記憶系統 | memory | 記得剛剛聊過什麼、維持自己的人設 |
| 🎥 攝影機+轉播車 | 推流軟體 | OBS | 把整個畫面與聲音送上 YouTube |
接下來,我們逐一用白話來認識這 7 個核心零件。
🧠 大腦:LLM(語言模型)
這就是類似 ChatGPT 的技術。當你給它一段文字(例如觀眾的留言),它會生成一段對應的回答。它也是角色「個性」的靈魂來源——我們會賦予它一段設定(稱為 system prompt / 系統提示),例如:「你是一個傲嬌、愛吐槽、喜歡貓的虛擬少女」,此後它講話就會完全遵循這個設定與調性。
- 雲端方案:連線到網路上的 AI 服務(如 OpenAI),依照使用量付費或使用免費額度。
- 本地方案:將模型下載到自己的電腦執行。雖然完全不用連網、不用付費,但非常考驗顯示卡的效能。
👄 嘴巴:TTS(Text To Speech,文字轉語音)
負責把大腦(LLM)產生的回答文字「念成聲音」。這裡的重點在於音色——你可以讓它使用特定風格的聲音說話,甚至進行聲音克隆(只要提供幾秒鐘的聲音樣本,AI 就能學會模仿)。這是讓虛擬角色擁有獨特聲線的關鍵。
👂 耳朵:ASR / STT(語音辨識)
反過來,負責把「聲音轉成文字」。如果你想直接用「講話」的方式跟 AI 互動(而非打字),就會需要這個功能。不過,由於 AI VTuber 主要還是讀取聊天室的文字留言,因此這個零件常常是選用的,在開發初期可以先忽略。
🧍 臉和身體:Live2D + VTube Studio
- Live2D:這是一種能讓平面 2D 插畫「動起來」的技術。它把一張平面角色圖切成許多圖層(頭髮、眼睛、嘴巴等),就能做出眨眼、轉頭或嘴巴開合等微表情,呈現出精緻的 2.5D 效果。
- VTube Studio:這是目前最主流的驅動軟體,負責讓 Live2D 角色動起來(例如待機微動、眨眼),並在講話時讓嘴型精準對上聲音(稱為唇形同步 / lip-sync)。
💡 業界實用小知識:聲音如何驅動嘴巴動?標準做法是使用一條「虛擬音訊線」——系統會把 TTS 合成出的聲音,偽裝成一個麥克風訊號餵給 VTube Studio。VTube Studio 只要偵測到音訊輸入,就會自動讓角色的嘴巴開合,你不需要手動去計算或對嘴型。
👀 看留言的眼睛:聊天室串接
在直播過程中,觀眾會不斷在聊天室打字。我們需要透過直播平台(例如 YouTube)提供的程式介面(API,即軟體間溝通的窗口),即時把觀眾的留言抓取下來,再丟給大腦(LLM)去思考如何回應。
📒 記憶:memory
大腦(LLM)預設是「金魚腦」,講完話下一秒就會忘記。記憶系統能讓角色記住「五分鐘前觀眾問過什麼」、「自己的人設」或「上次直播聊過的話題」,如此一來講話才會有連續性與一致性。不過,這部分在目前的現成框架中通常還在發展階段,表現尚未到完美。
🎥 攝影機+轉播車:OBS(推流軟體)
上述的所有零件,最終只會在「你自己的電腦螢幕上」呈現出一個會動、會說話的角色。若要讓全世界在 YouTube 上看到,就需要 OBS 這款廣播級的推流軟體:它會把角色的動態畫面、直播背景、遊戲畫面與字幕整合在一起,編碼後推送(推流)到 YouTube 直播伺服器。
⚠️ 新手最容易忽略的關卡:市面上大部分現成的 AI VTuber 軟體只處理到「讓角色在電腦上動起來」。至於**「如何推流到 YouTube、如何做到每天自動開播、斷線如何自動重連」這一段,往往需要自己手動串接 OBS 與自動化排程**。這也是要打造「多角色、每日自動直播」系統時,最花心思和工夫的地方。
Part 3|這些零件怎麼串起來?(完整運作流程)
當我們把這 7 個零件接上後,一次標準的「觀眾留言 → 角色回嘴」流程會是這樣運作的:
觀眾在 YouTube 打字:「你今天午餐吃什麼?」
│
▼
👀 聊天室串接 抓到這句留言(文字)
│
▼
🧠 LLM 大腦 讀留言 + 角色人設 + 記憶,生成回答文字:
「哼,AI 才不用吃飯呢~不過我想嚐嚐拉麵的說!」
│
▼
👄 TTS 嘴巴 把這句文字念成有角色音色的「聲音」
│
├────────────▼
│ 📒 記憶 把這輪對話存起來(下次記得聊過拉麵)
│
▼
🧍 VTube Studio 聲音透過「虛擬音訊線」進來 → 角色嘴巴跟著動(唇形同步)
│
▼
🎥 OBS 推流 把「會動會講話的角色畫面」編碼,送上 YouTube
│
▼
觀眾聽到、看到角色開口回答 ✅
為了不讓觀眾感到嚴重的延遲卡頓,上述的整個流程必須在短短幾秒鐘內執行完畢。這也是為什麼系統運算的速度至關重要,且電腦硬體(尤其是顯示卡)的效能會直接影響直播體驗。
Part 4|好消息:不用自己從零開發
看到這裡,你可能會擔心自己需要寫成千上萬行的程式碼才能把這 7 個零件串起來。事實上,完全不用! 網路上已經有許多熱心的開發者將這些零件打包好,並以「開源(Open Source)」的形式免費提供給大家使用。以下是目前最受矚目的三個開源框架:
- AIRI:目前社群規模最大、最活躍的專案,開發目標非常明確,就是「追上 Neuro-sama」。
- Open-LLM-VTuber:主打完全離線、可在本地端運行,文件寫得相當清楚,對新手非常友善。
- Ikaros-521/AI-Vtuber:平台支援度最廣泛,能直接串接 YouTube、Twitch 以及 Bilibili 等主流平台。
編輯建議:剛起步時,請務必先使用現成的框架,不要嘗試從零開發。 你真正需要動手寫程式的部分,通常會落在現成框架尚未完美解決的「自動推流」與「多角色管理」這兩大區塊。
Part 5|錢會花在哪?(白話成本分析)
如果你目前的預算大概是每個月台幣一兩千元(約折合 USD 10–60),那麼你一定要建立這個觀念:軟體幾乎都是免費的,真正的成本卡在「你的電腦顯示卡夠不夠力」。
- LLM 大腦成本:若使用本地端模型是完全免費的(但極度消耗顯卡資源);若使用雲端 API 則有許多免費額度,甚至有些第三方服務只需支付一次性小額費用(如 $10 美元)就能使用很久。
- TTS 聲音成本:目前有非常優秀且免費的開源工具(例如 GPT-SoVITS),這是最省錢的方案。切記不要在初期使用像 ElevenLabs 那種按字數/按量付費的雲端服務,因為在每天長時間直播的消耗下,其昂貴的費率會瞬間擠爆你的預算。
- Live2D 角色成本:使用網路上免費、現成的公用模型成本為 0 元;若未來要找繪師和建模師量身打造客製化角色,費用可能從數千到數萬元不等。
- 隱藏的大魔王 —— 顯示卡:在本地端跑 AI 模型極度依賴顯示卡記憶體(VRAM)。如果顯卡效能不足,除了直播會嚴重卡頓外,你就必須花錢去租用雲端顯卡服務。然而,雲端顯卡如果 24 小時不間斷運行,一個月的租金將會大幅超出你的預算。
Part 6|你的電腦硬體行不行?(以 GTX 1660 為例)
假設你的配備是 GTX 1660 顯示卡,擁有 6GB 的顯示記憶體(VRAM),這裡給出最誠實的結論:這張顯卡絕對可以拿來做開發實驗,但必須聰明地分工,千萬不要把所有任務都塞給它。
- 6GB VRAM 的容量,並不足以同時跑「大腦(LLM)」與「嘴巴(TTS)」這兩個都極度吃顯卡記憶體的工作。
- 最順暢的配置建議:將大腦(LLM)外包給雲端 API(藉此省下大量顯卡記憶體),並把整張顯卡的 6GB VRAM 資源全部留給本地端的 TTS 語音合成來跑即時語音。
- 雖然 GTX 1660 這代顯卡在部分高精度運算上有些硬體限制,但只要選用「經過量化(Quantization)處理的小模型」,依然能跑得非常順暢,而現成的開源框架大多預設就支援這項優化技術。
Part 7|技術黑話對照表
在摸索的過程中,你可能會遇到許多術語。這裡幫大家整理好對照表,方便你隨時回來查閱:
| 常見技術詞彙 | 白話意思 |
|---|---|
| VTuber | 使用虛擬卡通角色代替真人露臉的主播。 |
| LLM | AI 的大腦,決定角色要說什麼(如 ChatGPT 類型的模型)。 |
| TTS | 文字轉語音,將大腦生成的文字轉化成聲音。 |
| ASR / STT | 語音轉文字,讓 AI 聽懂人類說的話(非必備)。 |
| Live2D | 讓 2D 平面插畫動起來,呈現精緻動態的技術。 |
| VTube Studio | 驅動 Live2D 角色、自動處理唇形同步的軟體。 |
| 唇形同步 / lip-sync | 讓角色的嘴型動作與發出的聲音精確對上。 |
| OBS | 最主流的直播推流軟體,負責把畫面送上直播平台。 |
| API | 軟體與軟體之間互相溝通、傳遞資料的窗口。 |
| system prompt | 給 AI 大腦的系統提示(角色人設),決定其說話語氣與個性。 |
| VRAM | 顯示卡上的記憶體,在自己電腦跑本地 AI 時最重要的硬體指標。 |
| 本地 / local | 在自己電腦本機運作,不依賴網際網路與外部伺服器。 |
| 雲端 / API 服務 | 將運算工作發送給網路上別人的高效能伺服器來處理。 |
| 開源 / open source | 原始碼公開,任何人都可以免費下載、修改與使用。 |
| 量化 / quantization | 一種將 AI 模型「壓縮變小」的技術,以便塞進配備較差的顯卡。 |
| 框架 / framework | 開發者幫你組裝好的半成品,只要拿來稍加修改就能直接使用。 |
| 推流 / streaming | 將直播畫面編碼並即時傳送到 YouTube、Twitch 等平台。 |
| 中之人 | VTuber 虛擬皮囊背後的真人表演與配音員(AI VTuber 則無)。 |
小結
釐清了這份地圖後,你腦中應該已經有了清晰的輪廓。接下來的實作之路,建議可以按照以下三個階段循序漸進地動手:
- 第一階段:使用現成的開源框架(如 Open-LLM-VTuber),先在自己的電腦上成功跑出「一個會講話、有 Live2D 動作的角色」。
- 第二階段:串接 YouTube 聊天室 API,進行短時間的直播實測,驗證互動效果。
- 第三階段:挑戰將系統擴充為「多個角色」,並撰寫腳本實現每日自動排程開播。
相關知識庫連結
- AI-VTuber-MOC —— 深入了解 AI VTuber 專案的架構與核心模組
- AI-LLM-MOC —— 學習本地模型、Ollama 與量化等共通的 AI 大腦概念
- Hermes Desktop 設定 Gemma 4 E2B 教學 —— 探索本地端跑語言模型的實作參考
動手前的待辦清單
- 決定第一個 AI 角色的人設方向(包含個性、主題、世界觀設定)。
- 確認 GPT-SoVITS 語音合成所需的「聲音樣本」要採用誰的聲線。
- 釐清「每天自動開播、斷線重連」的自動化 OBS 排程該如何實作(因目前開源框架大多無現成方案)。
- 在動手安裝前,誠實、耐心地把 Open-LLM-VTuber 的官方文件完整閱讀一遍。