你是否曾看過像 Neuro-sama 這樣在直播中一邊打遊戲、一邊和觀眾精準對答,甚至還會唱歌、開玩笑的 AI 虛擬主播?看著畫面上動感活潑的角色,你可能也曾萌生過「我自己是不是也能做一個」的想法。

不過,在動手寫程式或下載軟體之前,最重要的事情是先建立腦中的地圖。這篇文章不教你複雜的代碼,而是透過「真人直播主需要哪些零件」的白話比喻,帶你從零搞懂 AI VTuber 是如何運作的。讀完這篇文章,你將能清楚回答:AI VTuber 到底是什麼?它由哪些零件組成?以及這些零件是如何串接,打造出一個會說話、會動、會看留言回嘴的虛擬主播。


Part 1|AI VTuber 到底是什麼?

在深入技術之前,我們先把「AI VTuber」這個詞拆開來理解:

  • VTuber(Virtual YouTuber,虛擬主播):直播時露臉的不是真人,而是一個 2D 或 3D 的卡通角色。一般情況下,背後其實是有真人在說話、做表情,並透過動態捕捉技術即時帶動卡通角色,這位幕後配音與表演者在業界被稱為「中之人」。
  • AI VTuber:簡單來說,就是把「中之人」換成 AI。這裡沒有真人操作,角色的腦袋就是一個 AI 系統,它會自己思考、自己說話,並即時回覆觀眾的留言。

目前全球最知名的例子就是 Neuro-sama。她是一個 AI 少女角色,能一邊在直播中玩遊戲,一邊跟觀眾互動、唱歌、講冷笑話,所有觀眾的留言她都能即時讀出並巧妙回嘴。整場直播沒有任何真人在幕後操控,全部由 AI 即時生成。

如果你未來的目標是實現「一群 AI 直播主每天在 YouTube 自動直播」,那麼本質上就是做好幾個擁有不同人設、個性的 AI 角色,並讓它們自動化開播。


Part 2|拆開來看:一個 AI 主播等於 7 個零件

想像一下,如果要幫一個「真人主播」開台,他需要具備哪些條件?AI 主播需要的東西幾乎一模一樣,只是我們把每個實體器官和工具,都換成了對應的軟體模組:

真人主播需要AI 主播的對應零件術語白話解釋
🧠 一顆會思考的腦語言模型LLM決定「要說什麼」
👄 一張嘴/聲音語音合成TTS把文字「念出聲音」
👂 耳朵(聽人講話)語音辨識ASR / STT把聲音「轉成文字」(選用)
🧍 一張臉和身體虛擬模型 + 驅動Live2D + VTube Studio讓卡通角色動起來、嘴型對上聲音
👀 看聊天室的眼睛聊天室串接平台 API即時抓取觀眾留言
📒 記憶力記憶系統memory記得剛剛聊過什麼、維持自己的人設
🎥 攝影機+轉播車推流軟體OBS把整個畫面與聲音送上 YouTube

接下來,我們逐一用白話來認識這 7 個核心零件。

🧠 大腦:LLM(語言模型)

這就是類似 ChatGPT 的技術。當你給它一段文字(例如觀眾的留言),它會生成一段對應的回答。它也是角色「個性」的靈魂來源——我們會賦予它一段設定(稱為 system prompt / 系統提示),例如:「你是一個傲嬌、愛吐槽、喜歡貓的虛擬少女」,此後它講話就會完全遵循這個設定與調性。

  • 雲端方案:連線到網路上的 AI 服務(如 OpenAI),依照使用量付費或使用免費額度。
  • 本地方案:將模型下載到自己的電腦執行。雖然完全不用連網、不用付費,但非常考驗顯示卡的效能。

👄 嘴巴:TTS(Text To Speech,文字轉語音)

負責把大腦(LLM)產生的回答文字「念成聲音」。這裡的重點在於音色——你可以讓它使用特定風格的聲音說話,甚至進行聲音克隆(只要提供幾秒鐘的聲音樣本,AI 就能學會模仿)。這是讓虛擬角色擁有獨特聲線的關鍵。

👂 耳朵:ASR / STT(語音辨識)

反過來,負責把「聲音轉成文字」。如果你想直接用「講話」的方式跟 AI 互動(而非打字),就會需要這個功能。不過,由於 AI VTuber 主要還是讀取聊天室的文字留言,因此這個零件常常是選用的,在開發初期可以先忽略。

🧍 臉和身體:Live2D + VTube Studio

  • Live2D:這是一種能讓平面 2D 插畫「動起來」的技術。它把一張平面角色圖切成許多圖層(頭髮、眼睛、嘴巴等),就能做出眨眼、轉頭或嘴巴開合等微表情,呈現出精緻的 2.5D 效果。
  • VTube Studio:這是目前最主流的驅動軟體,負責讓 Live2D 角色動起來(例如待機微動、眨眼),並在講話時讓嘴型精準對上聲音(稱為唇形同步 / lip-sync)。

💡 業界實用小知識:聲音如何驅動嘴巴動?標準做法是使用一條「虛擬音訊線」——系統會把 TTS 合成出的聲音,偽裝成一個麥克風訊號餵給 VTube Studio。VTube Studio 只要偵測到音訊輸入,就會自動讓角色的嘴巴開合,你不需要手動去計算或對嘴型。

👀 看留言的眼睛:聊天室串接

在直播過程中,觀眾會不斷在聊天室打字。我們需要透過直播平台(例如 YouTube)提供的程式介面(API,即軟體間溝通的窗口),即時把觀眾的留言抓取下來,再丟給大腦(LLM)去思考如何回應。

📒 記憶:memory

大腦(LLM)預設是「金魚腦」,講完話下一秒就會忘記。記憶系統能讓角色記住「五分鐘前觀眾問過什麼」、「自己的人設」或「上次直播聊過的話題」,如此一來講話才會有連續性與一致性。不過,這部分在目前的現成框架中通常還在發展階段,表現尚未到完美。

🎥 攝影機+轉播車:OBS(推流軟體)

上述的所有零件,最終只會在「你自己的電腦螢幕上」呈現出一個會動、會說話的角色。若要讓全世界在 YouTube 上看到,就需要 OBS 這款廣播級的推流軟體:它會把角色的動態畫面、直播背景、遊戲畫面與字幕整合在一起,編碼後推送(推流)到 YouTube 直播伺服器

⚠️ 新手最容易忽略的關卡:市面上大部分現成的 AI VTuber 軟體只處理到「讓角色在電腦上動起來」。至於**「如何推流到 YouTube、如何做到每天自動開播、斷線如何自動重連」這一段,往往需要自己手動串接 OBS 與自動化排程**。這也是要打造「多角色、每日自動直播」系統時,最花心思和工夫的地方。


Part 3|這些零件怎麼串起來?(完整運作流程)

當我們把這 7 個零件接上後,一次標準的「觀眾留言 → 角色回嘴」流程會是這樣運作的:

觀眾在 YouTube 打字:「你今天午餐吃什麼?」
        │
        ▼
👀 聊天室串接  抓到這句留言(文字)
        │
        ▼
🧠 LLM 大腦   讀留言 + 角色人設 + 記憶,生成回答文字:
              「哼,AI 才不用吃飯呢~不過我想嚐嚐拉麵的說!」
        │
        ▼
👄 TTS 嘴巴    把這句文字念成有角色音色的「聲音」
        │
        ├────────────▼
        │      📒 記憶  把這輪對話存起來(下次記得聊過拉麵)
        │
        ▼
🧍 VTube Studio  聲音透過「虛擬音訊線」進來 → 角色嘴巴跟著動(唇形同步)
        │
        ▼
🎥 OBS 推流    把「會動會講話的角色畫面」編碼,送上 YouTube
        │
        ▼
觀眾聽到、看到角色開口回答 ✅

為了不讓觀眾感到嚴重的延遲卡頓,上述的整個流程必須在短短幾秒鐘內執行完畢。這也是為什麼系統運算的速度至關重要,且電腦硬體(尤其是顯示卡)的效能會直接影響直播體驗。


Part 4|好消息:不用自己從零開發

看到這裡,你可能會擔心自己需要寫成千上萬行的程式碼才能把這 7 個零件串起來。事實上,完全不用! 網路上已經有許多熱心的開發者將這些零件打包好,並以「開源(Open Source)」的形式免費提供給大家使用。以下是目前最受矚目的三個開源框架:

  • AIRI:目前社群規模最大、最活躍的專案,開發目標非常明確,就是「追上 Neuro-sama」。
  • Open-LLM-VTuber:主打完全離線、可在本地端運行,文件寫得相當清楚,對新手非常友善。
  • Ikaros-521/AI-Vtuber平台支援度最廣泛,能直接串接 YouTube、Twitch 以及 Bilibili 等主流平台。

編輯建議剛起步時,請務必先使用現成的框架,不要嘗試從零開發。 你真正需要動手寫程式的部分,通常會落在現成框架尚未完美解決的「自動推流」與「多角色管理」這兩大區塊。


Part 5|錢會花在哪?(白話成本分析)

如果你目前的預算大概是每個月台幣一兩千元(約折合 USD 10–60),那麼你一定要建立這個觀念:軟體幾乎都是免費的,真正的成本卡在「你的電腦顯示卡夠不夠力」。

  • LLM 大腦成本:若使用本地端模型是完全免費的(但極度消耗顯卡資源);若使用雲端 API 則有許多免費額度,甚至有些第三方服務只需支付一次性小額費用(如 $10 美元)就能使用很久。
  • TTS 聲音成本:目前有非常優秀且免費的開源工具(例如 GPT-SoVITS),這是最省錢的方案。切記不要在初期使用像 ElevenLabs 那種按字數/按量付費的雲端服務,因為在每天長時間直播的消耗下,其昂貴的費率會瞬間擠爆你的預算。
  • Live2D 角色成本:使用網路上免費、現成的公用模型成本為 0 元;若未來要找繪師和建模師量身打造客製化角色,費用可能從數千到數萬元不等。
  • 隱藏的大魔王 —— 顯示卡:在本地端跑 AI 模型極度依賴顯示卡記憶體(VRAM)。如果顯卡效能不足,除了直播會嚴重卡頓外,你就必須花錢去租用雲端顯卡服務。然而,雲端顯卡如果 24 小時不間斷運行,一個月的租金將會大幅超出你的預算

Part 6|你的電腦硬體行不行?(以 GTX 1660 為例)

假設你的配備是 GTX 1660 顯示卡,擁有 6GB 的顯示記憶體(VRAM),這裡給出最誠實的結論:這張顯卡絕對可以拿來做開發實驗,但必須聰明地分工,千萬不要把所有任務都塞給它。

  • 6GB VRAM 的容量,並不足以同時跑「大腦(LLM)」與「嘴巴(TTS)」這兩個都極度吃顯卡記憶體的工作。
  • 最順暢的配置建議將大腦(LLM)外包給雲端 API(藉此省下大量顯卡記憶體),並把整張顯卡的 6GB VRAM 資源全部留給本地端的 TTS 語音合成來跑即時語音。
  • 雖然 GTX 1660 這代顯卡在部分高精度運算上有些硬體限制,但只要選用「經過量化(Quantization)處理的小模型」,依然能跑得非常順暢,而現成的開源框架大多預設就支援這項優化技術。

Part 7|技術黑話對照表

在摸索的過程中,你可能會遇到許多術語。這裡幫大家整理好對照表,方便你隨時回來查閱:

常見技術詞彙白話意思
VTuber使用虛擬卡通角色代替真人露臉的主播。
LLMAI 的大腦,決定角色要說什麼(如 ChatGPT 類型的模型)。
TTS文字轉語音,將大腦生成的文字轉化成聲音。
ASR / STT語音轉文字,讓 AI 聽懂人類說的話(非必備)。
Live2D讓 2D 平面插畫動起來,呈現精緻動態的技術。
VTube Studio驅動 Live2D 角色、自動處理唇形同步的軟體。
唇形同步 / lip-sync讓角色的嘴型動作與發出的聲音精確對上。
OBS最主流的直播推流軟體,負責把畫面送上直播平台。
API軟體與軟體之間互相溝通、傳遞資料的窗口。
system prompt給 AI 大腦的系統提示(角色人設),決定其說話語氣與個性。
VRAM顯示卡上的記憶體,在自己電腦跑本地 AI 時最重要的硬體指標。
本地 / local在自己電腦本機運作,不依賴網際網路與外部伺服器。
雲端 / API 服務將運算工作發送給網路上別人的高效能伺服器來處理。
開源 / open source原始碼公開,任何人都可以免費下載、修改與使用。
量化 / quantization一種將 AI 模型「壓縮變小」的技術,以便塞進配備較差的顯卡。
框架 / framework開發者幫你組裝好的半成品,只要拿來稍加修改就能直接使用。
推流 / streaming將直播畫面編碼並即時傳送到 YouTube、Twitch 等平台。
中之人VTuber 虛擬皮囊背後的真人表演與配音員(AI VTuber 則無)。

小結

釐清了這份地圖後,你腦中應該已經有了清晰的輪廓。接下來的實作之路,建議可以按照以下三個階段循序漸進地動手:

  1. 第一階段:使用現成的開源框架(如 Open-LLM-VTuber),先在自己的電腦上成功跑出「一個會講話、有 Live2D 動作的角色」。
  2. 第二階段:串接 YouTube 聊天室 API,進行短時間的直播實測,驗證互動效果。
  3. 第三階段:挑戰將系統擴充為「多個角色」,並撰寫腳本實現每日自動排程開播。

相關知識庫連結

動手前的待辦清單

  • 決定第一個 AI 角色的人設方向(包含個性、主題、世界觀設定)。
  • 確認 GPT-SoVITS 語音合成所需的「聲音樣本」要採用誰的聲線。
  • 釐清「每天自動開播、斷線重連」的自動化 OBS 排程該如何實作(因目前開源框架大多無現成方案)。
  • 在動手安裝前,誠實、耐心地把 Open-LLM-VTuber 的官方文件完整閱讀一遍。