如果你也想打造類似 Neuro-sama 那樣極具娛樂效果的 AI 直播,那麼「雙 AI 角色互相 ban-and-banter(對話),同時還能被觀眾留言打斷」的雜談台,絕對是最理想的驗證目標。

在我們的 010-AI-VTuber 專案中,這項「方針 1」的演出方針已於 2026-06-10 正式拍板。本篇將會詳細拆解雙 AI 雜談台的架構設計與執行步驟。如果你對 AI VTuber 的基礎概念還不熟悉,建議先閱讀這篇前置準備:AI-VTuber 是什麼-白話入門

以下是我們針對這個系統運作的硬體可行性評估、技術挑戰,以及分階段驗證的實戰藍圖。


0. 硬體可行性評估:GTX 1660 6GB 實測結論

在動手寫程式之前,大家最關心的通常是硬體門檻。經過筆者在 2026-06-10 的實際測試,答案是完全可行,顯卡 VRAM(視訊記憶體)並非此架構的瓶頸。

這與先前嘗試在本地部署 GPT-SoVITS 與 Live2D 接線安裝指南 的狀況正好相反:

評估項目之前本地部署 GPT-SoVITS方針1 雙AI 運作架構
本地深度模型有(FP32,吃好幾 GB)
LLM(大語言模型)雲端 OpenRouter(0 本地 VRAM)
TTS(語音合成)本地克隆吃 VRAMedge-tts 雲端(0 本地 VRAM)
本地 GPU 負擔VTS + FP32 運作 → 容易爆掉只多「第 2 個 Live2D 渲染」(2D,負擔極輕)

實測數據參考(單一 VTube Studio 實例開啟時): 在 6144MiB (6GB) 的總 VRAM 中,已用約 2.1GB、剩餘約 3.8GB、GPU 使用率 29%。 依此推算,未來開啟「雙 VTS + OBS」運作時,預估僅需 3.5–4GB 的 VRAM(因為第二個 VTS 實例只會額外增加約 0.5~1GB 消耗,桌面基底資源是共用的)。這對於 6GB 的顯卡來說依然綽綽有餘。

由此可見,真正的風險與瓶頸並非硬體規格,而是屬於純軟體層面的「編排層(Orchestration Layer)」設計。


1. 雙機運作面臨的三大挑戰

要讓雙 AI 順利上線,我們必須克服以下三個層面的挑戰:

挑戰項目具體內容難易度
設定 AVTS 一個實例只能載入一個模型 → 雙角色必須開啟 2 個 VTS 實例
設定 B需要 2 條獨立的虛擬音訊線,確保每個角色的聲音只會驅動各自的嘴巴。目前系統只有 1 條 VB-CABLE,後續需加裝第 2 條(如 VB-CABLE A+B 或 Voicemeeter)。
核心挑戰編排層設計:如何讓兩個 AI 輪流說話、不同時出聲、不產生鬼打牆現象,且能隨時被聊天室觀眾打斷。

2. 兩階段驗證策略:低成本拆解風險

為了避免一開始就卡在硬體和複雜的音訊設定,我們採取「先驗證軟體邏輯,再串接硬體畫面」的兩階段策略,以最便宜、高效的方式排除專案風險。

階段 A:雙 AI 對話(零額外硬體,優先驗證)

這個階段的目標是先驗證最難、最關鍵的「對話是否精彩好看」,此時完全不碰 VTS 與音訊線。

  • 撰寫第 2 個角色的描述 JSON(設定與第一隻角色形成性格反差)。
  • 設計「輪流發話」的調度邏輯:決定誰先起頭、如何分配輪次,並將對方的上一句話正確餵進彼此的 context 中。
  • 串接兩種 edge 聲線,零成本地區分兩個角色的聲音。
  • 實作「出聲互斥」機制:引入佇列鎖(Queue Lock),避免兩張嘴同時說話。
  • 防鬼打牆機制:共享最近話題記憶,一旦偵測到重複語意就強制換題。
  • 實作「觀眾打斷」功能:留言進來時,打斷原本的自走對話,優先回應觀眾。
  • 用單一喇叭播放完整對話,驗證整體對話流暢度。

階段 B:上臉與推流(A 階段成功後才啟動)

  • 實際開啟 2 個 VTube Studio 實例。
  • 設置第 2 條虛擬音訊線,確保每種聲音只驅動其對應模型的嘴巴。
  • 修改 main.py:使其支援「每個角色路由到不同的音訊輸出裝置」(目前為單一全域設定,需進行小幅度改寫)。
  • 在 OBS 進行雙視窗排版(同框配置),並進行推流穩定性實測。
  • 持續監看 1660 顯卡的實際 VRAM 與 GPU 使用率,確保直播不掉幀。

3. 編排層設計的核心重點(核心風險所在)

雙 AI 的架構絕非「兩個機器人各自對話」那麼簡單。要讓直播具有觀賞性,對話必須聽起來像真實的互動:

  • 回合制調度:運作流程為「A 說話 → 將 A 的回覆作為輸入餵給 B → B 回應 → 再將 B 的回應餵回 A」,以此輪流推進對話。
  • 出聲互斥(重要):必須設計一個全域的「說話佇列鎖(Queue Lock)」。在同一時間內,只允許一個角色進行語音合成與輸出,講完後釋放鎖,另一個角色才能接力說話,否則兩條 TTS 音訊會重疊在一起,導致觀眾聽不清楚。
  • 防鬼打牆機制:系統需要維護一個「最近 N 個話題」的共享記憶庫。一旦偵測到兩者對話語意開始重複,就必須強制注入新的話題種子來轉換話題。
  • 聊天室打斷(混合模式):平常兩個 AI 的「自走對話」在背景持續運行;當系統偵測到有觀眾留言時,會暫停自走對話,優先指派其中一個角色來回應留言,回應完畢後再恢復原本的對話流。

這也是為什麼我們需要將原本規劃在後期的「自寫排程/編排層」提早拉到第一線進行開發——因為目前市面上沒有現成的開源方案,這是本專案自研量最大、最核心的部分。


4. 延伸閱讀與相關資源

若想了解更多關於此架構的技術細節,可以參考以下整理好的主題筆記:


小結

透過這次的硬體實測,我們確認了即便是中階顯卡(1660 6GB),在採用雲端 LLM 與 TTS 的架構下,也完全足以應付雙 AI VTuber 的運作。這讓我們能把所有的開發專注力,放在最核心的「編排層(Orchestration Layer)」設計上。

接下來,我們將正式進入「階段 A」的雙 AI 對話邏輯驗證。如果你也對打造自主對話的 AI 角色感興趣,不妨依照本篇的兩階段步驟,一起動手試試看吧!