從一個有聲書委託開始
前幾週,一位好朋友問我有沒有興趣接一本有聲書的案子。她希望以 AI 的方式,用作者自己的聲音來製作有聲書——聽起來很有趣,於是我開始研究。
研究之後發現,目前市面上已有相當成熟的 AI 語音克隆技術(Voice Cloning),能分析語音特色,生成可模擬真人聲音的「數位聲音模型」,可以達到朋友的要求。這個模型可應用於旁白、有聲書、教材、簡報等各種情境。
Voice Cloning,是利用人工智慧技術分析您的語音特色,並生成一個能模擬您聲音的「數位聲音模型」—— 它能呈現您的語氣、語速、情緒表現,讓系統以接近真人的方式完成語音輸出。
主流 AI 聲音克隆工具一覽
我實際測試了目前最常見的幾款工具,各有所擅長。選擇之前,建議先確認你的語言需求、對腔調的要求,以及預算範圍。

我測試了這三個 AI 聲音工具 —— 美國的 ElevenLabs、中國的Minimax、以及台灣的VoAI。
ElevenLabs 來自於美國,它是目前公認英文合成語音自然度是業界最高,多語言支援,介面簡潔易上手,支援 Voice Cloning、TTS(Text-to-Speak)、多聲線等完整功能。但網友評它的中文語調可能不夠自然,品質也不一定穩定。最便宜年繳方案是月付 4.17 美金。
Minimax 來自於中國,它的中文合成語音品質與自然度都不錯,支援多語言與多聲線,最便宜年繳方案是月付 4塊美金(我就是用它來配我 Video 的旁白),CP 值高的選擇。但它的台灣本土口音支援較有限,部分腔調細節不夠精準。Minimax常常會有新的語音模型推出,但還是建議選擇穩定性高的語音模型,不要選擇最新的模型,新模型相對訓練不夠,在模仿的語音品質跟辨識度上常常無法控制。
接下來是來自台灣本土的 VoAI 絕好聲創,它強調高度仿真的台灣口音腔調,針對想要聲音克隆的服務,可以搭配選購 VIP 模型訂製,由專人幫你訓練完整模型,適合高品質本土內容。方案費用較高,依需求詢價。有台灣口音腔調的需求,可以考慮用本土的絕好聲創。
如何在 ElevenLabs 建立你的聲音模型
以下六個步驟帶你從零開始,建立屬於自己的 AI 聲音模型,全程不超過 10 分鐘。
錄製約 1 分鐘、音質清晰的語音內容,以自然語氣進行即可。請避免背景噪音 —— 不要在捷運上或垃圾車 BGM 伴奏下錄音。
開啟瀏覽器,前往 elevenlabs.io,完成註冊並登入帳號。Voice Cloning 功能需付費方案才能使用,最輕量的 Starter 方案每月 5 美金起。
登入後,在左側選單找到「Voices」,點擊「+」號,選擇「Create Voice」,接著點選 Instant Voice Clone。


上傳剛錄好的語音檔,或點擊「Record audio」現場錄音。可上傳多個樣本讓 AI 充分學習。記得勾選「Remove background noise from audio recordings」以移除背景雜音,完成後點擊「Next」。

為你的聲音模型命名並填寫相關資訊(例如:「我本人 2.0」)。務必勾選同意你擁有此聲音版權,再點擊「Save voice」完成建立。

完成後可在「My Voices」看到剛建好的聲音模型。ElevenLabs 保護用戶隱私,此模型是客製的僅限你自己使用。點擊「Text to Speech」,選擇你的聲音模型即可開始生成語音。


結論 & 後話
雖然 ElevenLabs 在英文語音合成上表現頂尖,網路上確實有部分使用者反映其中文語音的語調自然度不夠穩定。這很大程度上取決於你的語音樣本品質與錄製環境。
我在實際製作影片配音時,最終選擇以 Minimax 完成中文語音的生成,效果較為自然流暢。若你的內容以繁體中文為主、且對台灣腔調有明確需求,本土的 VoAI 絕好聲創或 ATEN 優聲學仍是更合適的選擇,只是費用相對較高。
最後有聲書的案子,並沒有用客製的AI 語音克隆方式,而是用VoAI 絕好聲創現成的 AI 角色聲音。在這過程中,又發現了另一個台灣 AI有聲書製作服務 - 聯經數位的 『Aicast』。我有用它來做最初的提案確認,它的費用不高,界面很好用,非常容易上手,且長篇文章上傳後,AI 會幫忙分析角色,準確度還蠻高的(這個功能 VoAI 絕好聲創並沒有提供),節省我不少時間。可惜的是,付完錢後竟然關閉付費會員的服務並退費,客服很難聯繫到。廠商最後是回覆目前還不知道重啟的時間。
用 VoAI 絕好聲創來進行有聲書製作,在試音的時候,發現擁有多種情境配音的角色,被訓練得比較成熟,唸起書來聲音比較生動。希望廠商能夠多多訓練同一個角色,像高興、生氣等不同情境的聲音,這樣對有聲書的選擇會比較多樣化。
選工具前,先問自己三個問題
你的主要語言是什麼?對腔調自然度的要求有多高?預算範圍在哪裡?根據這三個問題選擇最適合的工具,才能達到最好的效果。各工具沒有絕對優劣,只有適不適合。