最佳AI語音識別、翻譯和多語言配音解決方案 🚀








Voice-Pro是一款革新多媒體內容製作的先進網頁應用程式。它將YouTube影片下載、音訊分離、語音辨識、翻譯和文字轉語音(TTS)整合到一個強大的工具中,為創作者、研究人員和多語言專家提供理想的解決方案。
- 🔊 頂級語音識別: Whisper, Faster-Whisper, Whisper-Timestamped, WhisperX
- 🎤 零樣本語音複製: F5-TTS, E2-TTS, CosyVoice
- 📢 多語言文本轉語音: Edge-TTS, kokoro (付費版包括 Azure TTS)
- 🎥 YouTube處理與音頻提取: yt-dlp
- 🌍 超過100種語言的即時翻譯: Deep-Translator (付費版包括 Azure Translator)
作為ElevenLabs的強大替代方案,Voice-Pro為播客主持人、開發者和創作者提供進階語音解決方案。
- 由於WeConnect開發工作,Voice-Pro的開發和更新暫時無法進行。
- 我們已經公開了所有Voice-Pro代碼並完全免費。Voice-Pro現在可以自由分發和修改。
- 在配備NVIDIA GPU的Windows環境下運行良好。Mac和Linux上的運行尚未驗證。
- 請將您的請求留在
或
頁面。
- 故障排除: 在大多數情況下,刪除
installer_files文件夾,然後依次運行configure.bat和start.bat即可解決問題。
version 3.2
version 3.1
- 🪄 支援 F5-TTS 的微調模型
- 🌍 支援的語言
English &
Chinese: SWivid/F5-TTS_v1
Finnish: AsmoKoskinen/F5-TTS_Finnish_Model
French: RASPIAUDIO/F5-French-MixedSpeakers-reduced
Hindi: SPRINGLab/F5-Hindi-24KHz
Italian: alien79/F5-TTS-italian
Japanese: Jmica/F5TTS/JA_21999120
Russian: hotstone228/F5-TTS-Russian
Spanish: jpgallegoar/F5-Spanish
版本 3.0
- 🔥 AI Cover功能已移除。
- 🚀 添加了對m-bain/whisperX的支持。
版本 2.0
- YouTube視頻下載與音頻提取
- 使用Demucs進行聲音分離
- 支持100多種語言的語音識別與翻譯
- 語音轉文本: Whisper, Faster-Whisper, Whisper-Timestamped, WhisperX
- 文本轉語音:
- Edge-TTS: 100多種語言,400多種聲音
- E2-TTS, F5-TTS, CosyVoice: 零樣本克隆
- kokoro: 在HuggingFace TTS競技場中排名第2
- 即時語音識別
- 實時多語言翻譯
- 可自定義的音頻輸入
- 整合中心:YouTube下載、降噪、字幕、翻譯、TTS
- 支援所有ffmpeg相容格式
- 輸出選項:WAV、FLAC、MP3
- 支援100多種語言的字幕和辨識
- 可調節TTS的速度、音量、音調
- 專用字幕:90多種語言
- 影片整合字幕顯示
- 單字級醒目提示和降噪選項
- 100多種語言翻譯
- 支援字幕檔案(ASS、SSA、SRT等)
- 即時語音辨識和翻譯
- 選項:Edge-TTS、F5-TTS、CosyVoice、kokoro
- 使用名人聲音製作播客和多語言支援
- 請在Issues頁面上請求想添加的聲音。Issues
English
Chinese
![]() 迪丽热巴 (Dílì Rèbā) |
![]() 蔡依林 (Cài Yīlín) |
![]() 吴亦凡 (Wú Yìfán) |
![]() 李易峰 (Lǐ Yìfēng) |
![]() 杨幂 (Yáng Mì) |
![]() 赵丽颖 (Zhào Lìyǐng) |
- 作業系統: Windows 10/11(64位元)、Linux、Mac
- 顯示卡: 支援CUDA 12.4的NVIDIA顯示卡(建議)
- 顯示記憶體: 4GB以上(建議8GB以上)
- 記憶體: 4GB以上
- 儲存空間: 20GB以上可用空間
- 網路: 必需
使用configure.bat和start.bat輕鬆安裝Voice-Pro(Mac/Linux上使用configure.sh和start.sh)。
git clone https://github.com/abus-aikorea/voice-pro.git- 🚀 configure.bat
- 安裝git、ffmpeg、CUDA(使用NVIDIA GPU時)
- 首次執行一次;需要網路,可能需要1小時以上
- 不要關閉命令視窗
- 🚀 start.bat
- 執行Voice-Pro網頁介面
- 首次執行時安裝相依性(可能需要1小時以上)
- 如果出現問題,刪除installer_files後重新執行
- 🚀 update.bat:更新Python環境(比重新安裝更快)
- 執行uninstall.bat或刪除資料夾(可攜式安裝)
- 關閉Windows命令視窗,重新執行start.bat,或
- 直接啟動瀏覽器,在網址列輸入Windows命令視窗顯示的網址(例如**http://127.0.0.1:7870**)
- 在Windows工作管理員-效能標籤中檢查GPU記憶體狀態
- 將降噪等級設定為0或1。降噪等級2需要8GB以上的GPU記憶體
- 將計算類型設定為int類型。float類型品質更好但需要更多GPU記憶體
- 字幕品質通常隨著使用更大的Whisper模型而提高,但並不總是如此。large > medium > small > base > tiny
- 在計算類型中,float類型效能更好。int類型透過模型量化降低GPU使用量並提高速度,但效能較差
- 提高降噪等級可以更多地去除背景音,只將剩餘的語音用於語音辨識。但不總是能保證更好的結果
下表列出了支援字幕製作、翻譯和文字轉語音(TTS/配音)功能的SaaS平台。成本基於2025年4月15日的最新定價數據,計算包括處理60分鐘韓語影片的字幕生成、英語翻譯和英語配音。
| 平台 | 字幕製作 | 翻譯 | TTS/配音 | 60分鐘影片處理成本 (美元, 約) | 主要功能 |
|---|---|---|---|---|---|
| Maestra | ✅ | ✅ | ✅ | $23.70 | 支援125+語言,實時字幕,SEO關鍵詞提取,15分鐘免費試用。 |
| Kapwing | ✅ | ✅ | ✅ | $30~$40 (Pro計劃,按分鐘) | AI字幕,100+語言翻譯,自動唇部同步配音,提供免費層。 |
| VEED.IO | ✅ | ✅ | ❌ | $24~$36 (Pro計劃,部分處理) | 99.9%精準字幕,Instagram優化字幕,直觀編輯器。 |
| HappyScribe | ✅ | ✅ | ✅ | $36~$48 (按需付費) | 120+語言,專業校對選項,安全,會議轉錄。 |
| Sonix | ✅ | ✅ | ✅ | $30~$40 (Standard計劃) | 54+語言,30分鐘免費轉錄,YouTube/Zoom整合。 |
| Descript | ✅ | ✅ | ✅ | $36~$48 (Creator計劃) | 文字編輯,Overdub TTS,填充詞移除,1小時免費轉錄。 |
| AppTek | ✅ | ✅ | ✅ | 客製化定價 (聯繫) | 媒體專用,客製化模型,元數據生成,基於雲的Workbench。 |
| Transkriptor | ✅ | ✅ | ❌ | $12~$18 (按需付費) | 100+語言,YouTube連結轉錄,99%精準度,簡單編輯器。 |
- Maestra: Premium計劃 ($158/月,1200積分)。60分鐘影片:字幕60積分 + 翻譯60積分 + 配音60積分 = 180積分。成本 = (180/1200) * $158 = $23.70。
- Kapwing: Pro計劃 (~$24/月,分鐘限制)。字幕+翻譯+配音每分鐘$0.50~$0.67估算(基於分鐘定價趨勢)。60分鐘成本:$30~$40。需確認準確價格。
- VEED.IO: Pro計劃 (~$24/月)。字幕+翻譯每分鐘$0.40~$0.60估算。無TTS,部分處理。60分鐘成本:$24~$36。請在veed.io確認。
- HappyScribe: 按需付費 (轉錄每分鐘~$0.20,翻譯$0.20,配音$0.20)。60分鐘成本:$36~$48(假設組合服務)。請在happyscribe.com確認。
- Sonix: Standard計劃 (轉錄每小時~$10,翻譯/配音額外)。總計每分鐘$0.50~$0.67估算。60分鐘成本:$30~$40。請在sonix.ai確認。
- Descript: Creator計劃 (~$24/月,時間限制)。字幕+翻譯+配音每分鐘$0.60~$0.80估算。60分鐘成本:$36~$48。請在descript.com確認。
- AppTek: 企業客製化定價。無公開分鐘費率。請聯繫apptek.ai獲取報價。
- Transkriptor: 按需付費 (轉錄每分鐘$0.05~$0.10,翻譯類似)。無TTS,部分處理。60分鐘成本:$12~$18。請在transkriptor.com確認。
- 60分鐘影片處理成本: 成本為處理60分鐘韓語影片的字幕、英語翻譯和英語配音(若可用)的近似值。無TTS的平台(例:VEED.IO、Transkriptor)反映部分處理成本。
- 語言支援: 大多數平台支援韓語和英語。具體語言支援請在各網站確認。
- 使用場景:
- 媒體/娛樂: AppTek, Maestra
- 社交媒體: Kapwing, VEED.IO
- 播客/訪談: Sonix, Descript
- 在線學習/全球內容: Transkriptor, HappyScribe
- 價格更新: 因計劃變更或促銷,價格可能有所變動。請在官方網站查看最新信息。
- 如需貢獻或推薦特定使用場景,請在此倉庫中提交問題或拉取請求!
您好,我是Voice-Pro團隊的戴維。 我們的團隊致力於發掘業內頂尖的人工智慧技術,並提供給大家,讓大家都能輕鬆便捷地使用。 我們是一家剛成立一年的韓國小型創業公司。我們努力工作,旨在幫助您和其他創作者製作出色的內容。
您的⭐⭐⭐⭐⭐評價對我們的業務與您共同成長至關重要,我們對此深表感謝。請您支持我們這個小團隊。
謝謝, ABUS客戶服務
- 如果您想參與並幫助我們進行此專案,請隨時建立一個 Issues。
- 如果出現問題,請提交一個 Pull requests 以改進此專案。
- 歡迎任何類型的貢獻。
- 有關購買、商業夥伴關係、技術調整、投資和其他相關事宜的諮詢,請透過電子郵件 (abus.aikorea@gmail.com) 與我們聯繫。
- 如果您喜歡這個專案,請給這個儲存庫加星號。我們將非常感謝。 ⭐⭐⭐
- 您可以在這裡透過捐贈支持 Voice-Pro:
- Email: abus.aikorea@gmail.com
- Homepage (Korean): https://www.wctokyoseoul.com
- Demucs: https://github.com/facebookresearch/demucs
- yt-dlp: https://github.com/yt-dlp/yt-dlp
- gradio: https://github.com/gradio-app/gradio
- edge-TTS: https://github.com/rany2/edge-tts
- F5-TTS: https://github.com/SWivid/F5-TTS.git
- openai-whisper: https://github.com/openai/whisper
- faster-whisper: https://github.com/SYSTRAN/faster-whisper
- whisper-timestamped: https://github.com/linto-ai/whisper-timestamped
- whisperX: https://github.com/m-bain/whisperX
- CosyVoice: https://github.com/FunAudioLLM/CosyVoice
- kokoro: https://github.com/hexgrad/kokoro
- Deep-Translator: https://github.com/nidhaloff/deep-translator
- spaCy: https://github.com/explosion/spaCy
by ABUS

































































