Skip to content

Latest commit

 

History

History
556 lines (456 loc) · 29.2 KB

File metadata and controls

556 lines (456 loc) · 29.2 KB

Voice-Pro

最佳AI語音識別、翻譯和多語言配音解決方案 🚀

Dubbing Studio


🎙️ 為語音識別、翻譯和配音設計的AI驅動網絡應用程序

South Korea Flag 한국어 United Kingdom Flag English China Flag 中文简体 Taiwan Flag 中文繁體 Japan Flag 日本語 Germany Flag Deutsch Spain Flag Español Portugal Flag Português

Voice-Pro是一款革新多媒體內容製作的先進網頁應用程式。它將YouTube影片下載、音訊分離、語音辨識、翻譯和文字轉語音(TTS)整合到一個強大的工具中,為創作者、研究人員和多語言專家提供理想的解決方案。

  • 🔊 頂級語音識別: Whisper, Faster-Whisper, Whisper-Timestamped, WhisperX
  • 🎤 零樣本語音複製: F5-TTS, E2-TTS, CosyVoice
  • 📢 多語言文本轉語音: Edge-TTS, kokoro (付費版包括 Azure TTS)
  • 🎥 YouTube處理與音頻提取: yt-dlp
  • 🌍 超過100種語言的即時翻譯: Deep-Translator (付費版包括 Azure Translator)

作為ElevenLabs的強大替代方案,Voice-Pro為播客主持人、開發者和創作者提供進階語音解決方案。

⚠️ 請注意

  • 由於WeConnect開發工作,Voice-Pro的開發和更新暫時無法進行。
  • 我們已經公開了所有Voice-Pro代碼並完全免費。Voice-Pro現在可以自由分發和修改。
  • 在配備NVIDIA GPU的Windows環境下運行良好。Mac和Linux上的運行尚未驗證。
  • 請將您的請求留在 GitHub IssuesGitHub Discussions 頁面。
  • 故障排除: 在大多數情況下,刪除installer_files文件夾,然後依次運行configure.batstart.bat即可解決問題。

📰 新聞與歷史

version 3.2
  • 我們過去幾個月一直專注於WeConnect開發,完全無法管理Voice-Pro。
  • 我們決定開源所有Voice-Pro代碼。
  • Voice-Pro完全免費,支援Windows、Mac、Linux。
  • WeConnect是一個用於全球文化交流的應用程式。
  • 與世界各地的 人們 連接,進行有意義的文化交流、語言學習和國際友誼。

ScreenShot 0 ScreenShot 1 ScreenShot 2 ScreenShot 3 ScreenShot 4

version 3.1
版本 3.0
  • 🔥 AI Cover功能已移除。
  • 🚀 添加了對m-bain/whisperX的支持。
版本 2.0
  • 🐍 使用Python 3.10.15、Torch 2.5.1+cu124和Gradio 5.14.0構建。
  • 🆓 免費試用支持最長60秒的媒體。
  • 🔥 添加了AI Cover功能。
  • 🎤 引入了對CosyVoicekokoro的支持。
  • ⏳ 首次運行時下載CozyVoice2-0.5B (9GB),根據網絡速度可能需要超過1小時。
  • 🎧 用於語音克隆的語音樣本將持續更新。
  • 📝 添加了spaCy以實現自然逐句翻譯和TTS。
  • ☁️ 訂閱版本包括Microsoft Azure的翻譯和TTS。
  • 🏪 訂閱版本在訂閱期間提供無限制使用(無60秒限制),可通過Shopify購買。

🎥 YouTube Showcase

Demo Video 1
Demo for Voice-Pro (v2.0)
Demo Video 2
F5-TTS: Voice Cloning
Demo Video 3
Live Transcription & Translation
Demo Video 4
Multi-Lingual Voice Cloning: Korean - German
Demo Video 5
Multi-Lingual Voice Cloning: English - Korean
Demo Video 6
Multi-Lingual Voice Cloning: Korean - Japanese
Demo Video 7
NVIDIA RTX Video Super-Resolution
Demo Video 8
AI Karaoke
Demo Video 5
Multi-Lingual Voice Cloning: English - Korean

⭐ 主要功能

1. 配音工作室

  • YouTube視頻下載與音頻提取
  • 使用Demucs進行聲音分離
  • 支持100多種語言的語音識別與翻譯

2. 語音技術

  • 語音轉文本: Whisper, Faster-Whisper, Whisper-Timestamped, WhisperX
  • 文本轉語音:
    • Edge-TTS: 100多種語言,400多種聲音
    • E2-TTS, F5-TTS, CosyVoice: 零樣本克隆
    • kokoro: 在HuggingFace TTS競技場中排名第2

3. 實時翻譯

  • 即時語音識別
  • 實時多語言翻譯
  • 可自定義的音頻輸入

🤖 網頁介面

配音工作室標籤頁

  • 整合中心:YouTube下載、降噪、字幕、翻譯、TTS
  • 支援所有ffmpeg相容格式
  • 輸出選項:WAV、FLAC、MP3
  • 支援100多種語言的字幕和辨識
  • 可調節TTS的速度、音量、音調

多語言語音轉換和字幕生成網頁介面

Whisper字幕標籤頁

  • 專用字幕:90多種語言
  • 影片整合字幕顯示
  • 單字級醒目提示和降噪選項

翻譯標籤頁

  • 100多種語言翻譯
  • 支援字幕檔案(ASS、SSA、SRT等)
  • 即時語音辨識和翻譯

即時語音辨識和翻譯網頁介面

語音生成標籤頁

  • 選項:Edge-TTSF5-TTSCosyVoicekokoro
  • 使用名人聲音製作播客和多語言支援

使用語音克隆技術製作播客的網頁介面

🎤✨ 參考聲音

  • 請在Issues頁面上請求想添加的聲音。Issues
English

Andrew Bustamante

Andrew Huberman

Avi Loeb

Ben Shapiro

Brett Johnson

Brian Keating

Coffeezilla

Dan Carlin

David Buss

David Fravor

David Kipping

Dennis Whyte

Donald Hoffman

Donald Trump

Douglas Murray

Duncan Trussell

Elon Musk

Garry Nolan

Jack Barsky

James Sexton

Jeff Bezos

Joe Rogan

John Mearsheimer

Jordan Peterson

Kanye 'Ye' West

Mark Zuckerberg

Michael Levin

Michael Saylor

Michio Kaku

MrBeast

Nick Lane

Paul Rosolie

Ryan Graves

Sam Altman

Sam Harris

Stephen Wolfram

Tucker Carlson

Vitalik Buterin

Yuval Harari
Chinese

迪丽热巴 (Dílì Rèbā)

蔡依林 (Cài Yīlín)

吴亦凡 (Wú Yìfán)

李易峰 (Lǐ Yìfēng)

杨幂 (Yáng Mì)

赵丽颖 (Zhào Lìyǐng)
Korean

BTS 진 (Jin)

BTS RM

IU (아이유)

이병헌

이정재

유재석
Japanese

綾瀬はるか (Ayase Haruka)

💻 系統需求

  • 作業系統: Windows 10/11(64位元)、Linux、Mac
  • 顯示卡: 支援CUDA 12.4的NVIDIA顯示卡(建議)
  • 顯示記憶體: 4GB以上(建議8GB以上)
  • 記憶體: 4GB以上
  • 儲存空間: 20GB以上可用空間
  • 網路: 必需

📀 安裝

使用configure.batstart.bat輕鬆安裝Voice-Pro(Mac/Linux上使用configure.sh和start.sh)。

1. 準備套件

  • GitHub Release下載最新發布版本(Source code (zip)
git clone https://github.com/abus-aikorea/voice-pro.git

2. 安裝和執行

  1. 🚀 configure.bat
    • 安裝git、ffmpeg、CUDA(使用NVIDIA GPU時)
    • 首次執行一次;需要網路,可能需要1小時以上
    • 不要關閉命令視窗
  2. 🚀 start.bat
    • 執行Voice-Pro網頁介面
    • 首次執行時安裝相依性(可能需要1小時以上)
    • 如果出現問題,刪除installer_files後重新執行

3. 更新

  • 🚀 update.bat:更新Python環境(比重新安裝更快)

4. 解除安裝

  • 執行uninstall.bat或刪除資料夾(可攜式安裝)

❓使用技巧

瀏覽器沒有自動啟動時

  • 關閉Windows命令視窗,重新執行start.bat,或
  • 直接啟動瀏覽器,在網址列輸入Windows命令視窗顯示的網址(例如**http://127.0.0.1:7870**)

出現CUDA記憶體不足錯誤時

  • 在Windows工作管理員-效能標籤中檢查GPU記憶體狀態
  • 將降噪等級設定為0或1。降噪等級2需要8GB以上的GPU記憶體
  • 將計算類型設定為int類型。float類型品質更好但需要更多GPU記憶體

如何提高字幕品質?

  • 字幕品質通常隨著使用更大的Whisper模型而提高,但並不總是如此。large > medium > small > base > tiny
  • 在計算類型中,float類型效能更好。int類型透過模型量化降低GPU使用量並提高速度,但效能較差
  • 提高降噪等級可以更多地去除背景音,只將剩餘的語音用於語音辨識。但不總是能保證更好的結果

🚨 通知

  • 由於WeConnect開發工作,暫時不會有Voice-Pro更新。
  • 所有Voice-Pro代碼已公開。現在完全免費使用。
  • WeConnect是一個面向全球文化交流的通信平台。

⏳ 用於字幕製作、翻譯和TTS的SaaS平台

下表列出了支援字幕製作、翻譯和文字轉語音(TTS/配音)功能的SaaS平台。成本基於2025年4月15日的最新定價數據,計算包括處理60分鐘韓語影片的字幕生成、英語翻譯和英語配音。

平台 字幕製作 翻譯 TTS/配音 60分鐘影片處理成本 (美元, 約) 主要功能
Maestra $23.70 支援125+語言,實時字幕,SEO關鍵詞提取,15分鐘免費試用。
Kapwing $30~$40 (Pro計劃,按分鐘) AI字幕,100+語言翻譯,自動唇部同步配音,提供免費層。
VEED.IO $24~$36 (Pro計劃,部分處理) 99.9%精準字幕,Instagram優化字幕,直觀編輯器。
HappyScribe $36~$48 (按需付費) 120+語言,專業校對選項,安全,會議轉錄。
Sonix $30~$40 (Standard計劃) 54+語言,30分鐘免費轉錄,YouTube/Zoom整合。
Descript $36~$48 (Creator計劃) 文字編輯,Overdub TTS,填充詞移除,1小時免費轉錄。
AppTek 客製化定價 (聯繫) 媒體專用,客製化模型,元數據生成,基於雲的Workbench。
Transkriptor $12~$18 (按需付費) 100+語言,YouTube連結轉錄,99%精準度,簡單編輯器。

成本計算詳情

  • Maestra: Premium計劃 ($158/月,1200積分)。60分鐘影片:字幕60積分 + 翻譯60積分 + 配音60積分 = 180積分。成本 = (180/1200) * $158 = $23.70。
  • Kapwing: Pro計劃 (~$24/月,分鐘限制)。字幕+翻譯+配音每分鐘$0.50~$0.67估算(基於分鐘定價趨勢)。60分鐘成本:$30~$40。需確認準確價格。
  • VEED.IO: Pro計劃 (~$24/月)。字幕+翻譯每分鐘$0.40~$0.60估算。無TTS,部分處理。60分鐘成本:$24~$36。請在veed.io確認。
  • HappyScribe: 按需付費 (轉錄每分鐘~$0.20,翻譯$0.20,配音$0.20)。60分鐘成本:$36~$48(假設組合服務)。請在happyscribe.com確認。
  • Sonix: Standard計劃 (轉錄每小時~$10,翻譯/配音額外)。總計每分鐘$0.50~$0.67估算。60分鐘成本:$30~$40。請在sonix.ai確認。
  • Descript: Creator計劃 (~$24/月,時間限制)。字幕+翻譯+配音每分鐘$0.60~$0.80估算。60分鐘成本:$36~$48。請在descript.com確認。
  • AppTek: 企業客製化定價。無公開分鐘費率。請聯繫apptek.ai獲取報價。
  • Transkriptor: 按需付費 (轉錄每分鐘$0.05~$0.10,翻譯類似)。無TTS,部分處理。60分鐘成本:$12~$18。請在transkriptor.com確認。

備註

  • 60分鐘影片處理成本: 成本為處理60分鐘韓語影片的字幕、英語翻譯和英語配音(若可用)的近似值。無TTS的平台(例:VEED.IO、Transkriptor)反映部分處理成本。
  • 語言支援: 大多數平台支援韓語和英語。具體語言支援請在各網站確認。
  • 使用場景:
    • 媒體/娛樂: AppTek, Maestra
    • 社交媒體: Kapwing, VEED.IO
    • 播客/訪談: Sonix, Descript
    • 在線學習/全球內容: Transkriptor, HappyScribe
  • 價格更新: 因計劃變更或促銷,價格可能有所變動。請在官方網站查看最新信息。
  • 如需貢獻或推薦特定使用場景,請在此倉庫中提交問題或拉取請求!

☕ 貢獻

您好,我是Voice-Pro團隊的戴維。 我們的團隊致力於發掘業內頂尖的人工智慧技術,並提供給大家,讓大家都能輕鬆便捷地使用。 我們是一家剛成立一年的韓國小型創業公司。我們努力工作,旨在幫助您和其他創作者製作出色的內容。

您的⭐⭐⭐⭐⭐評價對我們的業務與您共同成長至關重要,我們對此深表感謝。請您支持我們這個小團隊。

謝謝, ABUS客戶服務

  • 如果您想參與並幫助我們進行此專案,請隨時建立一個 Issues
  • 如果出現問題,請提交一個 Pull requests 以改進此專案。
  • 歡迎任何類型的貢獻。
  • 有關購買、商業夥伴關係、技術調整、投資和其他相關事宜的諮詢,請透過電子郵件 (abus.aikorea@gmail.com) 與我們聯繫。
  • 如果您喜歡這個專案,請給這個儲存庫加星號。我們將非常感謝。 ⭐⭐⭐
  • 您可以在這裡透過捐贈支持 Voice-Pro:
Buy Me a Coffee

📬 聯絡方式

🙏 鳴謝

©️ 版權資訊

by ABUS