Voice-Pro

최고의 AI 음성인식, 번역 및 다국어 더빙 솔루션 🚀

🎙️ 음성 인식, 번역 및 더빙을 위한 AI 기반 웹 애플리케이션

South Korea Flag 한국어 ∙ United Kingdom Flag English ∙ China Flag 中文简体 ∙ Taiwan Flag 中文繁體 ∙ Japan Flag 日本語 ∙ Germany Flag Deutsch ∙ Spain Flag Español ∙ Portugal Flag Português

Voice-Pro는 멀티미디어 콘텐츠 제작을 혁신하는 최첨단 웹 앱입니다. YouTube 비디오 다운로드, 음성 분리, 음성 인식, 번역, 텍스트-음성 변환(TTS)을 하나의 강력한 도구로 통합하여 창작자, 연구자, 다국어 전문가에게 이상적인 솔루션을 제공합니다.

🔊 최고 수준의 음성 인식: Whisper, Faster-Whisper, Whisper-Timestamped, WhisperX
🎤 제로샷 음성 복제: F5-TTS, E2-TTS, CosyVoice
📢 다국어 텍스트-음성 변환: Edge-TTS, kokoro
🎥 YouTube 처리 및 오디오 추출: yt-dlp
🌍 100개 이상의 언어에 대한 즉시 번역: Deep-Translator

ElevenLabs의 강력한 대안으로, Voice-Pro는 팟캐스터, 개발자, 창작자들에게 고급 음성 솔루션을 제공합니다.

⚠️ 주의 사항

WeConnect 개발 작업으로 인해 Voice-Pro의 개발 및 업데이트는 당분간 불가능합니다.
우리는 Voice-Pro의 모든 코드를 공개하였고 완전 무료로 변경하였습니다. Voice-Pro는 이제 누구나 자유롭게 배포 및 변형이 가능합니다.
NVIDIA GPU를 갖춘 Windows 환경에서 잘 작동합니다. Mac, Linux 에서의 동작은 확인하지 못했습니다.
요청사항은 혹은 페이지에 남겨주세요.
문제 해결: 대부분의 경우, installer_files 폴더를 삭제한 후 configure.bat를 실행하고 이어서 start.bat를 실행하면 문제가 해결됩니다.

📰 뉴스 및 히스토리

version 3.2

우리는 지난 몇달간 WeConnect 개발에 집중하느라 Voice-Pro를 전혀 관리하지 못했습니다.
앞으로도 이같은 상황이 당분간 계속될 것 같기 때문에, Voice-Pro의 모든 코드를 공개하기로 결정하였습니다.
WeConnect 는 글로벌 문화 교류를 위한 애플리케이션입니다.
전 세계 각지의 사람들과 연결하여 의미 있는 문화 교류, 언어 학습, 국제적 우정을 쌓을 수 있도록 합니다.

version 3.1

🪄 F5-TTS의 미세 조정 모델 지원
🌍 지원 언어 (한국어는 없음 ㅠㅠㅠ)
- English & Chinese: SWivid/F5-TTS_v1
- Finnish: AsmoKoskinen/F5-TTS_Finnish_Model
- French: RASPIAUDIO/F5-French-MixedSpeakers-reduced
- Hindi: SPRINGLab/F5-Hindi-24KHz
- Italian: alien79/F5-TTS-italian
- Japanese: Jmica/F5TTS/JA_21999120
- Russian: hotstone228/F5-TTS-Russian
- Spanish: jpgallegoar/F5-Spanish

버전 3.0

🔥 AI Cover 기능이 제거되었습니다.
🚀 m-bain/whisperX 지원이 추가되었습니다.

버전 2.0

🐍 Python 3.10.15, Torch 2.5.1+cu124, Gradio 5.14.0으로 제작되었습니다.
🆓 무료 체험은 최대 60초 길이의 미디어를 지원합니다.
🔥 AI Cover 기능이 추가되었습니다.
🎤 CosyVoice 및 kokoro 지원이 도입되었습니다.
⏳ 초기 실행 시 **CozyVoice2-0.5B (9GB)**를 다운로드하며, 네트워크 속도에 따라 1시간 이상 걸릴 수 있습니다.
🎧 음성 복제를 위한 음성 샘플은 지속적으로 업데이트됩니다.
📝 문장별 자연스러운 번역 및 TTS를 위해 spaCy가 추가되었습니다.
☁️ 구독 버전은 Microsoft Azure 번역기 및 TTS를 포함합니다.
🏪 구독 버전은 구독 기간 동안 무제한 사용 (60초 제한 없음)을 제공하며, 에서 구매할 수 있습니다.

🎥 YouTube Showcase

Demo for Voice-Pro (v2.0)	F5-TTS: Voice Cloning	Live Transcription & Translation	Multi-Lingual Voice Cloning: Korean - German
Multi-Lingual Voice Cloning: English - Korean	Multi-Lingual Voice Cloning: Korean - Japanese	NVIDIA RTX Video Super-Resolution	AI Karaoke
Multi-Lingual Voice Cloning: English - Korean

⭐ 주요 기능

1. 더빙 스튜디오

YouTube 비디오 다운로드 및 오디오 추출
Demucs를 사용한 음성 분리
음성 인식 및 번역을 위한 100개 이상의 언어 지원

2. 음성 기술

음성을 텍스트로: Whisper, Faster-Whisper, Whisper-Timestamped, WhisperX
텍스트를 음성으로:
- Edge-TTS: 100개 이상의 언어, 400개 이상의 음성
- E2-TTS, F5-TTS, CosyVoice: 제로샷 클로닝
- kokoro: HuggingFace TTS 아레나에서 2위

3. 실시간 번역

즉각적인 음성 인식
실시간 다국어 번역
사용자 정의 가능한 오디오 입력

🤖 웹UI

`더빙 스튜디오` 탭

통합 허브: YouTube 다운로드, 소음 제거, 자막, 번역, TTS
ffmpeg 호환 형식 모두 지원
출력 옵션: WAV, FLAC, MP3
100개 이상 언어에 대한 자막 및 인식
속도, 볼륨, 피치 조절 가능한 TTS

`Whisper 자막` 탭

자막 전용: 90개 이상 언어
비디오와 통합된 자막 표시
단어 단위 하이라이트 및 소음 제거 옵션

`번역` 탭

100개 이상 언어 번역
자막 파일 지원 (ASS, SSA, SRT 등)
실시간 음성 인식 및 번역

`음성 생성` 탭

옵션: Edge-TTS, F5-TTS, CosyVoice, kokoro
유명인 목소리로 팟캐스트 및 다국어 지원

🎤✨ 참조 음성

추가하고 싶은 음성은 Issues 페이지에서 요청해 주세요.

English

Andrew Bustamante	Andrew Huberman	Avi Loeb	Ben Shapiro	Brett Johnson	Brian Keating
Coffeezilla	Dan Carlin	David Buss	David Fravor	David Kipping	Dennis Whyte
Donald Hoffman	Donald Trump	Douglas Murray	Duncan Trussell	Elon Musk	Garry Nolan
Jack Barsky	James Sexton	Jeff Bezos	Joe Rogan	John Mearsheimer	Jordan Peterson
Kanye 'Ye' West	Mark Zuckerberg	Michael Levin	Michael Saylor	Michio Kaku	MrBeast
Nick Lane	Paul Rosolie	Ryan Graves	Sam Altman	Sam Harris	Stephen Wolfram
Tucker Carlson	Vitalik Buterin	Yuval Harari

Chinese

迪丽热巴 (Dílì Rèbā)

蔡依林 (Cài Yīlín)

吴亦凡 (Wú Yìfán)

李易峰 (Lǐ Yìfēng)

杨幂 (Yáng Mì)

赵丽颖 (Zhào Lìyǐng)

Korean

BTS 진 (Jin)

BTS RM

IU (아이유)

이병헌

이정재

유재석

Japanese

綾瀬はるか (Ayase Haruka)

💻 시스템 요구사항

OS: Windows 10/11 (64비트), Linux, Mac
GPU: CUDA 12.4 지원 NVIDIA (권장)
VRAM: 4GB 이상 (8GB 이상 권장)
RAM: 4GB 이상
저장소: 20GB 이상 여유 공간
인터넷: 필수

📀 설치

configure.bat 및 start.bat으로 Voice-Pro를 쉽게 설치하세요. (Mac/Linux 에서는 configure.sh 및 start.sh)

1. 패키지 준비

에서 최신 릴리스 다운로드 (Source code (zip))

git clone https://github.com/abus-aikorea/voice-pro.git

2. 설치 및 실행

🚀 configure.bat
- git, ffmpeg, CUDA 설치 (NVIDIA GPU 사용 시)
- 최초 1회 실행; 인터넷 필요, 1시간 이상 소요 가능
- 명령 창 닫지 않기
🚀 start.bat
- Voice-Pro 웹UI 실행
- 첫 실행 시 의존성 설치 (1시간 이상 소요 가능)
- 문제 발생 시 installer_files 삭제 후 재실행

3. 업데이트

🚀 update.bat: Python 환경 갱신 (재설치보다 빠름)

4. 제거

uninstall.bat 실행 또는 폴더 삭제 (휴대용 설치)

❓사용팁

Browser가 자동으로 실행되지 않는 경우

Windows-Commnad 창을 종료하고, start.bat 을 다시 실행하거나
Browser를 직접 실행하고, Windows-Command 창에 표시된 주소(예, http://127.0.0.1:7870 )를 주소창에 입력합니다.

CUDA Out-Of-Memory 오류가 발생하는 경우

윈도우 작업관리자 - 성능 탭에서 GPU 메모리 상태를 확인하세요.
Denoise 레벨을 0 또는 1 로 설정하세요. Denoise 레벨 2 는 8GB 이상의 GPU 메모리를 필요로 합니다.
Compute Type 을 int 타입으로 설정하세요. float 타입의 품질이 더 좋지만 더 많은 GPU 메모리를 요구합니다.

자막의 품질을 높이려면?

자막의 품질은 더 큰 Whisper 모델을 사용할 수록 좋아지는 경향은 있지만, 꼭 그런것은 아닙니다. large > medium > small > base > tiny
Compute Type 중에서는 float 타입의 성능이 좋습니다. int 타입은 모델 양자화를 통해 GPU사용량을 낮추고 속도를 높인 모델입니다. 반면, 성능은 떨어집니다.
Denoise 레벨을 높이면 배경음을 더 많이 제거하고, 남아있는 보이스만 음성인식에 사용하게 됩니다. 항상 좋은 결과를 보장하지는 않습니다.

🚨 공지

WeConnect 개발 작업으로 인해 당분간 Voice-Pro의 업데이트는 없습니다.
Voice-Pro의 모든 코드를 공개하였습니다. 완전 무료로 사용가능합니다.
WeConnect는 글로벌 문화 교류를 위한 커뮤니케이션 플랫폼입니다.

⏳ 자막 제작, 번역, TTS를 위한 SaaS 플랫폼

아래 표는 자막 제작, 번역, 텍스트-음성 변환(TTS/더빙) 기능을 지원하는 SaaS 플랫폼을 정리한 것입니다. 비용은 2025년 4월 15일 기준 최신 가격 데이터를 바탕으로, 60분 분량의 한국어 영상에 대해 자막 생성, 영어 번역, 영어 더빙 처리를 포함하여 계산되었습니다.

플랫폼	자막 제작	번역	TTS/더빙	60분 영상 처리 비용 (USD, 약)	주요 기능
Maestra	✅	✅	✅	$23.70	125+ 언어, 실시간 자막, SEO 키워드 추출, 15분 무료 체험.
Kapwing	✅	✅	✅	$30~$40 (Pro 플랜, 분당)	AI 자막, 100+ 언어 번역, 자동 립싱크 더빙, 무료 티어 제공.
VEED.IO	✅	✅	❌	$24~$36 (Pro 플랜, 부분 처리)	99.9% 정확도 자막, 인스타그램 최적화 자막, 직관적인 편집기.
HappyScribe	✅	✅	✅	$36~$48 (종량제)	120+ 언어, 전문 교정 옵션, 보안, 회의 전사.
Sonix	✅	✅	✅	$30~$40 (Standard 플랜)	54+ 언어, 30분 무료 전사, YouTube/Zoom 통합.
Descript	✅	✅	✅	$36~$48 (Creator 플랜)	텍스트 기반 편집, Overdub TTS, 필러 단어 제거, 1시간 무료 전사.
AppTek	✅	✅	✅	맞춤 가격 (문의)	미디어 특화, 맞춤 모델, 메타데이터 생성, 클라우드 기반 Workbench.
Transkriptor	✅	✅	❌	$12~$18 (종량제)	100+ 언어, YouTube 링크 전사, 99% 정확도, 간단한 편집기.

비용 계산 상세

Maestra: Premium 플랜 ($158/월, 1200 크레딧). 60분 영상: 자막 60 크레딧 + 번역 60 크레딧 + 더빙 60 크레딧 = 180 크레딧. 비용 = (180/1200) * $158 = $23.70.
Kapwing: Pro 플랜 (~$24/월, 제한된 분량). 자막+번역+더빙 분당 $0.50~$0.67 추정 (분당 가격 트렌드 기반). 60분 비용: $30~$40. 정확한 가격은 확인 필요.
VEED.IO: Pro 플랜 (~$24/월). 자막+번역 분당 $0.40~$0.60 추정. TTS 없음, 부분 처리. 60분 비용: $24~$36. veed.io에서 확인.
HappyScribe: 종량제 (전사 분당 ~$0.20, 번역 $0.20, 더빙 $0.20). 60분 비용: $36~$48 (결합 서비스 가정). happyscribe.com에서 확인.
Sonix: Standard 플랜 (전사 시간당 ~$10, 번역/더빙 추가). 총 분당 $0.50~$0.67 추정. 60분 비용: $30~$40. sonix.ai에서 확인.
Descript: Creator 플랜 (~$24/월, 제한된 시간). 자막+번역+더빙 분당 $0.60~$0.80 추정. 60분 비용: $36~$48. descript.com에서 확인.
AppTek: 기업용 맞춤 가격. 공개 분당 요금 없음. apptek.ai로 문의.
Transkriptor: 종량제 (전사 분당 $0.05~$0.10, 번역 유사). TTS 없음, 부분 처리. 60분 비용: $12~$18. transkriptor.com에서 확인.

참고

60분 영상 처리 비용: 비용은 60분 한국어 영상의 자막, 영어 번역, 영어 더빙(가능한 경우)을 처리하는 것을 가정하며, 근사치입니다. TTS 미지원 플랫폼(예: VEED.IO, Transkriptor)은 부분 처리 비용을 반영.
언어 지원: 대부분 플랫폼은 한국어와 영어를 지원. 특정 언어 지원 여부는 각 웹사이트에서 확인.
사용 사례:
- 미디어/엔터테인먼트: AppTek, Maestra
- 소셜 미디어: Kapwing, VEED.IO
- 팟캐스트/인터뷰: Sonix, Descript
- E-러닝/글로벌 콘텐츠: Transkriptor, HappyScribe
가격 업데이트: 플랜 변경이나 프로모션으로 가격이 변동될 수 있음. 최신 정보는 공식 웹사이트에서 확인.
기여나 특정 사용 사례 추천을 위해 이 저장소에서 이슈를 열거나 풀 리퀘스트를 제출하세요!

☕ 기여

안녕하세요, 저는 Voice-Pro 팀의 David입니다. 저희 팀은 업계 최고의 AI 기술을 발굴하여 누구나 쉽고 편리하게 사용할 수 있도록 제공하고 있습니다. 저희는 설립된 지 1년밖에 되지 않은 한국의 작은 스타트업입니다. 여러분과 다른 창작자들이 훌륭한 콘텐츠를 제작할 수 있도록 열심히 노력하고 있습니다. 여러분의 ⭐⭐⭐⭐⭐ 리뷰는 저희 비즈니스가 여러분과 함께 성장하는 데 큰 도움이 됩니다. 저희 작은 팀을 지원해 주시면 감사하겠습니다.

감사합니다, ABUS 고객 서비스

이 프로젝트에 참여하고 저희를 돕고 싶으시다면, 언제든지 Issues를 생성해주세요.
문제가 발생하면, 이 프로젝트를 개선하기 위해 Pull requests를 제출해주세요.
모든 유형의 기여를 환영합니다.
구매, 비즈니스 파트너십, 기술 튜닝, 투자 및 기타 관련 문의는 이메일(abus.aikorea@gmail.com)로 문의해주세요.
이 프로젝트가 마음에 드시면, 이 저장소에 별표를 눌러주세요. 저희에게 매우 큰 도움이 될 것입니다. ⭐⭐⭐
기부를 통해 Voice-Pro를 후원할 수 있습니다.

📬 연락처

Email: abus.aikorea@gmail.com
Homepage (Korean): https://www.wctokyoseoul.com

🙏 Credits

Demucs: https://github.com/facebookresearch/demucs
yt-dlp: https://github.com/yt-dlp/yt-dlp
gradio: https://github.com/gradio-app/gradio
edge-TTS: https://github.com/rany2/edge-tts
F5-TTS: https://github.com/SWivid/F5-TTS.git
openai-whisper: https://github.com/openai/whisper
faster-whisper: https://github.com/SYSTRAN/faster-whisper
whisper-timestamped: https://github.com/linto-ai/whisper-timestamped
whisperX: https://github.com/m-bain/whisperX
CosyVoice: https://github.com/FunAudioLLM/CosyVoice
kokoro: https://github.com/hexgrad/kokoro
Deep-Translator: https://github.com/nidhaloff/deep-translator
spaCy: https://github.com/explosion/spaCy

©️ 저작권 정보

by ABUS

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Voice-Pro

🎙️ 음성 인식, 번역 및 더빙을 위한 AI 기반 웹 애플리케이션

⚠️ 주의 사항

📰 뉴스 및 히스토리

🎥 YouTube Showcase