Skip to content

Latest commit

 

History

History
560 lines (454 loc) · 31.1 KB

File metadata and controls

560 lines (454 loc) · 31.1 KB

Voice-Pro

최고의 AI 음성인식, 번역 및 다국어 더빙 솔루션 🚀

Dubbing Studio


🎙️ 음성 인식, 번역 및 더빙을 위한 AI 기반 웹 애플리케이션

South Korea Flag 한국어 United Kingdom Flag English China Flag 中文简体 Taiwan Flag 中文繁體 Japan Flag 日本語 Germany Flag Deutsch Spain Flag Español Portugal Flag Português

Voice-Pro는 멀티미디어 콘텐츠 제작을 혁신하는 최첨단 웹 앱입니다. YouTube 비디오 다운로드, 음성 분리, 음성 인식, 번역, 텍스트-음성 변환(TTS)을 하나의 강력한 도구로 통합하여 창작자, 연구자, 다국어 전문가에게 이상적인 솔루션을 제공합니다.

  • 🔊 최고 수준의 음성 인식: Whisper, Faster-Whisper, Whisper-Timestamped, WhisperX
  • 🎤 제로샷 음성 복제: F5-TTS, E2-TTS, CosyVoice
  • 📢 다국어 텍스트-음성 변환: Edge-TTS, kokoro
  • 🎥 YouTube 처리 및 오디오 추출: yt-dlp
  • 🌍 100개 이상의 언어에 대한 즉시 번역: Deep-Translator

ElevenLabs의 강력한 대안으로, Voice-Pro는 팟캐스터, 개발자, 창작자들에게 고급 음성 솔루션을 제공합니다.

⚠️ 주의 사항

  • WeConnect 개발 작업으로 인해 Voice-Pro의 개발 및 업데이트는 당분간 불가능합니다.
  • 우리는 Voice-Pro의 모든 코드를 공개하였고 완전 무료로 변경하였습니다. Voice-Pro는 이제 누구나 자유롭게 배포 및 변형이 가능합니다.
  • NVIDIA GPU를 갖춘 Windows 환경에서 잘 작동합니다. Mac, Linux 에서의 동작은 확인하지 못했습니다.
  • 요청사항은 GitHub Issues 혹은 GitHub Discussions 페이지에 남겨주세요.
  • 문제 해결: 대부분의 경우, installer_files 폴더를 삭제한 후 configure.bat를 실행하고 이어서 start.bat를 실행하면 문제가 해결됩니다.

📰 뉴스 및 히스토리

version 3.2
  • 우리는 지난 몇달간 WeConnect 개발에 집중하느라 Voice-Pro를 전혀 관리하지 못했습니다.
  • 앞으로도 이같은 상황이 당분간 계속될 것 같기 때문에, Voice-Pro의 모든 코드를 공개하기로 결정하였습니다.
  • WeConnect 는 글로벌 문화 교류를 위한 애플리케이션입니다.
  • 전 세계 각지의 사람들과 연결하여 의미 있는 문화 교류, 언어 학습, 국제적 우정을 쌓을 수 있도록 합니다.

ScreenShot 0 ScreenShot 1 ScreenShot 2 ScreenShot 3 ScreenShot 4

version 3.1
버전 3.0
  • 🔥 AI Cover 기능이 제거되었습니다.
  • 🚀 m-bain/whisperX 지원이 추가되었습니다.
버전 2.0
  • 🐍 Python 3.10.15, Torch 2.5.1+cu124, Gradio 5.14.0으로 제작되었습니다.
  • 🆓 무료 체험은 최대 60초 길이의 미디어를 지원합니다.
  • 🔥 AI Cover 기능이 추가되었습니다.
  • 🎤 CosyVoicekokoro 지원이 도입되었습니다.
  • ⏳ 초기 실행 시 **CozyVoice2-0.5B (9GB)**를 다운로드하며, 네트워크 속도에 따라 1시간 이상 걸릴 수 있습니다.
  • 🎧 음성 복제를 위한 음성 샘플은 지속적으로 업데이트됩니다.
  • 📝 문장별 자연스러운 번역 및 TTS를 위해 spaCy가 추가되었습니다.
  • ☁️ 구독 버전은 Microsoft Azure 번역기 및 TTS를 포함합니다.
  • 🏪 구독 버전은 구독 기간 동안 무제한 사용 (60초 제한 없음)을 제공하며, Shopify에서 구매할 수 있습니다.

🎥 YouTube Showcase

Demo Video 1
Demo for Voice-Pro (v2.0)
Demo Video 2
F5-TTS: Voice Cloning
Demo Video 3
Live Transcription & Translation
Demo Video 4
Multi-Lingual Voice Cloning: Korean - German
Demo Video 5
Multi-Lingual Voice Cloning: English - Korean
Demo Video 6
Multi-Lingual Voice Cloning: Korean - Japanese
Demo Video 7
NVIDIA RTX Video Super-Resolution
Demo Video 8
AI Karaoke
Demo Video 5
Multi-Lingual Voice Cloning: English - Korean

⭐ 주요 기능

1. 더빙 스튜디오

  • YouTube 비디오 다운로드 및 오디오 추출
  • Demucs를 사용한 음성 분리
  • 음성 인식 및 번역을 위한 100개 이상의 언어 지원

2. 음성 기술

  • 음성을 텍스트로: Whisper, Faster-Whisper, Whisper-Timestamped, WhisperX
  • 텍스트를 음성으로:
    • Edge-TTS: 100개 이상의 언어, 400개 이상의 음성
    • E2-TTS, F5-TTS, CosyVoice: 제로샷 클로닝
    • kokoro: HuggingFace TTS 아레나에서 2위

3. 실시간 번역

  • 즉각적인 음성 인식
  • 실시간 다국어 번역
  • 사용자 정의 가능한 오디오 입력

🤖 웹UI

더빙 스튜디오

  • 통합 허브: YouTube 다운로드, 소음 제거, 자막, 번역, TTS
  • ffmpeg 호환 형식 모두 지원
  • 출력 옵션: WAV, FLAC, MP3
  • 100개 이상 언어에 대한 자막 및 인식
  • 속도, 볼륨, 피치 조절 가능한 TTS

다국어 음성 변환 및 자막 생성 웹UI 인터페이스

Whisper 자막

  • 자막 전용: 90개 이상 언어
  • 비디오와 통합된 자막 표시
  • 단어 단위 하이라이트 및 소음 제거 옵션

번역

  • 100개 이상 언어 번역
  • 자막 파일 지원 (ASS, SSA, SRT 등)
  • 실시간 음성 인식 및 번역

실시간 음성 인식 및 번역 웹UI

음성 생성

  • 옵션: Edge-TTS, F5-TTS, CosyVoice, kokoro
  • 유명인 목소리로 팟캐스트 및 다국어 지원

음성 복제 기술을 활용한 팟캐스트 제작 웹UI

🎤✨ 참조 음성

  • 추가하고 싶은 음성은 Issues 페이지에서 요청해 주세요.
English

Andrew Bustamante

Andrew Huberman

Avi Loeb

Ben Shapiro

Brett Johnson

Brian Keating

Coffeezilla

Dan Carlin

David Buss

David Fravor

David Kipping

Dennis Whyte

Donald Hoffman

Donald Trump

Douglas Murray

Duncan Trussell

Elon Musk

Garry Nolan

Jack Barsky

James Sexton

Jeff Bezos

Joe Rogan

John Mearsheimer

Jordan Peterson

Kanye 'Ye' West

Mark Zuckerberg

Michael Levin

Michael Saylor

Michio Kaku

MrBeast

Nick Lane

Paul Rosolie

Ryan Graves

Sam Altman

Sam Harris

Stephen Wolfram

Tucker Carlson

Vitalik Buterin

Yuval Harari
Chinese

迪丽热巴 (Dílì Rèbā)

蔡依林 (Cài Yīlín)

吴亦凡 (Wú Yìfán)

李易峰 (Lǐ Yìfēng)

杨幂 (Yáng Mì)

赵丽颖 (Zhào Lìyǐng)
Korean

BTS 진 (Jin)

BTS RM

IU (아이유)

이병헌

이정재

유재석
Japanese

綾瀬はるか (Ayase Haruka)

💻 시스템 요구사항

  • OS: Windows 10/11 (64비트), Linux, Mac
  • GPU: CUDA 12.4 지원 NVIDIA (권장)
  • VRAM: 4GB 이상 (8GB 이상 권장)
  • RAM: 4GB 이상
  • 저장소: 20GB 이상 여유 공간
  • 인터넷: 필수

📀 설치

configure.batstart.bat으로 Voice-Pro를 쉽게 설치하세요. (Mac/Linux 에서는 configure.sh 및 start.sh)

1. 패키지 준비

  • GitHub Release에서 최신 릴리스 다운로드 (Source code (zip))
git clone https://github.com/abus-aikorea/voice-pro.git

2. 설치 및 실행

  1. 🚀 configure.bat
    • git, ffmpeg, CUDA 설치 (NVIDIA GPU 사용 시)
    • 최초 1회 실행; 인터넷 필요, 1시간 이상 소요 가능
    • 명령 창 닫지 않기
  2. 🚀 start.bat
    • Voice-Pro 웹UI 실행
    • 첫 실행 시 의존성 설치 (1시간 이상 소요 가능)
    • 문제 발생 시 installer_files 삭제 후 재실행

3. 업데이트

  • 🚀 update.bat: Python 환경 갱신 (재설치보다 빠름)

4. 제거

  • uninstall.bat 실행 또는 폴더 삭제 (휴대용 설치)

❓사용팁

Browser가 자동으로 실행되지 않는 경우

  • Windows-Commnad 창을 종료하고, start.bat 을 다시 실행하거나
  • Browser를 직접 실행하고, Windows-Command 창에 표시된 주소(예, http://127.0.0.1:7870 )를 주소창에 입력합니다.

CUDA Out-Of-Memory 오류가 발생하는 경우

  • 윈도우 작업관리자 - 성능 탭에서 GPU 메모리 상태를 확인하세요.
  • Denoise 레벨을 0 또는 1 로 설정하세요. Denoise 레벨 2 는 8GB 이상의 GPU 메모리를 필요로 합니다.
  • Compute Type 을 int 타입으로 설정하세요. float 타입의 품질이 더 좋지만 더 많은 GPU 메모리를 요구합니다.

자막의 품질을 높이려면?

  • 자막의 품질은 더 큰 Whisper 모델을 사용할 수록 좋아지는 경향은 있지만, 꼭 그런것은 아닙니다. large > medium > small > base > tiny
  • Compute Type 중에서는 float 타입의 성능이 좋습니다. int 타입은 모델 양자화를 통해 GPU사용량을 낮추고 속도를 높인 모델입니다. 반면, 성능은 떨어집니다.
  • Denoise 레벨을 높이면 배경음을 더 많이 제거하고, 남아있는 보이스만 음성인식에 사용하게 됩니다. 항상 좋은 결과를 보장하지는 않습니다.

🚨 공지

  • WeConnect 개발 작업으로 인해 당분간 Voice-Pro의 업데이트는 없습니다.
  • Voice-Pro의 모든 코드를 공개하였습니다. 완전 무료로 사용가능합니다.
  • WeConnect는 글로벌 문화 교류를 위한 커뮤니케이션 플랫폼입니다.

⏳ 자막 제작, 번역, TTS를 위한 SaaS 플랫폼

아래 표는 자막 제작, 번역, 텍스트-음성 변환(TTS/더빙) 기능을 지원하는 SaaS 플랫폼을 정리한 것입니다. 비용은 2025년 4월 15일 기준 최신 가격 데이터를 바탕으로, 60분 분량의 한국어 영상에 대해 자막 생성, 영어 번역, 영어 더빙 처리를 포함하여 계산되었습니다.

플랫폼 자막 제작 번역 TTS/더빙 60분 영상 처리 비용 (USD, 약) 주요 기능
Maestra $23.70 125+ 언어, 실시간 자막, SEO 키워드 추출, 15분 무료 체험.
Kapwing $30~$40 (Pro 플랜, 분당) AI 자막, 100+ 언어 번역, 자동 립싱크 더빙, 무료 티어 제공.
VEED.IO $24~$36 (Pro 플랜, 부분 처리) 99.9% 정확도 자막, 인스타그램 최적화 자막, 직관적인 편집기.
HappyScribe $36~$48 (종량제) 120+ 언어, 전문 교정 옵션, 보안, 회의 전사.
Sonix $30~$40 (Standard 플랜) 54+ 언어, 30분 무료 전사, YouTube/Zoom 통합.
Descript $36~$48 (Creator 플랜) 텍스트 기반 편집, Overdub TTS, 필러 단어 제거, 1시간 무료 전사.
AppTek 맞춤 가격 (문의) 미디어 특화, 맞춤 모델, 메타데이터 생성, 클라우드 기반 Workbench.
Transkriptor $12~$18 (종량제) 100+ 언어, YouTube 링크 전사, 99% 정확도, 간단한 편집기.

비용 계산 상세

  • Maestra: Premium 플랜 ($158/월, 1200 크레딧). 60분 영상: 자막 60 크레딧 + 번역 60 크레딧 + 더빙 60 크레딧 = 180 크레딧. 비용 = (180/1200) * $158 = $23.70.
  • Kapwing: Pro 플랜 (~$24/월, 제한된 분량). 자막+번역+더빙 분당 $0.50~$0.67 추정 (분당 가격 트렌드 기반). 60분 비용: $30~$40. 정확한 가격은 확인 필요.
  • VEED.IO: Pro 플랜 (~$24/월). 자막+번역 분당 $0.40~$0.60 추정. TTS 없음, 부분 처리. 60분 비용: $24~$36. veed.io에서 확인.
  • HappyScribe: 종량제 (전사 분당 ~$0.20, 번역 $0.20, 더빙 $0.20). 60분 비용: $36~$48 (결합 서비스 가정). happyscribe.com에서 확인.
  • Sonix: Standard 플랜 (전사 시간당 ~$10, 번역/더빙 추가). 총 분당 $0.50~$0.67 추정. 60분 비용: $30~$40. sonix.ai에서 확인.
  • Descript: Creator 플랜 (~$24/월, 제한된 시간). 자막+번역+더빙 분당 $0.60~$0.80 추정. 60분 비용: $36~$48. descript.com에서 확인.
  • AppTek: 기업용 맞춤 가격. 공개 분당 요금 없음. apptek.ai로 문의.
  • Transkriptor: 종량제 (전사 분당 $0.05~$0.10, 번역 유사). TTS 없음, 부분 처리. 60분 비용: $12~$18. transkriptor.com에서 확인.

참고

  • 60분 영상 처리 비용: 비용은 60분 한국어 영상의 자막, 영어 번역, 영어 더빙(가능한 경우)을 처리하는 것을 가정하며, 근사치입니다. TTS 미지원 플랫폼(예: VEED.IO, Transkriptor)은 부분 처리 비용을 반영.
  • 언어 지원: 대부분 플랫폼은 한국어와 영어를 지원. 특정 언어 지원 여부는 각 웹사이트에서 확인.
  • 사용 사례:
    • 미디어/엔터테인먼트: AppTek, Maestra
    • 소셜 미디어: Kapwing, VEED.IO
    • 팟캐스트/인터뷰: Sonix, Descript
    • E-러닝/글로벌 콘텐츠: Transkriptor, HappyScribe
  • 가격 업데이트: 플랜 변경이나 프로모션으로 가격이 변동될 수 있음. 최신 정보는 공식 웹사이트에서 확인.
  • 기여나 특정 사용 사례 추천을 위해 이 저장소에서 이슈를 열거나 풀 리퀘스트를 제출하세요!

☕ 기여

안녕하세요, 저는 Voice-Pro 팀의 David입니다. 저희 팀은 업계 최고의 AI 기술을 발굴하여 누구나 쉽고 편리하게 사용할 수 있도록 제공하고 있습니다. 저희는 설립된 지 1년밖에 되지 않은 한국의 작은 스타트업입니다. 여러분과 다른 창작자들이 훌륭한 콘텐츠를 제작할 수 있도록 열심히 노력하고 있습니다. 여러분의 ⭐⭐⭐⭐⭐ 리뷰는 저희 비즈니스가 여러분과 함께 성장하는 데 큰 도움이 됩니다. 저희 작은 팀을 지원해 주시면 감사하겠습니다.

감사합니다, ABUS 고객 서비스

  • 이 프로젝트에 참여하고 저희를 돕고 싶으시다면, 언제든지 Issues를 생성해주세요.
  • 문제가 발생하면, 이 프로젝트를 개선하기 위해 Pull requests를 제출해주세요.
  • 모든 유형의 기여를 환영합니다.
  • 구매, 비즈니스 파트너십, 기술 튜닝, 투자 및 기타 관련 문의는 이메일(abus.aikorea@gmail.com)로 문의해주세요.
  • 이 프로젝트가 마음에 드시면, 이 저장소에 별표를 눌러주세요. 저희에게 매우 큰 도움이 될 것입니다. ⭐⭐⭐
  • 기부를 통해 Voice-Pro를 후원할 수 있습니다.
Buy Me a Coffee

📬 연락처

🙏 Credits

©️ 저작권 정보

by ABUS