Voice-Pro

A melhor solução de reconhecimento de voz, tradução e dublagem multilíngue com IA 🚀

🎙️ Um aplicativo web baseado em IA para reconhecimento de voz, tradução e dublagem

South Korea Flag 한국어 ∙ United Kingdom Flag English ∙ China Flag 中文简体 ∙ Taiwan Flag 中文繁體 ∙ Japan Flag 日本語 ∙ Germany Flag Deutsch ∙ Spain Flag Español ∙ Portugal Flag Português

Voice-Pro é um aplicativo web de ponta que transforma a criação de conteúdo multimídia. Ele integra download de vídeos do YouTube, separação de voz, reconhecimento de fala, tradução e conversão de texto em fala (TTS) em uma única ferramenta poderosa, oferecendo uma solução ideal para criadores, pesquisadores e profissionais multilíngues.

🔊 Reconhecimento de fala de alto nível: Whisper, Faster-Whisper, Whisper-Timestamped, WhisperX
🎤 Clonagem de voz sem treinamento: F5-TTS, E2-TTS, CosyVoice
📢 Texto para fala multilíngue: Edge-TTS, kokoro (A versão paga inclui Azure TTS)
🎥 Processamento de YouTube e extração de áudio: yt-dlp
🌍 Tradução instantânea para mais de 100 idiomas: Deep-Translator (A versão paga inclui Azure Translator)

Como uma alternativa robusta ao ElevenLabs, o Voice-Pro capacita podcasters, desenvolvedores e criadores com soluções de voz avançadas.

⚠️ Por favor, note

Devido ao trabalho de desenvolvimento do WeConnect, o desenvolvimento e as atualizações do Voice-Pro não são possíveis por enquanto.
Tornamos todo o código do Voice-Pro de código aberto e completamente gratuito. O Voice-Pro agora pode ser distribuído e modificado livremente por qualquer pessoa.
Funciona bem no Windows com GPU NVIDIA. O funcionamento no Mac e Linux não foi verificado.
Por favor, deixe suas solicitações nas páginas de ou .
Resolução de problemas: Na maioria dos casos, os problemas podem ser resolvidos excluindo a pasta installer_files e, em seguida, executando configure.bat seguido por start.bat.

📰 Notícias e Histórico

version 3.2

Estivemos focados no desenvolvimento do WeConnect nos últimos meses e não conseguimos gerenciar o Voice-Pro.
Decidimos abrir o código do Voice-Pro.
O Voice-Pro é completamente gratuito e suporta Windows, Mac, Linux.
WeConnect é um aplicativo para intercâmbio cultural global.
Conecte-se com pessoas de todo o mundo para intercâmbios culturais significativos, aprendizado de idiomas e amizades internacionais.

version 3.1

🪄 Suporte para modelos ajustados do F5-TTS
🌍 Idiomas suportados
- English & Chinese: SWivid/F5-TTS_v1
- Finnish: AsmoKoskinen/F5-TTS_Finnish_Model
- French: RASPIAUDIO/F5-French-MixedSpeakers-reduced
- Hindi: SPRINGLab/F5-Hindi-24KHz
- Italian: alien79/F5-TTS-italian
- Japanese: Jmica/F5TTS/JA_21999120
- Russian: hotstone228/F5-TTS-Russian
- Spanish: jpgallegoar/F5-Spanish

Versão 3.0

🔥 A função AI Cover foi removida.
🚀 Suporte para m-bain/whisperX foi adicionado.

Versão 2.0

🐍 Construído com Python 3.10.15, Torch 2.5.1+cu124 e Gradio 5.14.0.
🆓 A versão de teste gratuita suporta mídias de até 60 segundos de duração.
🔥 A função AI Cover foi adicionada.
🎤 Suporte para CosyVoice e kokoro foi introduzido.
⏳ A primeira execução baixa CozyVoice2-0.5B (9GB), o que pode levar mais de uma hora dependendo da velocidade da rede.
🎧 Amostras de voz para clonagem serão atualizadas continuamente.
📝 spaCy foi adicionado para tradução e TTS naturais por sentença.
☁️ A versão por assinatura inclui o tradutor e TTS do Microsoft Azure.
🏪 A versão por assinatura oferece uso ilimitado (sem limite de 60 segundos) durante o período de assinatura e pode ser adquirida no .

🎥 YouTube Showcase

Demo for Voice-Pro (v2.0)	F5-TTS: Voice Cloning	Live Transcription & Translation	Multi-Lingual Voice Cloning: Korean - German
Multi-Lingual Voice Cloning: English - Korean	Multi-Lingual Voice Cloning: Korean - Japanese	NVIDIA RTX Video Super-Resolution	AI Karaoke
Multi-Lingual Voice Cloning: English - Korean

⭐ Recursos principais

1. Estúdio de dublagem

Downloads de vídeos do YouTube e extração de áudio
Separação de vozes com Demucs
Suporta mais de 100 idiomas para reconhecimento e tradução de fala

2. Tecnologias de fala

Fala para texto: Whisper, Faster-Whisper, Whisper-Timestamped, WhisperX
Texto para fala:
- Edge-TTS: Mais de 100 idiomas, 400+ vozes
- E2-TTS, F5-TTS, CosyVoice: Clonagem sem treinamento prévio
- kokoro: Classificado como #2 na Arena TTS do HuggingFace

3. Tradução em tempo real

Reconhecimento instantâneo de fala
Tradução multilíngue em tempo real
Entradas de áudio personalizáveis

🤖 Interface Web

Aba `Estúdio de Dublagem`

Centro integrado: Downloads do YouTube, remoção de ruído, legendas, tradução e TTS
Suporta todos os formatos compatíveis com ffmpeg
Opções de saída: WAV, FLAC, MP3
Legendas e reconhecimento para mais de 100 idiomas
TTS com ajustes de velocidade, volume e tom

Aba `Legendas Whisper`

Foco em legendas: Mais de 90 idiomas
Exibição de legendas integrada ao vídeo
Destaque por palavra e opções de remoção de ruído

Aba `Tradução`

Tradução para mais de 100 idiomas
Suporte a arquivos de legendas (ASS, SSA, SRT, etc.)
Reconhecimento e tradução de voz em tempo real

Aba `Geração de Voz`

Opções: Edge-TTS, F5-TTS, CosyVoice, kokoro
Podcasts com vozes de celebridades e suporte multilíngue

🎤✨ Voz de referência

Por favor, solicite a voz que você deseja adicionar na página de Issues. Issues

English

Andrew Bustamante	Andrew Huberman	Avi Loeb	Ben Shapiro	Brett Johnson	Brian Keating
Coffeezilla	Dan Carlin	David Buss	David Fravor	David Kipping	Dennis Whyte
Donald Hoffman	Donald Trump	Douglas Murray	Duncan Trussell	Elon Musk	Garry Nolan
Jack Barsky	James Sexton	Jeff Bezos	Joe Rogan	John Mearsheimer	Jordan Peterson
Kanye 'Ye' West	Mark Zuckerberg	Michael Levin	Michael Saylor	Michio Kaku	MrBeast
Nick Lane	Paul Rosolie	Ryan Graves	Sam Altman	Sam Harris	Stephen Wolfram
Tucker Carlson	Vitalik Buterin	Yuval Harari

Chinese

迪丽热巴 (Dílì Rèbā)

蔡依林 (Cài Yīlín)

吴亦凡 (Wú Yìfán)

李易峰 (Lǐ Yìfēng)

杨幂 (Yáng Mì)

赵丽颖 (Zhào Lìyǐng)

Korean

BTS 진 (Jin)

BTS RM

IU (아이유)

이병헌

이정재

유재석

Japanese

綾瀬はるか (Ayase Haruka)

💻 Requisitos do Sistema

SO: Windows 10/11 (64 bits), Linux, Mac
GPU: NVIDIA com suporte a CUDA 12.4 (recomendado)
VRAM: 4 GB ou mais (8 GB+ preferível)
RAM: 4 GB ou mais
Armazenamento: Pelo menos 20 GB de espaço livre
Internet: Obrigatória

📀 Instalação

Instale o Voice-Pro facilmente com configure.bat e start.bat (use configure.sh e start.sh no Mac/Linux).

1. Preparação do Pacote

Baixe a versão mais recente em (Source code (zip))

git clone https://github.com/abus-aikorea/voice-pro.git

2. Instalação e Execução

🚀 configure.bat
- Instala git, ffmpeg e CUDA (se usar GPU NVIDIA)
- Execute apenas uma vez; requer internet, pode levar mais de 1 hora
- Não feche a janela de comando
🚀 start.bat
- Inicia a interface web do Voice-Pro
- Na primeira execução, instala dependências (pode levar mais de 1 hora)
- Em caso de problemas, delete installer_files e execute novamente

3. Atualização

🚀 update.bat: Atualiza o ambiente Python (mais rápido que reinstalar)

4. Desinstalação

Execute uninstall.bat ou delete a pasta (instalação portátil)

❓ Dicas de Uso

Se o navegador não abrir automaticamente

Feche a janela de comando do Windows e execute start.bat novamente
Abra o navegador manualmente e insira o endereço exibido na janela de comando (ex.: http://127.0.0.1:7870)

Se ocorrer um erro CUDA Out-of-Memory

Verifique o status da memória da GPU no Gerenciador de Tarefas do Windows - guia "Desempenho"
Defina o nível de remoção de ruído para 0 ou 1 (o nível 2 requer pelo menos 8 GB de memória GPU)
Configure o tipo de cálculo como "int" (o tipo "float" tem melhor qualidade, mas exige mais memória GPU)

Como melhorar a qualidade das legendas?

Modelos Whisper maiores tendem a melhorar a qualidade das legendas (large > medium > small > base > tiny), mas isso não é garantido
Entre os tipos de cálculo, "float" oferece bom desempenho; "int" reduz o uso da GPU e aumenta a velocidade por meio de quantização do modelo, mas com perda de desempenho
Aumentar o nível de remoção de ruído elimina mais sons de fundo e usa apenas a voz restante para reconhecimento, mas não garante sempre bons resultados

🚨 Aviso

Devido ao trabalho de desenvolvimento do WeConnect, não haverá atualizações do Voice-Pro por enquanto.
Todo o código do Voice-Pro foi publicado como código aberto. Agora é completamente gratuito de usar.
WeConnect é uma plataforma de comunicação para intercâmbio cultural global.

⏳ Plataformas SaaS para Legendagem, Tradução e TTS

A tabela a seguir lista plataformas SaaS que suportam funcionalidades de legendagem, tradução e conversão de texto em fala (TTS/dublagem). Os custos foram calculados para o processamento de um vídeo em coreano de 60 minutos, incluindo geração de legendas, tradução para o inglês e dublagem em inglês, com base nos dados de preços mais recentes de 15 de abril de 2025.

Plataforma	Legendagem	Tradução	TTS/Dublagem	Custo para Vídeo de 60 min (USD, aprox.)	Principais Características
Maestra	✅	✅	✅	$23.70	Mais de 125 idiomas, legendas em tempo real, extração de palavras-chave SEO, teste gratuito de 15 min.
Kapwing	✅	✅	✅	$30~$40 (Plano Pro, por minuto)	Legendas por IA, tradução para mais de 100 idiomas, dublagem com sincronização labial automática, nível gratuito.
VEED.IO	✅	✅	❌	$24~$36 (Plano Pro, processamento parcial)	Legendas com 99,9% de precisão, legendas otimizadas para Instagram, editor intuitivo.
HappyScribe	✅	✅	✅	$36~$48 (Pagamento por uso)	Mais de 120 idiomas, opção de revisão profissional, seguro, transcrição de reuniões.
Sonix	✅	✅	✅	$30~$40 (Plano Standard)	Mais de 54 idiomas, 30 min de transcrição gratuita, integração com YouTube/Zoom.
Descript	✅	✅	✅	$36~$48 (Plano Criador)	Edição baseada em texto, Overdub TTS, remoção de palavras de preenchimento, 1 hora de transcrição gratuita.
AppTek	✅	✅	✅	Preços personalizados (Contato)	Focado em mídia, modelos personalizados, geração de metadados, Workbench baseado na nuvem.
Transkriptor	✅	✅	❌	$12~$18 (Pagamento por uso)	Mais de 100 idiomas, transcrição de links do YouTube, 99% de precisão, editor simples.

Detalhes do Cálculo de Custos

Maestra: Plano Premium ($158/mês, 1200 créditos). Vídeo de 60 min: 60 créditos (legendas) + 60 créditos (tradução) + 60 créditos (dublagem) = 180 créditos. Custo = (180/1200) * $158 = $23.70.
Kapwing: Plano Pro (~$24/mês, minutos limitados). Estimado $0.50~$0.67/min para legendas+tradução+dublagem (com base em tendências de preços por minuto). Custo de 60 min: $30~$40. Confirmação de preços exatos necessária.
VEED.IO: Plano Pro (~$24/mês). Legendas+tradução estimadas em $0.40~$0.60/min. Sem TTS, processamento parcial. Custo de 60 min: $24~$36. Confirme em veed.io.
HappyScribe: Pagamento por uso (~$0.20/min transcrição, $0.20 tradução, $0.20 dublagem). Custo de 60 min: $36~$48 (assumindo serviços combinados). Confirme em happyscribe.com.
Sonix: Plano Standard (~$10/hora transcrição, adicional para tradução/dublagem). Estimado $0.50~$0.67/min total. Custo de 60 min: $30~$40. Confirme em sonix.ai.
Descript: Plano Criador (~$24/mês, horas limitadas). Estimado $0.60~$0.80/min para legendas+tradução+dublagem. Custo de 60 min: $36~$48. Confirme em descript.com.
AppTek: Preços personalizados para empresas. Sem taxas públicas por minuto. Contate apptek.ai para cotações.
Transkriptor: Pagamento por uso ($0.05~$0.10/min transcrição, similar para tradução). Sem TTS, processamento parcial. Custo de 60 min: $12~$18. Confirme em transkriptor.com.

Notas

Custo para Vídeo de 60 min: Os custos são aproximados e assumem o processamento de um vídeo em coreano de 60 minutos para legendas, tradução para o inglês e dublagem em inglês (quando disponível). Plataformas sem TTS (ex.: VEED.IO, Transkriptor) refletem custos de processamento parcial.
Suporte a Idiomas: A maioria das plataformas suporta coreano e inglês. Verifique a disponibilidade de idiomas específicos nos respectivos sites.
Casos de Uso:
- Mídia/Entretenimento: AppTek, Maestra
- Redes Sociais: Kapwing, VEED.IO
- Podcasts/Entrevistas: Sonix, Descript
- E-learning/Conteúdo Global: Transkriptor, HappyScribe
Atualizações de Preços: Os preços podem variar devido a mudanças nos planos ou promoções. Consulte os sites oficiais para detalhes atualizados.
Para contribuições ou recomendações de casos de uso específicos, abra um issue ou envie um pull request neste repositório.

☕ Contribuições

Olá, sou David da equipe Voice-Pro. Nossa equipe descobre as melhores tecnologias de IA do setor e as fornece para que qualquer pessoa possa usá-las de forma fácil e conveniente. Somos uma pequena startup na Coreia que existe há apenas um ano. Estamos trabalhando arduamente para ajudar você e outros criadores a produzir conteúdo excelente.

Sua avaliação de ⭐⭐⭐⭐⭐ seria muito apreciada, pois ajuda nossa empresa a crescer com você. Por favor, ajude a apoiar nossa pequena equipe.

Obrigado, Serviço de Atendimento ao Cliente ABUS

Se você deseja participar e nos ajudar com este projeto, sinta-se à vontade para criar um Issues.
Se algo der errado, envie um Pull requests para melhorar este projeto.
Qualquer tipo de contribuição é bem-vindo.
Para dúvidas relacionadas a compras, parcerias comerciais, ajustes técnicos, investimentos e outros assuntos, entre em contato conosco por e-mail (abus.aikorea@gmail.com).
Se você gosta deste projeto, por favor, dê uma estrela a este repositório. Nós agradeceríamos muito. ⭐⭐⭐
Você pode apoiar o Voice-Pro com uma doação aqui:

📬 Contato

Email: abus.aikorea@gmail.com
Homepage (Korean): https://www.wctokyoseoul.com

🙏 Créditos

Demucs: https://github.com/facebookresearch/demucs
yt-dlp: https://github.com/yt-dlp/yt-dlp
gradio: https://github.com/gradio-app/gradio
edge-TTS: https://github.com/rany2/edge-tts
F5-TTS: https://github.com/SWivid/F5-TTS.git
openai-whisper: https://github.com/openai/whisper
faster-whisper: https://github.com/SYSTRAN/faster-whisper
whisper-timestamped: https://github.com/linto-ai/whisper-timestamped
whisperX: https://github.com/m-bain/whisperX
CosyVoice: https://github.com/FunAudioLLM/CosyVoice
kokoro: https://github.com/hexgrad/kokoro
Deep-Translator: https://github.com/nidhaloff/deep-translator
spaCy: https://github.com/explosion/spaCy

por ABUS

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Voice-Pro

🎙️ Um aplicativo web baseado em IA para reconhecimento de voz, tradução e dublagem

⚠️ Por favor, note

📰 Notícias e Histórico

🎥 YouTube Showcase