Voice-Pro

La mejor solución de reconocimiento de voz, traducción y doblaje multilingüe con IA 🚀

🎙️ Una aplicación web impulsada por IA para reconocimiento de voz, traducción y doblaje

South Korea Flag 한국어 ∙ United Kingdom Flag English ∙ China Flag 中文简体 ∙ Taiwan Flag 中文繁體 ∙ Japan Flag 日本語 ∙ Germany Flag Deutsch ∙ Spain Flag Español ∙ Portugal Flag Português

Voice-Pro es una aplicación web de vanguardia que transforma la creación de contenido multimedia. Integra la descarga de videos de YouTube, separación de voz, reconocimiento de voz, traducción y conversión de texto a voz (TTS) en una sola herramienta poderosa, ofreciendo una solución ideal para creadores, investigadores y profesionales multilingües.

🔊 Reconocimiento de voz de primer nivel: Whisper, Faster-Whisper, Whisper-Timestamped, WhisperX
🎤 Clonación de voz sin entrenamiento: F5-TTS, E2-TTS, CosyVoice
📢 Texto a voz multilingüe: Edge-TTS, kokoro (La versión de pago incluye Azure TTS)
🎥 Procesamiento de YouTube y extracción de audio: yt-dlp
🌍 Traducción instantánea para más de 100 idiomas: Deep-Translator (La versión de pago incluye Azure Translator)

Como una alternativa sólida a ElevenLabs, Voice-Pro empodera a podcasters, desarrolladores y creadores con soluciones de voz avanzadas.

⚠️ Por favor, tenga en cuenta

Debido al trabajo de desarrollo de WeConnect, el desarrollo y las actualizaciones de Voice-Pro no son posibles por el momento.
Hemos hecho público todo el código de Voice-Pro y es completamente gratuito. Voice-Pro ahora puede ser distribuido y modificado libremente por cualquiera.
Funciona bien en Windows con GPU NVIDIA. El funcionamiento en Mac y Linux no ha sido verificado.
Por favor, deje sus solicitudes en las páginas de o .
Solución de problemas: En la mayoría de los casos, los problemas se pueden resolver eliminando la carpeta installer_files y luego ejecutando configure.bat seguido de start.bat.

📰 Noticias e Historia

version 3.2

Nos hemos centrado en el desarrollo de WeConnect durante los últimos meses y no hemos podido gestionar Voice-Pro en absoluto.
Hemos decidido abrir el código de Voice-Pro.
Voice-Pro es completamente gratuito y es compatible con Windows, Mac, Linux.
WeConnect es una aplicación para el intercambio cultural global.
Conecta con personas de todo el mundo para intercambios culturales significativos, aprendizaje de idiomas y amistades internacionales.

version 3.1

🪄 Soporte para modelos ajustados de F5-TTS
🌍 Idiomas compatibles
- English & Chinese: SWivid/F5-TTS_v1
- Finnish: AsmoKoskinen/F5-TTS_Finnish_Model
- French: RASPIAUDIO/F5-French-MixedSpeakers-reduced
- Hindi: SPRINGLab/F5-Hindi-24KHz
- Italian: alien79/F5-TTS-italian
- Japanese: Jmica/F5TTS/JA_21999120
- Russian: hotstone228/F5-TTS-Russian
- Spanish: jpgallegoar/F5-Spanish

Versión 3.0

🔥 Se eliminó la función AI Cover.
🚀 Se añadió soporte para m-bain/whisperX.

Versión 2.0

🐍 Construido con Python 3.10.15, Torch 2.5.1+cu124 y Gradio 5.14.0.
🆓 La prueba gratuita soporta medios de hasta 60 segundos de duración.
🔥 Se añadió la función AI Cover.
🎤 Se introdujo soporte para CosyVoice y kokoro.
⏳ La primera ejecución descarga CozyVoice2-0.5B (9GB), lo que puede tomar más de una hora dependiendo de la velocidad de la red.
🎧 Las muestras de voz para clonación se actualizarán continuamente.
📝 Se añadió spaCy para traducción y TTS natural por frases.
☁️ La versión de suscripción incluye el traductor y TTS de Microsoft Azure.
🏪 La versión de suscripción ofrece uso ilimitado (sin límite de 60 segundos) durante el período de suscripción y se puede comprar en .

🎥 YouTube Showcase

Demo for Voice-Pro (v2.0)	F5-TTS: Voice Cloning	Live Transcription & Translation	Multi-Lingual Voice Cloning: Korean - German
Multi-Lingual Voice Cloning: English - Korean	Multi-Lingual Voice Cloning: Korean - Japanese	NVIDIA RTX Video Super-Resolution	AI Karaoke
Multi-Lingual Voice Cloning: English - Korean

⭐ Características principales

1. Estudio de doblaje

Descarga de videos de YouTube y extracción de audio
Separación de voces con Demucs
Soporta más de 100 idiomas para reconocimiento y traducción de voz

2. Tecnologías de voz

Voz a texto: Whisper, Faster-Whisper, Whisper-Timestamped, WhisperX
Texto a voz:
- Edge-TTS: Más de 100 idiomas, 400+ voces
- E2-TTS, F5-TTS, CosyVoice: Clonación sin entrenamiento previo
- kokoro: Clasificado #2 en la Arena TTS de HuggingFace

3. Traducción en tiempo real

Reconocimiento instantáneo de voz
Traducción multilingüe en tiempo real
Entradas de audio personalizables

🤖 Interfaz Web

Pestaña `Estudio de Doblaje`

Centro integrado: Descargas de YouTube, eliminación de ruido, subtítulos, traducción y TTS
Soporta todos los formatos compatibles con ffmpeg
Opciones de salida: WAV, FLAC, MP3
Subtítulos y reconocimiento para más de 100 idiomas
TTS con ajustes de velocidad, volumen y tono

Pestaña `Subtítulos Whisper`

Enfocada en subtítulos: Más de 90 idiomas
Visualización de subtítulos integrada con video
Resaltado por palabra y opciones de eliminación de ruido

Pestaña `Traducción`

Traducción a más de 100 idiomas
Soporte para archivos de subtítulos (ASS, SSA, SRT, etc.)
Reconocimiento y traducción de voz en tiempo real

Pestaña `Generación de Voz`

Opciones: Edge-TTS, F5-TTS, CosyVoice, kokoro
Podcasts con voces de celebridades y soporte multilingüe

🎤✨ Voz de referencia

Por favor, solicite la voz que desea agregar en la página de Issues. Issues

English

Andrew Bustamante	Andrew Huberman	Avi Loeb	Ben Shapiro	Brett Johnson	Brian Keating
Coffeezilla	Dan Carlin	David Buss	David Fravor	David Kipping	Dennis Whyte
Donald Hoffman	Donald Trump	Douglas Murray	Duncan Trussell	Elon Musk	Garry Nolan
Jack Barsky	James Sexton	Jeff Bezos	Joe Rogan	John Mearsheimer	Jordan Peterson
Kanye 'Ye' West	Mark Zuckerberg	Michael Levin	Michael Saylor	Michio Kaku	MrBeast
Nick Lane	Paul Rosolie	Ryan Graves	Sam Altman	Sam Harris	Stephen Wolfram
Tucker Carlson	Vitalik Buterin	Yuval Harari

Chinese

迪丽热巴 (Dílì Rèbā)

蔡依林 (Cài Yīlín)

吴亦凡 (Wú Yìfán)

李易峰 (Lǐ Yìfēng)

杨幂 (Yáng Mì)

赵丽颖 (Zhào Lìyǐng)

Korean

BTS 진 (Jin)

BTS RM

IU (아이유)

이병헌

이정재

유재석

Japanese

綾瀬はるか (Ayase Haruka)

💻 Requisitos del Sistema

SO: Windows 10/11 (64 bits), Linux, Mac
GPU: NVIDIA con soporte CUDA 12.4 (recomendado)
VRAM: 4 GB o más (8 GB+ preferible)
RAM: 4 GB o más
Almacenamiento: Al menos 20 GB de espacio libre
Internet: Requerido

📀 Instalación

Instala Voice-Pro fácilmente con configure.bat y start.bat (usa configure.sh y start.sh en Mac/Linux).

1. Preparación del Paquete

Descarga la versión más reciente en (Source code (zip))

git clone https://github.com/abus-aikorea/voice-pro.git

2. Instalación y Ejecución

🚀 configure.bat
- Instala git, ffmpeg y CUDA (si usas GPU NVIDIA)
- Ejecútalo solo una vez; requiere internet, puede tomar más de 1 hora
- No cierres la ventana de comandos
🚀 start.bat
- Inicia la interfaz web de Voice-Pro
- En la primera ejecución, instala dependencias (puede tomar más de 1 hora)
- En caso de problemas, elimina installer_files y ejecuta de nuevo

3. Actualización

🚀 update.bat: Actualiza el entorno Python (más rápido que reinstalar)

4. Desinstalación

Ejecuta uninstall.bat o elimina la carpeta (instalación portátil)

❓ Consejos de Uso

Si el navegador no se abre automáticamente

Cierra la ventana de comandos de Windows y ejecuta start.bat nuevamente
Abre el navegador manualmente e introduce la dirección mostrada en la ventana de comandos (ej.: http://127.0.0.1:7870)

Si ocurre un error CUDA Out-of-Memory

Verifica el estado de la memoria GPU en el Administrador de Tareas de Windows - pestaña "Rendimiento"
Configura el nivel de eliminación de ruido en 0 o 1 (el nivel 2 requiere al menos 8 GB de memoria GPU)
Establece el tipo de cálculo en "int" (el tipo "float" ofrece mejor calidad, pero requiere más memoria GPU)

¿Cómo mejorar la calidad de los subtítulos?

Los modelos Whisper más grandes tienden a mejorar la calidad de los subtítulos (large > medium > small > base > tiny), pero no siempre es así
Entre los tipos de cálculo, "float" ofrece buen rendimiento; "int" reduce el uso de GPU y aumenta la velocidad mediante cuantización del modelo, pero con pérdida de rendimiento
Aumentar el nivel de eliminación de ruido elimina más sonidos de fondo y usa solo la voz restante para el reconocimiento, pero no siempre garantiza mejores resultados

🚨 Aviso

Debido al trabajo de desarrollo de WeConnect, no habrá actualizaciones de Voice-Pro por el momento.
Todo el código de Voice-Pro ha sido publicado como código abierto. Ahora es completamente gratuito de usar.
WeConnect es una plataforma de comunicación para el intercambio cultural global.

⏳ Plataformas SaaS para Subtitulado, Traducción y TTS

La siguiente tabla enumera las plataformas SaaS que admiten funciones de subtitulado, traducción y conversión de texto a voz (TTS/doblaje). Los costos se calcularon para procesar un video en coreano de 60 minutos, incluyendo la generación de subtítulos, traducción al inglés y doblaje en inglés, basados en los datos de precios más recientes al 15 de abril de 2025.

Plataforma	Subtitulado	Traducción	TTS/Doblaje	Costo para Video de 60 min (USD, aprox.)	Características Principales
Maestra	✅	✅	✅	$23.70	Más de 125 idiomas, subtítulos en tiempo real, extracción de palabras clave SEO, prueba gratuita de 15 min.
Kapwing	✅	✅	✅	$30~$40 (Plan Pro, por minuto)	Subtítulos por IA, traducción a más de 100 idiomas, doblaje con sincronización labial automática, nivel gratuito.
VEED.IO	✅	✅	❌	$24~$36 (Plan Pro, procesamiento parcial)	Subtítulos con 99.9% de precisión, subtítulos optimizados para Instagram, editor intuitivo.
HappyScribe	✅	✅	✅	$36~$48 (Pago por uso)	Más de 120 idiomas, opción de corrección profesional, seguro, transcripción de reuniones.
Sonix	✅	✅	✅	$30~$40 (Plan Estándar)	Más de 54 idiomas, 30 min de transcripción gratuita, integración con YouTube/Zoom.
Descript	✅	✅	✅	$36~$48 (Plan Creador)	Edición basada en texto, Overdub TTS, eliminación de palabras de relleno, 1 hora de transcripción gratuita.
AppTek	✅	✅	✅	Precios personalizados (Contactar)	Enfocado en medios, modelos personalizados, generación de metadatos, Workbench basado en la nube.
Transkriptor	✅	✅	❌	$12~$18 (Pago por uso)	Más de 100 idiomas, transcripción desde enlaces de YouTube, 99% de precisión, editor simple.

Detalles del Cálculo de Costos

Maestra: Plan Premium ($158/mes, 1200 créditos). Video de 60 min: 60 créditos (subtítulos) + 60 créditos (traducción) + 60 créditos (doblaje) = 180 créditos. Costo = (180/1200) * $158 = $23.70.
Kapwing: Plan Pro (~$24/mes, minutos limitados). Estimado $0.50~$0.67/min para subtítulos+traducción+doblaje (basado en tendencias de precios por minuto). Costo de 60 min: $30~$40. Se requiere confirmación de precios exactos.
VEED.IO: Plan Pro (~$24/mes). Subtítulos+traducción estimados en $0.40~$0.60/min. Sin TTS, procesamiento parcial. Costo de 60 min: $24~$36. Confirme en veed.io.
HappyScribe: Pago por uso (~$0.20/min transcripción, $0.20 traducción, $0.20 doblaje). Costo de 60 min: $36~$48 (suponiendo servicios combinados). Confirme en happyscribe.com.
Sonix: Plan Estándar (~$10/hora transcripción, adicional para traducción/doblaje). Estimado $0.50~$0.67/min total. Costo de 60 min: $30~$40. Confirme en sonix.ai.
Descript: Plan Creador (~$24/mes, horas limitadas). Estimado $0.60~$0.80/min para subtítulos+traducción+doblaje. Costo de 60 min: $36~$48. Confirme en descript.com.
AppTek: Precios personalizados para empresas. Sin tarifas públicas por minuto. Contacte a apptek.ai para cotizaciones.
Transkriptor: Pago por uso ($0.05~$0.10/min transcripción, similar para traducción). Sin TTS, procesamiento parcial. Costo de 60 min: $12~$18. Confirme en transkriptor.com.

Notas

Costo para Video de 60 min: Los costos son aproximados y asumen el procesamiento de un video en coreano de 60 minutos para subtítulos, traducción al inglés y doblaje en inglés (donde esté disponible). Las plataformas sin TTS (p. ej., VEED.IO, Transkriptor) reflejan costos de procesamiento parcial.
Soporte de Idiomas: La mayoría de las plataformas admiten coreano e inglés. Verifique la disponibilidad de idiomas específicos en sus sitios web.
Casos de Uso:
- Medios/Entretenimiento: AppTek, Maestra
- Redes Sociales: Kapwing, VEED.IO
- Podcasts/Entrevistas: Sonix, Descript
- E-learning/Contenido Global: Transkriptor, HappyScribe
Actualizaciones de Precios: Los precios pueden variar debido a cambios en los planes o promociones. Consulte los sitios web oficiales para obtener detalles actualizados.
Para contribuciones o recomendaciones de casos de uso específicos, abra un issue o envíe un pull request en este repositorio.

☕ Contribuciones

Hola, soy David del equipo de Voice-Pro. Nuestro equipo descubre las mejores tecnologías de IA de la industria y las proporciona para que cualquiera pueda usarlas de manera fácil y conveniente. Somos una pequeña startup en Corea que solo lleva un año en funcionamiento. Estamos trabajando arduamente para ayudarlos a usted y a otros creadores a producir contenido excelente.

Su reseña de ⭐⭐⭐⭐⭐ sería muy apreciada, ya que ayuda a que nuestro negocio crezca con usted. Por favor, ayude a apoyar a nuestro pequeño equipo.

Gracias, Servicio al Cliente de ABUS

Si desea participar y ayudarnos con este proyecto, no dude en crear un Issues.
Si algo sale mal, envíe un Pull requests para mejorar este proyecto.
Cualquier tipo de contribución es bienvenida.
Para consultas relacionadas con compras, asociaciones comerciales, ajustes técnicos, inversiones y otros asuntos, contáctenos por correo electrónico (abus.aikorea@gmail.com).
Si le gusta este proyecto, por favor, marque este repositorio con una estrella. Lo agradeceríamos mucho. ⭐⭐⭐
Puede apoyar a Voice-Pro con una donación aquí:

📬 Contacto

Email: abus.aikorea@gmail.com
Homepage (Korean): https://www.wctokyoseoul.com

🙏 Créditos

Demucs: https://github.com/facebookresearch/demucs
yt-dlp: https://github.com/yt-dlp/yt-dlp
gradio: https://github.com/gradio-app/gradio
edge-TTS: https://github.com/rany2/edge-tts
F5-TTS: https://github.com/SWivid/F5-TTS.git
openai-whisper: https://github.com/openai/whisper
faster-whisper: https://github.com/SYSTRAN/faster-whisper
whisper-timestamped: https://github.com/linto-ai/whisper-timestamped
whisperX: https://github.com/m-bain/whisperX
CosyVoice: https://github.com/FunAudioLLM/CosyVoice
kokoro: https://github.com/hexgrad/kokoro
Deep-Translator: https://github.com/nidhaloff/deep-translator
spaCy: https://github.com/explosion/spaCy

por ABUS

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Voice-Pro

🎙️ Una aplicación web impulsada por IA para reconocimiento de voz, traducción y doblaje

⚠️ Por favor, tenga en cuenta

📰 Noticias e Historia

🎥 YouTube Showcase