La mejor solución de reconocimiento de voz, traducción y doblaje multilingüe con IA 🚀








Voice-Pro es una aplicación web de vanguardia que transforma la creación de contenido multimedia. Integra la descarga de videos de YouTube, separación de voz, reconocimiento de voz, traducción y conversión de texto a voz (TTS) en una sola herramienta poderosa, ofreciendo una solución ideal para creadores, investigadores y profesionales multilingües.
- 🔊 Reconocimiento de voz de primer nivel: Whisper, Faster-Whisper, Whisper-Timestamped, WhisperX
- 🎤 Clonación de voz sin entrenamiento: F5-TTS, E2-TTS, CosyVoice
- 📢 Texto a voz multilingüe: Edge-TTS, kokoro (La versión de pago incluye Azure TTS)
- 🎥 Procesamiento de YouTube y extracción de audio: yt-dlp
- 🌍 Traducción instantánea para más de 100 idiomas: Deep-Translator (La versión de pago incluye Azure Translator)
Como una alternativa sólida a ElevenLabs, Voice-Pro empodera a podcasters, desarrolladores y creadores con soluciones de voz avanzadas.
- Debido al trabajo de desarrollo de WeConnect, el desarrollo y las actualizaciones de Voice-Pro no son posibles por el momento.
- Hemos hecho público todo el código de Voice-Pro y es completamente gratuito. Voice-Pro ahora puede ser distribuido y modificado libremente por cualquiera.
- Funciona bien en Windows con GPU NVIDIA. El funcionamiento en Mac y Linux no ha sido verificado.
- Por favor, deje sus solicitudes en las páginas de
o
.
- Solución de problemas: En la mayoría de los casos, los problemas se pueden resolver eliminando la carpeta
installer_filesy luego ejecutandoconfigure.batseguido destart.bat.
version 3.2
- Nos hemos centrado en el desarrollo de WeConnect durante los últimos meses y no hemos podido gestionar Voice-Pro en absoluto.
- Hemos decidido abrir el código de Voice-Pro.
- Voice-Pro es completamente gratuito y es compatible con Windows, Mac, Linux.
- WeConnect es una aplicación para el intercambio cultural global.
- Conecta con personas de todo el mundo para intercambios culturales significativos, aprendizaje de idiomas y amistades internacionales.
version 3.1
- 🪄 Soporte para modelos ajustados de F5-TTS
- 🌍 Idiomas compatibles
English &
Chinese: SWivid/F5-TTS_v1
Finnish: AsmoKoskinen/F5-TTS_Finnish_Model
French: RASPIAUDIO/F5-French-MixedSpeakers-reduced
Hindi: SPRINGLab/F5-Hindi-24KHz
Italian: alien79/F5-TTS-italian
Japanese: Jmica/F5TTS/JA_21999120
Russian: hotstone228/F5-TTS-Russian
Spanish: jpgallegoar/F5-Spanish
Versión 3.0
- 🔥 Se eliminó la función AI Cover.
- 🚀 Se añadió soporte para m-bain/whisperX.
Versión 2.0
- 🐍 Construido con Python 3.10.15, Torch 2.5.1+cu124 y Gradio 5.14.0.
- 🆓 La prueba gratuita soporta medios de hasta 60 segundos de duración.
- 🔥 Se añadió la función AI Cover.
- 🎤 Se introdujo soporte para CosyVoice y kokoro.
- ⏳ La primera ejecución descarga CozyVoice2-0.5B (9GB), lo que puede tomar más de una hora dependiendo de la velocidad de la red.
- 🎧 Las muestras de voz para clonación se actualizarán continuamente.
- 📝 Se añadió spaCy para traducción y TTS natural por frases.
- ☁️ La versión de suscripción incluye el traductor y TTS de Microsoft Azure.
- 🏪 La versión de suscripción ofrece uso ilimitado (sin límite de 60 segundos) durante el período de suscripción y se puede comprar en
.
- Descarga de videos de YouTube y extracción de audio
- Separación de voces con Demucs
- Soporta más de 100 idiomas para reconocimiento y traducción de voz
- Voz a texto: Whisper, Faster-Whisper, Whisper-Timestamped, WhisperX
- Texto a voz:
- Edge-TTS: Más de 100 idiomas, 400+ voces
- E2-TTS, F5-TTS, CosyVoice: Clonación sin entrenamiento previo
- kokoro: Clasificado #2 en la Arena TTS de HuggingFace
- Reconocimiento instantáneo de voz
- Traducción multilingüe en tiempo real
- Entradas de audio personalizables
- Centro integrado: Descargas de YouTube, eliminación de ruido, subtítulos, traducción y TTS
- Soporta todos los formatos compatibles con ffmpeg
- Opciones de salida: WAV, FLAC, MP3
- Subtítulos y reconocimiento para más de 100 idiomas
- TTS con ajustes de velocidad, volumen y tono
- Enfocada en subtítulos: Más de 90 idiomas
- Visualización de subtítulos integrada con video
- Resaltado por palabra y opciones de eliminación de ruido
- Traducción a más de 100 idiomas
- Soporte para archivos de subtítulos (ASS, SSA, SRT, etc.)
- Reconocimiento y traducción de voz en tiempo real
- Opciones: Edge-TTS, F5-TTS, CosyVoice, kokoro
- Podcasts con voces de celebridades y soporte multilingüe
- Por favor, solicite la voz que desea agregar en la página de Issues. Issues
English
Chinese
![]() 迪丽热巴 (Dílì Rèbā) |
![]() 蔡依林 (Cài Yīlín) |
![]() 吴亦凡 (Wú Yìfán) |
![]() 李易峰 (Lǐ Yìfēng) |
![]() 杨幂 (Yáng Mì) |
![]() 赵丽颖 (Zhào Lìyǐng) |
- SO: Windows 10/11 (64 bits), Linux, Mac
- GPU: NVIDIA con soporte CUDA 12.4 (recomendado)
- VRAM: 4 GB o más (8 GB+ preferible)
- RAM: 4 GB o más
- Almacenamiento: Al menos 20 GB de espacio libre
- Internet: Requerido
Instala Voice-Pro fácilmente con configure.bat y start.bat (usa configure.sh y start.sh en Mac/Linux).
git clone https://github.com/abus-aikorea/voice-pro.git- 🚀 configure.bat
- Instala git, ffmpeg y CUDA (si usas GPU NVIDIA)
- Ejecútalo solo una vez; requiere internet, puede tomar más de 1 hora
- No cierres la ventana de comandos
- 🚀 start.bat
- Inicia la interfaz web de Voice-Pro
- En la primera ejecución, instala dependencias (puede tomar más de 1 hora)
- En caso de problemas, elimina installer_files y ejecuta de nuevo
- 🚀 update.bat: Actualiza el entorno Python (más rápido que reinstalar)
- Ejecuta uninstall.bat o elimina la carpeta (instalación portátil)
- Cierra la ventana de comandos de Windows y ejecuta start.bat nuevamente
- Abre el navegador manualmente e introduce la dirección mostrada en la ventana de comandos (ej.: http://127.0.0.1:7870)
- Verifica el estado de la memoria GPU en el Administrador de Tareas de Windows - pestaña "Rendimiento"
- Configura el nivel de eliminación de ruido en 0 o 1 (el nivel 2 requiere al menos 8 GB de memoria GPU)
- Establece el tipo de cálculo en "int" (el tipo "float" ofrece mejor calidad, pero requiere más memoria GPU)
- Los modelos Whisper más grandes tienden a mejorar la calidad de los subtítulos (large > medium > small > base > tiny), pero no siempre es así
- Entre los tipos de cálculo, "float" ofrece buen rendimiento; "int" reduce el uso de GPU y aumenta la velocidad mediante cuantización del modelo, pero con pérdida de rendimiento
- Aumentar el nivel de eliminación de ruido elimina más sonidos de fondo y usa solo la voz restante para el reconocimiento, pero no siempre garantiza mejores resultados
- Debido al trabajo de desarrollo de WeConnect, no habrá actualizaciones de Voice-Pro por el momento.
- Todo el código de Voice-Pro ha sido publicado como código abierto. Ahora es completamente gratuito de usar.
- WeConnect es una plataforma de comunicación para el intercambio cultural global.
La siguiente tabla enumera las plataformas SaaS que admiten funciones de subtitulado, traducción y conversión de texto a voz (TTS/doblaje). Los costos se calcularon para procesar un video en coreano de 60 minutos, incluyendo la generación de subtítulos, traducción al inglés y doblaje en inglés, basados en los datos de precios más recientes al 15 de abril de 2025.
| Plataforma | Subtitulado | Traducción | TTS/Doblaje | Costo para Video de 60 min (USD, aprox.) | Características Principales |
|---|---|---|---|---|---|
| Maestra | ✅ | ✅ | ✅ | $23.70 | Más de 125 idiomas, subtítulos en tiempo real, extracción de palabras clave SEO, prueba gratuita de 15 min. |
| Kapwing | ✅ | ✅ | ✅ | $30~$40 (Plan Pro, por minuto) | Subtítulos por IA, traducción a más de 100 idiomas, doblaje con sincronización labial automática, nivel gratuito. |
| VEED.IO | ✅ | ✅ | ❌ | $24~$36 (Plan Pro, procesamiento parcial) | Subtítulos con 99.9% de precisión, subtítulos optimizados para Instagram, editor intuitivo. |
| HappyScribe | ✅ | ✅ | ✅ | $36~$48 (Pago por uso) | Más de 120 idiomas, opción de corrección profesional, seguro, transcripción de reuniones. |
| Sonix | ✅ | ✅ | ✅ | $30~$40 (Plan Estándar) | Más de 54 idiomas, 30 min de transcripción gratuita, integración con YouTube/Zoom. |
| Descript | ✅ | ✅ | ✅ | $36~$48 (Plan Creador) | Edición basada en texto, Overdub TTS, eliminación de palabras de relleno, 1 hora de transcripción gratuita. |
| AppTek | ✅ | ✅ | ✅ | Precios personalizados (Contactar) | Enfocado en medios, modelos personalizados, generación de metadatos, Workbench basado en la nube. |
| Transkriptor | ✅ | ✅ | ❌ | $12~$18 (Pago por uso) | Más de 100 idiomas, transcripción desde enlaces de YouTube, 99% de precisión, editor simple. |
- Maestra: Plan Premium ($158/mes, 1200 créditos). Video de 60 min: 60 créditos (subtítulos) + 60 créditos (traducción) + 60 créditos (doblaje) = 180 créditos. Costo = (180/1200) * $158 = $23.70.
- Kapwing: Plan Pro (~$24/mes, minutos limitados). Estimado $0.50~$0.67/min para subtítulos+traducción+doblaje (basado en tendencias de precios por minuto). Costo de 60 min: $30~$40. Se requiere confirmación de precios exactos.
- VEED.IO: Plan Pro (~$24/mes). Subtítulos+traducción estimados en $0.40~$0.60/min. Sin TTS, procesamiento parcial. Costo de 60 min: $24~$36. Confirme en veed.io.
- HappyScribe: Pago por uso (~$0.20/min transcripción, $0.20 traducción, $0.20 doblaje). Costo de 60 min: $36~$48 (suponiendo servicios combinados). Confirme en happyscribe.com.
- Sonix: Plan Estándar (~$10/hora transcripción, adicional para traducción/doblaje). Estimado $0.50~$0.67/min total. Costo de 60 min: $30~$40. Confirme en sonix.ai.
- Descript: Plan Creador (~$24/mes, horas limitadas). Estimado $0.60~$0.80/min para subtítulos+traducción+doblaje. Costo de 60 min: $36~$48. Confirme en descript.com.
- AppTek: Precios personalizados para empresas. Sin tarifas públicas por minuto. Contacte a apptek.ai para cotizaciones.
- Transkriptor: Pago por uso ($0.05~$0.10/min transcripción, similar para traducción). Sin TTS, procesamiento parcial. Costo de 60 min: $12~$18. Confirme en transkriptor.com.
- Costo para Video de 60 min: Los costos son aproximados y asumen el procesamiento de un video en coreano de 60 minutos para subtítulos, traducción al inglés y doblaje en inglés (donde esté disponible). Las plataformas sin TTS (p. ej., VEED.IO, Transkriptor) reflejan costos de procesamiento parcial.
- Soporte de Idiomas: La mayoría de las plataformas admiten coreano e inglés. Verifique la disponibilidad de idiomas específicos en sus sitios web.
- Casos de Uso:
- Medios/Entretenimiento: AppTek, Maestra
- Redes Sociales: Kapwing, VEED.IO
- Podcasts/Entrevistas: Sonix, Descript
- E-learning/Contenido Global: Transkriptor, HappyScribe
- Actualizaciones de Precios: Los precios pueden variar debido a cambios en los planes o promociones. Consulte los sitios web oficiales para obtener detalles actualizados.
- Para contribuciones o recomendaciones de casos de uso específicos, abra un issue o envíe un pull request en este repositorio.
Hola, soy David del equipo de Voice-Pro. Nuestro equipo descubre las mejores tecnologías de IA de la industria y las proporciona para que cualquiera pueda usarlas de manera fácil y conveniente. Somos una pequeña startup en Corea que solo lleva un año en funcionamiento. Estamos trabajando arduamente para ayudarlos a usted y a otros creadores a producir contenido excelente.
Su reseña de ⭐⭐⭐⭐⭐ sería muy apreciada, ya que ayuda a que nuestro negocio crezca con usted. Por favor, ayude a apoyar a nuestro pequeño equipo.
Gracias, Servicio al Cliente de ABUS
- Si desea participar y ayudarnos con este proyecto, no dude en crear un Issues.
- Si algo sale mal, envíe un Pull requests para mejorar este proyecto.
- Cualquier tipo de contribución es bienvenida.
- Para consultas relacionadas con compras, asociaciones comerciales, ajustes técnicos, inversiones y otros asuntos, contáctenos por correo electrónico (abus.aikorea@gmail.com).
- Si le gusta este proyecto, por favor, marque este repositorio con una estrella. Lo agradeceríamos mucho. ⭐⭐⭐
- Puede apoyar a Voice-Pro con una donación aquí:
- Email: abus.aikorea@gmail.com
- Homepage (Korean): https://www.wctokyoseoul.com
- Demucs: https://github.com/facebookresearch/demucs
- yt-dlp: https://github.com/yt-dlp/yt-dlp
- gradio: https://github.com/gradio-app/gradio
- edge-TTS: https://github.com/rany2/edge-tts
- F5-TTS: https://github.com/SWivid/F5-TTS.git
- openai-whisper: https://github.com/openai/whisper
- faster-whisper: https://github.com/SYSTRAN/faster-whisper
- whisper-timestamped: https://github.com/linto-ai/whisper-timestamped
- whisperX: https://github.com/m-bain/whisperX
- CosyVoice: https://github.com/FunAudioLLM/CosyVoice
- kokoro: https://github.com/hexgrad/kokoro
- Deep-Translator: https://github.com/nidhaloff/deep-translator
- spaCy: https://github.com/explosion/spaCy
por ABUS

































































