Skip to content

Latest commit

 

History

History
555 lines (456 loc) · 32 KB

File metadata and controls

555 lines (456 loc) · 32 KB

Voice-Pro

La mejor solución de reconocimiento de voz, traducción y doblaje multilingüe con IA 🚀

Dubbing Studio


🎙️ Una aplicación web impulsada por IA para reconocimiento de voz, traducción y doblaje

South Korea Flag 한국어 United Kingdom Flag English China Flag 中文简体 Taiwan Flag 中文繁體 Japan Flag 日本語 Germany Flag Deutsch Spain Flag Español Portugal Flag Português

Voice-Pro es una aplicación web de vanguardia que transforma la creación de contenido multimedia. Integra la descarga de videos de YouTube, separación de voz, reconocimiento de voz, traducción y conversión de texto a voz (TTS) en una sola herramienta poderosa, ofreciendo una solución ideal para creadores, investigadores y profesionales multilingües.

  • 🔊 Reconocimiento de voz de primer nivel: Whisper, Faster-Whisper, Whisper-Timestamped, WhisperX
  • 🎤 Clonación de voz sin entrenamiento: F5-TTS, E2-TTS, CosyVoice
  • 📢 Texto a voz multilingüe: Edge-TTS, kokoro (La versión de pago incluye Azure TTS)
  • 🎥 Procesamiento de YouTube y extracción de audio: yt-dlp
  • 🌍 Traducción instantánea para más de 100 idiomas: Deep-Translator (La versión de pago incluye Azure Translator)

Como una alternativa sólida a ElevenLabs, Voice-Pro empodera a podcasters, desarrolladores y creadores con soluciones de voz avanzadas.

⚠️ Por favor, tenga en cuenta

  • Debido al trabajo de desarrollo de WeConnect, el desarrollo y las actualizaciones de Voice-Pro no son posibles por el momento.
  • Hemos hecho público todo el código de Voice-Pro y es completamente gratuito. Voice-Pro ahora puede ser distribuido y modificado libremente por cualquiera.
  • Funciona bien en Windows con GPU NVIDIA. El funcionamiento en Mac y Linux no ha sido verificado.
  • Por favor, deje sus solicitudes en las páginas de GitHub Issues o GitHub Discussions .
  • Solución de problemas: En la mayoría de los casos, los problemas se pueden resolver eliminando la carpeta installer_files y luego ejecutando configure.bat seguido de start.bat.

📰 Noticias e Historia

version 3.2
  • Nos hemos centrado en el desarrollo de WeConnect durante los últimos meses y no hemos podido gestionar Voice-Pro en absoluto.
  • Hemos decidido abrir el código de Voice-Pro.
  • Voice-Pro es completamente gratuito y es compatible con Windows, Mac, Linux.
  • WeConnect es una aplicación para el intercambio cultural global.
  • Conecta con personas de todo el mundo para intercambios culturales significativos, aprendizaje de idiomas y amistades internacionales.

ScreenShot 0 ScreenShot 1 ScreenShot 2 ScreenShot 3 ScreenShot 4

version 3.1
Versión 3.0
  • 🔥 Se eliminó la función AI Cover.
  • 🚀 Se añadió soporte para m-bain/whisperX.
Versión 2.0
  • 🐍 Construido con Python 3.10.15, Torch 2.5.1+cu124 y Gradio 5.14.0.
  • 🆓 La prueba gratuita soporta medios de hasta 60 segundos de duración.
  • 🔥 Se añadió la función AI Cover.
  • 🎤 Se introdujo soporte para CosyVoice y kokoro.
  • ⏳ La primera ejecución descarga CozyVoice2-0.5B (9GB), lo que puede tomar más de una hora dependiendo de la velocidad de la red.
  • 🎧 Las muestras de voz para clonación se actualizarán continuamente.
  • 📝 Se añadió spaCy para traducción y TTS natural por frases.
  • ☁️ La versión de suscripción incluye el traductor y TTS de Microsoft Azure.
  • 🏪 La versión de suscripción ofrece uso ilimitado (sin límite de 60 segundos) durante el período de suscripción y se puede comprar en Shopify.

🎥 YouTube Showcase

Demo Video 1
Demo for Voice-Pro (v2.0)
Demo Video 2
F5-TTS: Voice Cloning
Demo Video 3
Live Transcription & Translation
Demo Video 4
Multi-Lingual Voice Cloning: Korean - German
Demo Video 5
Multi-Lingual Voice Cloning: English - Korean
Demo Video 6
Multi-Lingual Voice Cloning: Korean - Japanese
Demo Video 7
NVIDIA RTX Video Super-Resolution
Demo Video 8
AI Karaoke
Demo Video 5
Multi-Lingual Voice Cloning: English - Korean

⭐ Características principales

1. Estudio de doblaje

  • Descarga de videos de YouTube y extracción de audio
  • Separación de voces con Demucs
  • Soporta más de 100 idiomas para reconocimiento y traducción de voz

2. Tecnologías de voz

  • Voz a texto: Whisper, Faster-Whisper, Whisper-Timestamped, WhisperX
  • Texto a voz:
    • Edge-TTS: Más de 100 idiomas, 400+ voces
    • E2-TTS, F5-TTS, CosyVoice: Clonación sin entrenamiento previo
    • kokoro: Clasificado #2 en la Arena TTS de HuggingFace

3. Traducción en tiempo real

  • Reconocimiento instantáneo de voz
  • Traducción multilingüe en tiempo real
  • Entradas de audio personalizables

🤖 Interfaz Web

Pestaña Estudio de Doblaje

  • Centro integrado: Descargas de YouTube, eliminación de ruido, subtítulos, traducción y TTS
  • Soporta todos los formatos compatibles con ffmpeg
  • Opciones de salida: WAV, FLAC, MP3
  • Subtítulos y reconocimiento para más de 100 idiomas
  • TTS con ajustes de velocidad, volumen y tono

Interfaz Web de Conversión de Voz Multilingüe y Generación de Subtítulos

Pestaña Subtítulos Whisper

  • Enfocada en subtítulos: Más de 90 idiomas
  • Visualización de subtítulos integrada con video
  • Resaltado por palabra y opciones de eliminación de ruido

Pestaña Traducción

  • Traducción a más de 100 idiomas
  • Soporte para archivos de subtítulos (ASS, SSA, SRT, etc.)
  • Reconocimiento y traducción de voz en tiempo real

Interfaz Web para Reconocimiento de Voz y Traducción en Tiempo Real

Pestaña Generación de Voz

  • Opciones: Edge-TTS, F5-TTS, CosyVoice, kokoro
  • Podcasts con voces de celebridades y soporte multilingüe

Interfaz Web para Producción de Podcasts usando Tecnología de Clonación de Voz

🎤✨ Voz de referencia

  • Por favor, solicite la voz que desea agregar en la página de Issues. Issues
English

Andrew Bustamante

Andrew Huberman

Avi Loeb

Ben Shapiro

Brett Johnson

Brian Keating

Coffeezilla

Dan Carlin

David Buss

David Fravor

David Kipping

Dennis Whyte

Donald Hoffman

Donald Trump

Douglas Murray

Duncan Trussell

Elon Musk

Garry Nolan

Jack Barsky

James Sexton

Jeff Bezos

Joe Rogan

John Mearsheimer

Jordan Peterson

Kanye 'Ye' West

Mark Zuckerberg

Michael Levin

Michael Saylor

Michio Kaku

MrBeast

Nick Lane

Paul Rosolie

Ryan Graves

Sam Altman

Sam Harris

Stephen Wolfram

Tucker Carlson

Vitalik Buterin

Yuval Harari
Chinese

迪丽热巴 (Dílì Rèbā)

蔡依林 (Cài Yīlín)

吴亦凡 (Wú Yìfán)

李易峰 (Lǐ Yìfēng)

杨幂 (Yáng Mì)

赵丽颖 (Zhào Lìyǐng)
Korean

BTS 진 (Jin)

BTS RM

IU (아이유)

이병헌

이정재

유재석
Japanese

綾瀬はるか (Ayase Haruka)

💻 Requisitos del Sistema

  • SO: Windows 10/11 (64 bits), Linux, Mac
  • GPU: NVIDIA con soporte CUDA 12.4 (recomendado)
  • VRAM: 4 GB o más (8 GB+ preferible)
  • RAM: 4 GB o más
  • Almacenamiento: Al menos 20 GB de espacio libre
  • Internet: Requerido

📀 Instalación

Instala Voice-Pro fácilmente con configure.bat y start.bat (usa configure.sh y start.sh en Mac/Linux).

1. Preparación del Paquete

  • Descarga la versión más reciente en GitHub Release (Source code (zip))
git clone https://github.com/abus-aikorea/voice-pro.git

2. Instalación y Ejecución

  1. 🚀 configure.bat
    • Instala git, ffmpeg y CUDA (si usas GPU NVIDIA)
    • Ejecútalo solo una vez; requiere internet, puede tomar más de 1 hora
    • No cierres la ventana de comandos
  2. 🚀 start.bat
    • Inicia la interfaz web de Voice-Pro
    • En la primera ejecución, instala dependencias (puede tomar más de 1 hora)
    • En caso de problemas, elimina installer_files y ejecuta de nuevo

3. Actualización

  • 🚀 update.bat: Actualiza el entorno Python (más rápido que reinstalar)

4. Desinstalación

  • Ejecuta uninstall.bat o elimina la carpeta (instalación portátil)

❓ Consejos de Uso

Si el navegador no se abre automáticamente

  • Cierra la ventana de comandos de Windows y ejecuta start.bat nuevamente
  • Abre el navegador manualmente e introduce la dirección mostrada en la ventana de comandos (ej.: http://127.0.0.1:7870)

Si ocurre un error CUDA Out-of-Memory

  • Verifica el estado de la memoria GPU en el Administrador de Tareas de Windows - pestaña "Rendimiento"
  • Configura el nivel de eliminación de ruido en 0 o 1 (el nivel 2 requiere al menos 8 GB de memoria GPU)
  • Establece el tipo de cálculo en "int" (el tipo "float" ofrece mejor calidad, pero requiere más memoria GPU)

¿Cómo mejorar la calidad de los subtítulos?

  • Los modelos Whisper más grandes tienden a mejorar la calidad de los subtítulos (large > medium > small > base > tiny), pero no siempre es así
  • Entre los tipos de cálculo, "float" ofrece buen rendimiento; "int" reduce el uso de GPU y aumenta la velocidad mediante cuantización del modelo, pero con pérdida de rendimiento
  • Aumentar el nivel de eliminación de ruido elimina más sonidos de fondo y usa solo la voz restante para el reconocimiento, pero no siempre garantiza mejores resultados

🚨 Aviso

  • Debido al trabajo de desarrollo de WeConnect, no habrá actualizaciones de Voice-Pro por el momento.
  • Todo el código de Voice-Pro ha sido publicado como código abierto. Ahora es completamente gratuito de usar.
  • WeConnect es una plataforma de comunicación para el intercambio cultural global.

⏳ Plataformas SaaS para Subtitulado, Traducción y TTS

La siguiente tabla enumera las plataformas SaaS que admiten funciones de subtitulado, traducción y conversión de texto a voz (TTS/doblaje). Los costos se calcularon para procesar un video en coreano de 60 minutos, incluyendo la generación de subtítulos, traducción al inglés y doblaje en inglés, basados en los datos de precios más recientes al 15 de abril de 2025.

Plataforma Subtitulado Traducción TTS/Doblaje Costo para Video de 60 min (USD, aprox.) Características Principales
Maestra $23.70 Más de 125 idiomas, subtítulos en tiempo real, extracción de palabras clave SEO, prueba gratuita de 15 min.
Kapwing $30~$40 (Plan Pro, por minuto) Subtítulos por IA, traducción a más de 100 idiomas, doblaje con sincronización labial automática, nivel gratuito.
VEED.IO $24~$36 (Plan Pro, procesamiento parcial) Subtítulos con 99.9% de precisión, subtítulos optimizados para Instagram, editor intuitivo.
HappyScribe $36~$48 (Pago por uso) Más de 120 idiomas, opción de corrección profesional, seguro, transcripción de reuniones.
Sonix $30~$40 (Plan Estándar) Más de 54 idiomas, 30 min de transcripción gratuita, integración con YouTube/Zoom.
Descript $36~$48 (Plan Creador) Edición basada en texto, Overdub TTS, eliminación de palabras de relleno, 1 hora de transcripción gratuita.
AppTek Precios personalizados (Contactar) Enfocado en medios, modelos personalizados, generación de metadatos, Workbench basado en la nube.
Transkriptor $12~$18 (Pago por uso) Más de 100 idiomas, transcripción desde enlaces de YouTube, 99% de precisión, editor simple.

Detalles del Cálculo de Costos

  • Maestra: Plan Premium ($158/mes, 1200 créditos). Video de 60 min: 60 créditos (subtítulos) + 60 créditos (traducción) + 60 créditos (doblaje) = 180 créditos. Costo = (180/1200) * $158 = $23.70.
  • Kapwing: Plan Pro (~$24/mes, minutos limitados). Estimado $0.50~$0.67/min para subtítulos+traducción+doblaje (basado en tendencias de precios por minuto). Costo de 60 min: $30~$40. Se requiere confirmación de precios exactos.
  • VEED.IO: Plan Pro (~$24/mes). Subtítulos+traducción estimados en $0.40~$0.60/min. Sin TTS, procesamiento parcial. Costo de 60 min: $24~$36. Confirme en veed.io.
  • HappyScribe: Pago por uso (~$0.20/min transcripción, $0.20 traducción, $0.20 doblaje). Costo de 60 min: $36~$48 (suponiendo servicios combinados). Confirme en happyscribe.com.
  • Sonix: Plan Estándar (~$10/hora transcripción, adicional para traducción/doblaje). Estimado $0.50~$0.67/min total. Costo de 60 min: $30~$40. Confirme en sonix.ai.
  • Descript: Plan Creador (~$24/mes, horas limitadas). Estimado $0.60~$0.80/min para subtítulos+traducción+doblaje. Costo de 60 min: $36~$48. Confirme en descript.com.
  • AppTek: Precios personalizados para empresas. Sin tarifas públicas por minuto. Contacte a apptek.ai para cotizaciones.
  • Transkriptor: Pago por uso ($0.05~$0.10/min transcripción, similar para traducción). Sin TTS, procesamiento parcial. Costo de 60 min: $12~$18. Confirme en transkriptor.com.

Notas

  • Costo para Video de 60 min: Los costos son aproximados y asumen el procesamiento de un video en coreano de 60 minutos para subtítulos, traducción al inglés y doblaje en inglés (donde esté disponible). Las plataformas sin TTS (p. ej., VEED.IO, Transkriptor) reflejan costos de procesamiento parcial.
  • Soporte de Idiomas: La mayoría de las plataformas admiten coreano e inglés. Verifique la disponibilidad de idiomas específicos en sus sitios web.
  • Casos de Uso:
    • Medios/Entretenimiento: AppTek, Maestra
    • Redes Sociales: Kapwing, VEED.IO
    • Podcasts/Entrevistas: Sonix, Descript
    • E-learning/Contenido Global: Transkriptor, HappyScribe
  • Actualizaciones de Precios: Los precios pueden variar debido a cambios en los planes o promociones. Consulte los sitios web oficiales para obtener detalles actualizados.
  • Para contribuciones o recomendaciones de casos de uso específicos, abra un issue o envíe un pull request en este repositorio.

☕ Contribuciones

Hola, soy David del equipo de Voice-Pro. Nuestro equipo descubre las mejores tecnologías de IA de la industria y las proporciona para que cualquiera pueda usarlas de manera fácil y conveniente. Somos una pequeña startup en Corea que solo lleva un año en funcionamiento. Estamos trabajando arduamente para ayudarlos a usted y a otros creadores a producir contenido excelente.

Su reseña de ⭐⭐⭐⭐⭐ sería muy apreciada, ya que ayuda a que nuestro negocio crezca con usted. Por favor, ayude a apoyar a nuestro pequeño equipo.

Gracias, Servicio al Cliente de ABUS

  • Si desea participar y ayudarnos con este proyecto, no dude en crear un Issues.
  • Si algo sale mal, envíe un Pull requests para mejorar este proyecto.
  • Cualquier tipo de contribución es bienvenida.
  • Para consultas relacionadas con compras, asociaciones comerciales, ajustes técnicos, inversiones y otros asuntos, contáctenos por correo electrónico (abus.aikorea@gmail.com).
  • Si le gusta este proyecto, por favor, marque este repositorio con una estrella. Lo agradeceríamos mucho. ⭐⭐⭐
  • Puede apoyar a Voice-Pro con una donación aquí:
Buy Me a Coffee

📬 Contacto

🙏 Créditos

©️ Derechos de Autor

por ABUS