Contacta con nosotros

Temario del curso

Introducción a la síntesis de voz y la clonación de voz

  • Descripción general de la síntesis de texto a voz (TTS) y la síntesis de voz neural.
  • Clonación de voz frente a generación de discurso: casos de uso y límites.
  • Modelos clave: Tacotron, WaveNet, FastSpeech, VITS.

Trabajo con plataformas comerciales

  • Uso de ElevenLabs y Resemble AI.
  • Creación, clonación y edición de voces.
  • Acceso a la API y flujos de trabajo de texto a voz.

Desarrollo con herramientas de código abierto

  • Instalación y configuración de Coqui TTS.
  • Entrenamiento de voces personalizadas y gestión de conjuntos de datos.
  • Generación de discurso con control fino (tono, velocidad, emoción).

Preparación de datos y gestión de conjuntos de datos vocales

  • Recopilación y limpieza de muestras de voz.
  • Segmentación, etiquetado y alineación de transcripciones.
  • Obtención ética de datos y consentimiento para el uso de la voz.

Integración en aplicaciones

  • Incorporación de TTS en sitios web y aplicaciones.
  • Creación de sistemas IVR y bots interactivos.
  • Generación de diálogos sintéticos para videojuegos y producciones audiovisuales.

Evaluación de la calidad y el realismo

  • Pruebas de MOS (Puntuación Media de Opinión) e inteligibilidad.
  • Control de expresividad y prosodia.
  • Comparación de latencia, fidelidad y realismo.

Consideraciones éticas, legales y de gobernanza

  • Riesgos de deepfake y uso responsable.
  • Implicaciones relacionadas con el consentimiento, la atribución y los derechos de autor.
  • Regulaciones y políticas organizacionales.

Resumen y próximos pasos

Requerimientos

  • Comprensión de los fundamentos del aprendizaje automático.
  • Familiaridad con formatos de archivos de audio y herramientas de edición.
  • Habilidades básicas de programación en Python.

Audiencia objetivo

  • Desarrolladores e ingenieros de IA interesados en la síntesis de voz.
  • Creadores de contenido y tecnólogos de medios que exploran la generación de voz.
  • Equipos de I+D que construyen sistemas de audio personalizados o dinámicos.
 14 Horas

Número de participantes


Precio por participante

Próximos cursos

Categorías Relacionadas