VALL-E, la nueva inteligencia artificial creada por Microsoft que imita tu voz con solo escucharte por tres segundos

Microsoft ha presentado VALL-E, una nueva inteligencia artificial que es capaz de reproducir la voz de cualquier usuario, de forma casi idéntica, y con solo escuchar por unos tres segundos puede imitar emociones, ambiente acústico y diferentes énfasis de las frases.

De acuerdo con un informe publicado en el sitio web de 20 Bits, la compañía de Redmond desarrolló su enfoque en el modelo de lenguaje para la síntesis de texto a voz (TTS por sus siglas en inglés, text to speech).

Desde Microsoft, aseguran: “VALL-E emerge capacidades de aprendizaje en contexto y se puede utilizar para sintetizar voz personalizada de alta calidad con solo una grabación registrada de tres segundos de un hablante”.

“Entrenamos un modelo de lenguaje de códec neuronal utilizando códigos discretos derivados de un modelo de códec de audio neuronal listo para usar, y consideramos TTS como una tarea de modelado de lenguaje condicional en lugar de una regresión de señal continua como en el trabajo anterior”, explican los expertos sobre el proceso de desarrollo.

“Durante la etapa previa al entrenamiento, escalamos los datos de entrenamiento de TTS a 60.000 horas de habla en inglés, lo que es cientos de veces más grande que los sistemas existentes”.

Compatibilidad con ChatGPT

Microsoft está trabajando para que VALL-E funcione con otros modelos de inteligencia artificial generativa, como GPT-3, lo que tiene mucho sentido ya que la empresa anunció que implementará ChatGPT en sus principales herramientas, como Bing.

En otras palabras, ChatGPT, el popular bot de redacción de textos, sería capaz de ofrecernos resultados de voz una vez haya integrado este modelo.

“Los resultados del experimento muestran que VALL-E supera significativamente al sistema de TTS de disparo cero de última generación en términos de naturalidad del habla y similitud del hablante. Además, encontramos que VALL-E podría preservar la emoción del hablante y el entorno acústico del mensaje acústico en síntesis”, comentaron desde Microsoft.

El sitio web de VALL-E ya está online a modo de demostración. Incluye la muestra original de la voz y las imitaciones, así como reproducciones en las que se puede notar cómo cambian el tono o las emociones.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Entrada siguiente

Ryan Reynolds pide a Inteligencia Artificial que escriba su nuevo anuncio comercial y esto es lo que sucede

Mié Ene 11 , 2023
La Inteligencia Artificial de ChatGPT ha sido utilizada por el actor Ryan Reynolds para que la plataforma imite su estilo y escriba el guion de su más reciente anuncio publicitario para Mint Mobile. Ryan Reynolds muy probablemente pasará a la historia de la cultura popular por ser el sujeto que […]

Puede que te guste

Chief Editor

Johny Watshon

Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur

Quick Links

Generated by Feedzy