La IA de OpenAI solo necesita 15 segundos de audio para clonar una voz

Se han dado a conocer sus últimos avances en el terreno de la generación de voces sintéticas.

OpenAI ha revelado sus últimos avances en el terreno de la generación de voces sintéticas. La compañía ha compartido un comunicado donde explica cómo su sistema Voice Engine, mostrado por primera vez a finales de 2022, ahora es capaz de clonar cualquier voz con exactitud a partir de una muestra de audio de solo 15 segundos de duración.

Las demostraciones compartidas por la compañía son simplemente espectaculares. Voice Engine es capaz de generar voces ultra realistas partiendo de muestras breves, abriendo así la puerta a diferentes usos como asistencia a la lectura, traducción de contenido o ayuda a personas con problemas en el habla.

Voice Engine es capaz de clonar cualquier voz con muestras de 15 segundos de duración

Esta no es la primera vez que se ven sistemas basados en inteligencia artificial destinados a clonar voces a partir de muestras. Compañías como Meta ya habían mostrado anteriormente sus avances en este campo. Sin embargo, OpenAI ha sido capaz de ir un paso más allá y reducir drásticamente la duración del audio de referencia necesario para que la IA sea capaz de reproducir la voz de cualquier persona.

Su funcionamiento es (aparentemente) simple: el usuario solo tendría que proporcionar una grabación de voz de 15 segundos de duración y un texto. La IA será capaz de "clonar" la voz y narrar el contenido del texto de manera "realista y emotiva".

A continuación, se pueden escuchar algunas de las muestras compartidas por OpenAI de audios generados por Voice Engine, así como el audio de referencia usado por la IA para "clonar" la voz.

OpenAI valorará el posible impacto de esta tecnología antes de ofrecerla al público

La compañía liderada por Sam Altman es consciente de los riesgos que puede conllevar poner una tecnología de este tipo al alcance de cualquiera. Es por ello que insisten en seguir un "enfoque cauteloso e informado", y en analizar todos los riesgos que podría conllevar el uso indebido de esta tecnología. Al fin y al cabo, ya existen miles de estafas que emplean técnicas de clonación de voz para engañar a sus víctimas.

Por ello, de momento no se encuentra disponible de cara al público, y la compañía no ha revelado si planea lanzar esta herramienta como un servicio accesible a todo el mundo al estilo de ChatGPT. Aseguran que estas pruebas a pequeña escala servirán para tomar una decisión sobre si implementar esta tecnología en sus servicios.