OpenAI lanza dispositivo de audio capaz de clonar voces humanas | Tecnología

Clona la voz humana de forma fiable con una rueda de hasta 15 segundos. Esto es lo que representa la última arma de IA creada por OpenAI, la empresa que destruyó el mundo con ChatGPT, su programa de lenguaje generativo de IA.

“Compartí información y resultados preliminares de una vista anterior a pequeña escala de un modelo llamado Voice Engine, que utiliza texto y una única pantalla de audio de 15 segundos para generar una conversación natural que suena muy original. Es destacable que un modelo pequeño con sólo un espectáculo de 15 segundos pueda crear voces emocionalmente realistas”, indicó la compañía que preside Sam Altman en un comunicado.

Todo lo que tienes que hacerle al usuario es traerle este programa. Una vez que tengas el programa Voice Engine, podrás hacer que lea el timbre y el tono de esa voz en cualquier texto que te resulte fácil. El texto no está seguro debe estar en el mismo idioma. Un hispanohablante puede facilitar la visualización de su idioma y luego pedirle al programa que lea un texto en inglés, chino u otros idiomas con su voz.

También puedes usarlo directamente para la traducción de audio. Además, cuando se utiliza para traducir, Voice Engine conserva el acento nativo del discurso original: por ejemplo, al generar inglés con una muestra de audio de un hablante francés, produce una conversación de cien francos.

Uso restrictivo

Actualmente, la compañía prefiere lanzarse a pequeña escala para facilitar el acceso generalizado a los equipos, como hizo con ChatGPT, por lo que es consciente del riesgo de sustitución de identidad. Con el equipo, basta con agarrarle 15 segundos a alguien para hacerse con su voz.

«Estamos adoptando un enfoque cuidadoso e informado antes de una implementación más amplia debido a la posibilidad de que se utilicen indebidamente las voces sintéticas», indica OpenAI. “Esperamos iniciar un diálogo sobre la exposición responsable a voces sintéticas y cómo la sociedad puede adaptarse a estas nuevas capacidades. En base a estas conversaciones y a los resultados de estas pruebas a pequeña escala, tomaremos una decisión más informada sobre si utilizar esta tecnología a gran escala y cómo hacerlo”, añade.

OpenAI considera que antes de generalizar el acceso a nuevos equipos es necesario tomar decisiones sobre una serie de aspectos. Por ejemplo, es necesario eliminar gradualmente la autenticación de voz como medida de seguridad para acceder a cuentas bancarias y otra información confidencial, ya que no debería ser segura.

También consideramos necesario explorar políticas para proteger el uso de las voces de los individuos en la inteligencia artificial. El riesgo de manipulación y desinformación es particularmente pronunciado en el caso de figuras públicas, incluidos los políticos.

Para él, también debemos enseñar al público a comprender las capacidades y limitaciones de las tecnologías de IA, incluida la posibilidad de interactuar con contenidos de IA.

La otra propuesta a poner sobre la mesa consiste en acelerar el desarrollo y la adopción de técnicas para reconstruir el origen de los contenidos audiovisuales, de modo que siempre quede claro cuándo se está interactuando con una persona real o con una IA.

“Es importante que la gente de todo el mundo comprenda hacia dónde se dirige esta tecnología, ya sea que finalmente la implementemos ampliamente o no. Esperamos seguir la participación en conversaciones sobre las respuestas y oportunidades de las voces sintéticas con formuladores de políticas, investigadores, desarrolladores y creativos”, concluye OpenAI.

En su carrera de innovaciones, OpenAI ha lanzado herramientas no sólo en lenguaje, sino también en generación de imágenes y videos. El mes pasado presentó Sora, una revolucionaria herramienta de vídeo que solo necesitaba texto para crear un vídeo corto con el contenido y estilo requeridos.

Puedes seguir en EL PAÍS Tecnología es FacebookX o escribe aquí para recibirnos boletín periódico.