Publicidad

Así es la herramienta de audio de OpenAI que puede replicar voces humanas

La empresa matriz de ChatGPT desarrolló un programa de inteligencia artificial para clonar voces con solo 15 segundos de muestra

02 de abril de 2024 - 07:51 p. m.
La empresa matriz de ChatGPT desarrolló un programa de inteligencia artificial para clonar voces con solo 15 segundos de muestra
La empresa matriz de ChatGPT desarrolló un programa de inteligencia artificial para clonar voces con solo 15 segundos de muestra
Foto: EFE - WU HAO
Resume e infórmame rápido

Escucha este artículo

Audio generado con IA de Google

0:00

/

0:00

OpenAI ha sido una de las compañías líderes en el desarrollo de tecnologías de inteligencia artificial. La aparición de su producto ChatGPT, revolucionó el mundo tecnológico y se mantiene como una de las IA generativas más populares del mercado.

La empresa estadounidense continúa trabajando en nuevas aplicaciones y modelos de inteligencia artificial y recientemente ha decidido incursionar en el campo de las voces sintéticas. Se trata de un proyecto que vienen trabajando desde 2022, enfocado en otras funciones, como en la lectura de texto de ChatGPT Voice, según explicó en el comunicado de presentación el pasado 29 de marzo

Voice Engine, nombre del programa de voz sintética, trabaja utilizando texto y una única muestra de audio de 15 segundos para generar el habla natural casi idéntico a la voz del audio original “OpenAI está comprometida con el desarrollo de una IA segura y ampliamente beneficiosa. Hoy compartimos información y resultados preliminares de una vista previa a pequeña escala... Es notable que un modelo pequeño con una sola muestra de 15 segundos pueda crear voces emotivas y realistas”, aseguró la empresa en su página web.

Le puede interesar: ¿Lo robaron por Nequi o Daviplata?

Como afirman en su presentación, sigue siendo un modelo preliminar y en fase de prueba. Con el proyecto, desarrollaron un enfoque investigativo, con la intención de analizar los potenciales usos de esta tecnología. En su propósito de probar sus funciones en espacios seguros, han dispuesto de una versión beta para socios de confianza de la compañía. “Basándonos en estas conversaciones y en los resultados de estas pruebas a pequeña escala, tomaremos una decisión más informada sobre si desplegar esta tecnología a gran escala y cómo hacerlo”, afirmó OpenAI.

Primeras aplicaciones de Voice Engine

Entre los socios de confianza que han tenido acceso preliminar a Voice Engine, se encuentran empresas tecnológicas de diferentes campos que han utilizado la clonación de voz. De acuerdo con OpenAI, los primeros resultados los han “impresionado” y han compartido alguno de los ejemplos donde se pusieron a prueba:

  • Asistencia en la lectura: La herramienta ayuda a la lectura a los niños y personas que no saben leer con la aplicación de voces más naturales y emotivas que logren generar una conexión más cercana con las personas que la que ofrecen las voces genéricas preestablecidas.
  • Traducciones de contenido: Con productos como videos o pódcast, el Voice Engine puede traducir los contenidos de creadores o empresas para lograr un mayor alcance en su audiencia, con sus propias voces y fluidez. La aplicación mantiene el acento nativo de la muestra original, es decir, que si un inglés utiliza la herramienta para recrear el contenido en español, mantendrá su acento inglés.
  • Aumentar el alcance global: Mejorar la calidad de la presentación de servicios esenciales en cualquier parte del mundo con la implementación de las tecnologías de GPT-4 y Voice Engine para ofrecer la información más interactiva en la lengua materna de cada persona.
  • Apoyo a personas no verbales: La utilización de Voice Engine ofrece a las personas con limitaciones en el habla, estilos de voces no robóticas y en varios idiomas. Los usuarios podrán el elegir con base en sus preferencias y en comunicación con otro idioma, les facilita mantener una voz coherente en los diferentes idiomas.

Los peligros de un programa de clonación de voz

Clonar o replicar una voz amigable puede tener connotaciones negativas. Las estafas telefónicas más comunes implican alegatos de familiares o instituciones bancarias que intentan engañar al usuario para que comparta información personal o realice transferencias sin su consentimiento genuino.

En el contexto actual, consideremos qué sucedería si recibimos una llamada con la voz idéntica a la de un familiar o amigo cercano. Es probable que las tasas de estafa aumenten significativamente, especialmente dada la empatía y familiaridad que pueden generar este tipo de herramientas emergentes. Esta problemática es parte del mundo de los deepfakes, un concepto que abarca la manipulación de imágenes, videos y voz con el propósito de generar contenido malicioso.

En su informe anual del panorama actual de la ciberseguridad en el mundo, la empresa Kaspersky pronostica que los contenidos alterados serán un anzuelo recurrente para sus estafas con la ayuda de la tecnología. Aseguran que una de las situaciones que más incremento tendrán son los deepfakes de voz: “Las llamadas o notas de con la alteración de voz serán una práctica muy común para engañar y obtener información o dinero de las víctimas”.

Fabio Assolini, director de investigación y análisis de Kaspersky en América Latina, afirmó en el informe que ahora la IA está al alcance de todos: “Lo novedoso es que este tipo de estafas ya no son costosas, estas herramientas están disponibles de forma gratuita”. En caso de que herramientas, como Voice Engine, aumenten su distribución en la sociedad, aumentara el riesgo de ser víctima.

En el mismo informe, agrega Isabel Manjarrés, investigadora de seguridad del equipo de investigación y análisis, que “nos enfrentamos a un escenario de manipulación digital avanzada que compromete la verdad, y nos exige a todos ser conscientes de este fenómeno. En un mundo donde la línea entre la realidad y la ficción digital es cada vez más difusa, debemos consumir los contenidos digitales con responsabilidad, siendo cuidadosos de lo que leemos o escuchamos, y evitando promover la desinformación, compartiendo noticias, videos y audios falsos”

Le recomendamos leer: El fenómeno deepfakes: una revolución tecnológica que amenaza la verdad

Desde OpenAI, decidieron tomar el anuncio con las medidas cautelares necesarias. La implementación a través de los socios que tuvieron acceso se llevó a cabo con políticas de uso que prohíben suplantar la identidad de otras personas u organizaciones sin el consentimiento legal. Asimismo, las normas indican que los socios deben exigir el consentimiento explícito de las personas que realicen las muestras originales e informar a la audiencia cuando los audios reproducidos son generados por IA.

Además de los requisitos legales y de consentimiento, la empresa anunció que los audios generados por Voice Engine tendrán marca de agua para rastrear su origen y poder monitorear su uso. OpenAI comentó: “Somos conscientes de que generar un discurso que se asemeje a las voces de la gente tiene graves riesgos, que son especialmente importantes en un año electoral. Estamos colaborando con socios estadounidenses e internacionales del gobierno, los medios de comunicación, el mundo del espectáculo, la educación, la sociedad civil y otros ámbitos para asegurarnos de que incorporamos sus comentarios a medida que avanzamos”.

👽👽👽 ¿Ya está enterado de las últimas noticias de tecnología? Lo invitamos a visitar nuestra sección en El Espectador.

Temas recomendados:

 

Sin comentarios aún. Suscribete e inicia la conversación
Este portal es propiedad de Comunican S.A. y utiliza cookies. Si continúas navegando, consideramos que aceptas su uso, de acuerdo con esta  política.
Aceptar