Publicidad

OpenAI presenta una nueva función para integrar la voz de ChatGPT en cualquier app

La compañía líder en inteligencia artificial intensifica los esfuerzos en convertir de una manera más natural la interacción de la tecnología con sus usuarios.

03 de octubre de 2024 - 06:04 p. m.
The OpenAI logo on a smartphone arranged in the Brooklyn borough of New York, US, on Thursday, Jan. 12, 2023. Microsoft Corp. is in discussions to invest as much as $10 billion in OpenAI, the creator of viral artificial intelligence bot ChatGPT, according to people familiar with its plans. Photographer: Gabby Jones/Bloomberg
The OpenAI logo on a smartphone arranged in the Brooklyn borough of New York, US, on Thursday, Jan. 12, 2023. Microsoft Corp. is in discussions to invest as much as $10 billion in OpenAI, the creator of viral artificial intelligence bot ChatGPT, according to people familiar with its plans. Photographer: Gabby Jones/Bloomberg
Foto: Bloomberg - Gabby Jones
Resume e infórmame rápido

Escucha este artículo

Audio generado con IA de Google

0:00

/

0:00

La nueva Realtime API es una herramienta que permite a los desarrolladores integrar un asistente de voz, similar al Modo de Voz Avanzado de ChatGPT, en cualquier aplicación que estén creando. Con esta API, es posible incorporar conversaciones de voz de manera fluida en diferentes tipos de apps y, además, ejecutar acciones específicas de forma rápida, gracias a su baja latencia.

Lo interesante es que la API no solo admite voz como entrada y salida, sino que en el futuro se planea ampliar su funcionalidad para que también soporte video y visión. Sin embargo, OpenAI no ha establecido fechas específicas para estas futuras actualizaciones.

Antes, para crear un asistente de voz, los desarrolladores debían usar varios modelos por separado: uno para convertir el audio en texto, otro para entender el texto y un tercero para convertir el texto en voz nuevamente. Este proceso, además de ser más lento, perdía detalles importantes como la emoción o el énfasis en la voz.

Con la API de Chat Completions, todo esto se puede hacer con una sola instrucción, aunque sigue siendo un poco más lenta que una conversación humana. La API en tiempo real mejora aún más este proceso, ya que transmite directamente el audio de entrada y salida, haciendo que las conversaciones sean más naturales y fluidas. Además, puede gestionar interrupciones automáticamente.

Le podría interesar: Antivirus para celular: cómo descargarlos y sus beneficios

Los Chat Completions de OpenAI son una característica que permite a los modelos de lenguaje de ChatGPT generar texto de manera más natural y conversacional.

El objetivo principal de la Realtime API es hacer más fácil la integración de asistentes de voz en aplicaciones creadas por terceros. Al igual que el Modo de Voz Avanzado de ChatGPT, esta API permite a los desarrolladores elegir entre varias voces y ofrece la opción de interrumpir una respuesta sin que el asistente pierda el hilo de la conversación.

Una de las características más innovadoras de la nueva herramienta es la integración con function calling, la cual permite activar acciones dentro de una aplicación. Esto es especialmente útil en casos como atención al cliente o en aplicaciones educativas que necesitan una interacción más fluida. Por ejemplo, OpenAI mencionó el uso de esta API en Speak, una app de aprendizaje de idiomas que utiliza el asistente de voz para corregir la pronunciación a través de ejercicios interactivos.

En cuanto a seguridad y privacidad, la empresa deja claro que está prohibido usar esta tecnología para engañar a las personas o hacer spam, y exige que los desarrolladores informen a los usuarios que están interactuando con una IA y no con una persona real.

Funciones de voz avanzada en ChatGPT

OpenAI comenzó a implementar el Modo de Voz Avanzado para usuarios de ChatGPT Plus y Teams, permitiendo una interacción más natural con la inteligencia artificial. Este modo incorpora “emociones y señales no verbales” según indicó la compañía, lo que convierte las conversaciones de una forma más cercana y humana. Sin embargo, esta función aún no está disponible en la Unión Europea ni en varios países como, Suiza, Islandia, Noruega y Liechtenstein.

Aunque la compañía inicialmente planeó lanzar el Modo de Voz Avanzado en julio de este año, retrasaron su despliegue para garantizar altos estándares de seguridad y fiabilidad. Desde el 24 de septiembre, está disponible para todos los usuarios de suscripción. Además, quienes utilicen la aplicación en iOS o Android de forma gratuita, tienen la oportunidad de probar un adelanto de las conversaciones en tiempo real y fluida con la IA.

Le recomendamos leer: Detección de emociones: la apuesta de los nuevos relojes inteligentes de Huawei

El GPT-4o, presentado en mayo de este año, es el modelo que potencia esta función. Esta versión fue diseñada para entender y procesar entradas de texto, audio e imágenes de manera combinada, y generar respuestas con gran velocidad. Además, incluye la posibilidad de elegir entre varias voces para personalizar la experiencia del usuario.

Cambios en la organización de la compañía

Mira Murati, quien fue la directora de tecnología de OpenAI, decidió dejar la compañía a finales de septiembre de este año. Según su declaración, tomó esta decisión después de una profunda reflexión, con el objetivo de explorar nuevos horizontes y dedicar tiempo a proyectos personales. La salida se produjo, aparentemente de manera amistosa, junto con otros dos ejecutivos de alto nivel. Aunque su marcha fue repentina, Sam Altman, CEO de la compañía, expresó su agradecimiento por su contribución.

En medio de la ola de renuncias, la compañía está considerando una reestructuración significativa. La empresa está discutiendo otorgar a Altman, una participación del 7 % en la compañía, lo que marcaría la primera vez que recibe propiedad en la startup. Además, evalúa convertirse en una corporación de beneficio público, lo que permitiría combinar su enfoque en generar ganancias con el objetivo de contribuir positivamente a la sociedad. Aún no hay un cronograma definido para esta transición.

Por otra parte, la empresa cerró una ronda de financiación de USD $157.000 millones, convirtiéndola en una de las tres startups más grandes del mundo junto a SpaceX y ByteDance. La ronda fue liderada por Thrive Capital, con la participación de Microsoft, Nvidia y otros grandes inversionistas globales como SoftBank y MGX. La inversión destaca la creciente confianza en el poder de la inteligencia artificial en la actualidad.

👽👽👽 ¿Ya está enterado de las últimas noticias de tecnología? Lo invitamos a visitar nuestra sección en El Espectador.

Temas recomendados:

 

Sin comentarios aún. Suscribete e inicia la conversación
Este portal es propiedad de Comunican S.A. y utiliza cookies. Si continúas navegando, consideramos que aceptas su uso, de acuerdo con esta  política.
Aceptar