Cómo funciona Sora, la apuesta de OpenAI para crear videos a partir de texto

Sora es un modelo impulsado por la Inteligencia Artificial generativa, capaz de crear videos realistas de hasta 60 segundos a partir de instrucciones de texto.

Foto: OpenAi

Resume e infórmame rápido

Escucha este artículo

Audio generado con IA de Google

0:00

El panorama dinámico de la inteligencia artificial continua cautivando al mundo con nuevos desarrollos tecnológicos. OpenAI y Google están en medio de una disputa sin precedentes para potenciar los niveles que la IA puede lograr. En estos nuevos avances, las empresas han presentado desarrollos que pueden ser significativos en esta nueva era.

Los gigantes tecnológicos anunciaron nuevas funciones en sus sistemas de inteligencia artificial que facilitarán y optimizarán sus servicios para los Usuarios. Open IA, con el respaldo de Microsoft, comunicó que está trabajando en un programa informático capaz de generar videos de un minuto de duración a partir de mensajes de texto.

Por su parte, Google presentó un nuevo modelo de inteligencia artificial en la que permite al usuario pedir análisis de mucho más contenido que en versiones anteriores.

Sora, de OpenAI

OpenAI presentó a Sora, su modelo impulsado por la Inteligencia Artificial generativa, capaz de crear videos realistas de hasta 60 segundos a partir de instrucciones de texto. El resultado sería detallado, movimientos de cámara complejos y personajes con varias emociones.

La empresa tecnológica continúa su avance en propulsar los modelos de IA, haciendo énfasis en colaborar a las personas a resolver problemas que requieran interacción con el mundo real. Por esa razón, OpenIA ha puesto sus esfuerzos en darle bases a la Inteligencia Artificial para comprender y simular el mundo físico.

Introducing Sora, our text-to-video model.

Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W

Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024

Para la ejecución de este nuevo programa, los usuarios solo deberán escribir una serie de indicaciones para detallar sus ideas de video, los personajes, sus acciones, el escenario, dirección de cámara o cualquier detalle que sea relevante para la construcción de la escena.

Tras el anunció a través de la plataforma X, La empresa tecnológica compartió una serie de ejemplos en los que muestra la instrucción en forma de texto, con el resultado del video generado por Sora. La instrucción en uno de los ejemplos es: “Varios mamuts lanudos gigantes se acercan pisando a través de un prado nevado, su largo pelaje lanudo sopla ligeramente en el viento mientras caminan, árboles cubiertos de nieve y dramáticas montañas nevadas en la distancia, la luz de media tarde con nubes difusas y un sol alto en la distancia crea un cálido resplandor, la vista de cámara baja es impresionante capturando al gran mamífero peludo con una hermosa fotografía, profundidad de campo”. El resultado es el siguiente:

Prompt: “Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance… pic.twitter.com/Um5CWI18nS
— OpenAI (@OpenAI) February 15, 2024

Otra de las ventajas que ofrece el modelo, según explico el CEO Sam Altman, es que puede llevar a cabo escenas tan precisas porque no solo comprende lo que el usuario solicita en sus indicaciones de texto, sino que también es capaz de comprender cómo existen esas cosas en el mundo físico.

Le recomendamos leer: Volt Typhoon: el grupo de hackers chinos que preocupa por ciberataques en EE.UU.

Por el momento, Sora solo estará en función para los miembros del equipo dedicado a la investigación del servicio, con la intención de ponerlo a prueba y comprobar fallos o posibles riesgos. Asimismo, está bajo la inspección de diseñadores, cineastas y artistas visuales para generar posibilidades de mejora, según anunció la compañía.

Con la problemática que se ha generado alrededor de los contenidos engañosos en internet, OepnAI ha subrayado que está tomando las medidas necesarias en materia de seguridad para implementarlas en Sora. Se trata de una serie de funciones que permitirán clasificar los videos generados por la IA para identificarlos con relación a los videos reales. Una de estas funciones es la implementación de metadatos de C2PA, el estándar que verifica el origen del contenido y la información relacionada.

Google invierte en el análisis de enormes contenidos en cuestión de segundos

La nueva actualización de Gemini 1.5, permitirá a los usuarios pedir a la IA de Google analicé mucho más contenidos que en las versiones pasadas. De acuerdo a la información dela compañía, podrá ser 30.000 líneas de código (o texto), 11 horas de audio y una hora de video en cuestión de segundos.

Today we're introducing Gemini 1.5, our next-generation AI model. It shows dramatically enhanced performance, including long-context understanding across modalities, which opens up new possibilities for people to create and build with AI → https://t.co/TjDy8GHIQS #GeminiAI pic.twitter.com/043FGirXB0
— Google (@Google) February 15, 2024

Gemini fue recientemente anunciando para remplazar el asistente de IA, Bard. Esta nueva actualización representa la creciente velocidad en la carrera por construir tecnología IA más capaz, que se está disputando tras los lanzamientos de OpenAI y otras compañías.

Gemini 1.5 funciona con la arquitectura Mixture-of-Experts (MoE), que divide el modelo en pequeñas redes neuronales que actúan como “expertas” y se activan de manera selectiva dependiendo del tipo de información introducida. Esto permite que Gemini 1.5 pueda aprender tareas complejas con mayor rapidez manteniendo la calidad, mientras su entrenamiento se vuelve más eficiente, como explica Google en su blog oficial.

Le recomendamos leer: Anuncio de Xbox: ¿Dejarán de fabricar consolas? Esto fue lo que dijo Phill Spencer

Según Sundar Pichai, CEO de la empresa, Google discutió internamente en cómo hacer para que un director de cine pueda pedirle a la IA que juzgara una versión de su película, como lo haría un crítico. “Este es solo uno de los casos del uso que estamos hablando en el equipo, el cielo es el límite”.

Todo esto se traduce en que el modelo tiene capacidades mejoradas de compresión y razonamiento; analiza, clasifica y resume grandes cantidades de contenido dentro de un mensaje determinado, como apuntan desde Google. Asimismo, puede realizar tareas de resolución de problemas más relevantes en bloques de código más largos.

👽👽👽 ¿Ya está enterado de las últimas noticias de tecnología? Lo invitamos a visitar nuestra sección en El Espectador.

Cómo funciona Sora, la apuesta de OpenAI para crear videos a partir de texto

En las últimas horas, OpenAI y Google han anunciado avances y desarrollos para sus servicios de Inteligencia artificial.

Escucha este artículo

Sora, de OpenAI

Google invierte en el análisis de enormes contenidos en cuestión de segundos

Por Redacción Tecnología

Temas recomendados:

OpenAI

Sora

Cómo funciona Sora

Inteligencia artificial

Gemini

Home

Cómo funciona Sora, la apuesta de OpenAI para crear videos a partir de texto

En las últimas horas, OpenAI y Google han anunciado avances y desarrollos para sus servicios de Inteligencia artificial.

Escucha este artículo

Sora, de OpenAI

Google invierte en el análisis de enormes contenidos en cuestión de segundos

Por Redacción Tecnología

Temas recomendados:

OpenAI

Sora

Cómo funciona Sora

Inteligencia artificial

Gemini