Cómo funciona Sora, la apuesta de OpenAI para crear videos a partir de texto
En las últimas horas, OpenAI y Google han anunciado avances y desarrollos para sus servicios de Inteligencia artificial.
El panorama dinámico de la inteligencia artificial continua cautivando al mundo con nuevos desarrollos tecnológicos. OpenAI y Google están en medio de una disputa sin precedentes para potenciar los niveles que la IA puede lograr. En estos nuevos avances, las empresas han presentado desarrollos que pueden ser significativos en esta nueva era.
Los gigantes tecnológicos anunciaron nuevas funciones en sus sistemas de inteligencia artificial que facilitarán y optimizarán sus servicios para los Usuarios. Open IA, con el respaldo de Microsoft, comunicó que está trabajando en un programa informático capaz de generar videos de un minuto de duración a partir de mensajes de texto.
Por su parte, Google presentó un nuevo modelo de inteligencia artificial en la que permite al usuario pedir análisis de mucho más contenido que en versiones anteriores.
Sora, de OpenAI
OpenAI presentó a Sora, su modelo impulsado por la Inteligencia Artificial generativa, capaz de crear videos realistas de hasta 60 segundos a partir de instrucciones de texto. El resultado sería detallado, movimientos de cámara complejos y personajes con varias emociones.
La empresa tecnológica continúa su avance en propulsar los modelos de IA, haciendo énfasis en colaborar a las personas a resolver problemas que requieran interacción con el mundo real. Por esa razón, OpenIA ha puesto sus esfuerzos en darle bases a la Inteligencia Artificial para comprender y simular el mundo físico.
Para la ejecución de este nuevo programa, los usuarios solo deberán escribir una serie de indicaciones para detallar sus ideas de video, los personajes, sus acciones, el escenario, dirección de cámara o cualquier detalle que sea relevante para la construcción de la escena.
Tras el anunció a través de la plataforma X, La empresa tecnológica compartió una serie de ejemplos en los que muestra la instrucción en forma de texto, con el resultado del video generado por Sora. La instrucción en uno de los ejemplos es: “Varios mamuts lanudos gigantes se acercan pisando a través de un prado nevado, su largo pelaje lanudo sopla ligeramente en el viento mientras caminan, árboles cubiertos de nieve y dramáticas montañas nevadas en la distancia, la luz de media tarde con nubes difusas y un sol alto en la distancia crea un cálido resplandor, la vista de cámara baja es impresionante capturando al gran mamífero peludo con una hermosa fotografía, profundidad de campo”. El resultado es el siguiente:
Otra de las ventajas que ofrece el modelo, según explico el CEO Sam Altman, es que puede llevar a cabo escenas tan precisas porque no solo comprende lo que el usuario solicita en sus indicaciones de texto, sino que también es capaz de comprender cómo existen esas cosas en el mundo físico.
Le recomendamos leer: Volt Typhoon: el grupo de hackers chinos que preocupa por ciberataques en EE.UU.
Por el momento, Sora solo estará en función para los miembros del equipo dedicado a la investigación del servicio, con la intención de ponerlo a prueba y comprobar fallos o posibles riesgos. Asimismo, está bajo la inspección de diseñadores, cineastas y artistas visuales para generar posibilidades de mejora, según anunció la compañía.
Con la problemática que se ha generado alrededor de los contenidos engañosos en internet, OepnAI ha subrayado que está tomando las medidas necesarias en materia de seguridad para implementarlas en Sora. Se trata de una serie de funciones que permitirán clasificar los videos generados por la IA para identificarlos con relación a los videos reales. Una de estas funciones es la implementación de metadatos de C2PA, el estándar que verifica el origen del contenido y la información relacionada.
Google invierte en el análisis de enormes contenidos en cuestión de segundos
La nueva actualización de Gemini 1.5, permitirá a los usuarios pedir a la IA de Google analicé mucho más contenidos que en las versiones pasadas. De acuerdo a la información dela compañía, podrá ser 30.000 líneas de código (o texto), 11 horas de audio y una hora de video en cuestión de segundos.
Gemini fue recientemente anunciando para remplazar el asistente de IA, Bard. Esta nueva actualización representa la creciente velocidad en la carrera por construir tecnología IA más capaz, que se está disputando tras los lanzamientos de OpenAI y otras compañías.
Gemini 1.5 funciona con la arquitectura Mixture-of-Experts (MoE), que divide el modelo en pequeñas redes neuronales que actúan como “expertas” y se activan de manera selectiva dependiendo del tipo de información introducida. Esto permite que Gemini 1.5 pueda aprender tareas complejas con mayor rapidez manteniendo la calidad, mientras su entrenamiento se vuelve más eficiente, como explica Google en su blog oficial.
Le recomendamos leer: Anuncio de Xbox: ¿Dejarán de fabricar consolas? Esto fue lo que dijo Phill Spencer
Según Sundar Pichai, CEO de la empresa, Google discutió internamente en cómo hacer para que un director de cine pueda pedirle a la IA que juzgara una versión de su película, como lo haría un crítico. “Este es solo uno de los casos del uso que estamos hablando en el equipo, el cielo es el límite”.
Todo esto se traduce en que el modelo tiene capacidades mejoradas de compresión y razonamiento; analiza, clasifica y resume grandes cantidades de contenido dentro de un mensaje determinado, como apuntan desde Google. Asimismo, puede realizar tareas de resolución de problemas más relevantes en bloques de código más largos.
👽👽👽 ¿Ya está enterado de las últimas noticias de tecnología? Lo invitamos a visitar nuestra sección en El Espectador.
El panorama dinámico de la inteligencia artificial continua cautivando al mundo con nuevos desarrollos tecnológicos. OpenAI y Google están en medio de una disputa sin precedentes para potenciar los niveles que la IA puede lograr. En estos nuevos avances, las empresas han presentado desarrollos que pueden ser significativos en esta nueva era.
Los gigantes tecnológicos anunciaron nuevas funciones en sus sistemas de inteligencia artificial que facilitarán y optimizarán sus servicios para los Usuarios. Open IA, con el respaldo de Microsoft, comunicó que está trabajando en un programa informático capaz de generar videos de un minuto de duración a partir de mensajes de texto.
Por su parte, Google presentó un nuevo modelo de inteligencia artificial en la que permite al usuario pedir análisis de mucho más contenido que en versiones anteriores.
Sora, de OpenAI
OpenAI presentó a Sora, su modelo impulsado por la Inteligencia Artificial generativa, capaz de crear videos realistas de hasta 60 segundos a partir de instrucciones de texto. El resultado sería detallado, movimientos de cámara complejos y personajes con varias emociones.
La empresa tecnológica continúa su avance en propulsar los modelos de IA, haciendo énfasis en colaborar a las personas a resolver problemas que requieran interacción con el mundo real. Por esa razón, OpenIA ha puesto sus esfuerzos en darle bases a la Inteligencia Artificial para comprender y simular el mundo físico.
Para la ejecución de este nuevo programa, los usuarios solo deberán escribir una serie de indicaciones para detallar sus ideas de video, los personajes, sus acciones, el escenario, dirección de cámara o cualquier detalle que sea relevante para la construcción de la escena.
Tras el anunció a través de la plataforma X, La empresa tecnológica compartió una serie de ejemplos en los que muestra la instrucción en forma de texto, con el resultado del video generado por Sora. La instrucción en uno de los ejemplos es: “Varios mamuts lanudos gigantes se acercan pisando a través de un prado nevado, su largo pelaje lanudo sopla ligeramente en el viento mientras caminan, árboles cubiertos de nieve y dramáticas montañas nevadas en la distancia, la luz de media tarde con nubes difusas y un sol alto en la distancia crea un cálido resplandor, la vista de cámara baja es impresionante capturando al gran mamífero peludo con una hermosa fotografía, profundidad de campo”. El resultado es el siguiente:
Otra de las ventajas que ofrece el modelo, según explico el CEO Sam Altman, es que puede llevar a cabo escenas tan precisas porque no solo comprende lo que el usuario solicita en sus indicaciones de texto, sino que también es capaz de comprender cómo existen esas cosas en el mundo físico.
Le recomendamos leer: Volt Typhoon: el grupo de hackers chinos que preocupa por ciberataques en EE.UU.
Por el momento, Sora solo estará en función para los miembros del equipo dedicado a la investigación del servicio, con la intención de ponerlo a prueba y comprobar fallos o posibles riesgos. Asimismo, está bajo la inspección de diseñadores, cineastas y artistas visuales para generar posibilidades de mejora, según anunció la compañía.
Con la problemática que se ha generado alrededor de los contenidos engañosos en internet, OepnAI ha subrayado que está tomando las medidas necesarias en materia de seguridad para implementarlas en Sora. Se trata de una serie de funciones que permitirán clasificar los videos generados por la IA para identificarlos con relación a los videos reales. Una de estas funciones es la implementación de metadatos de C2PA, el estándar que verifica el origen del contenido y la información relacionada.
Google invierte en el análisis de enormes contenidos en cuestión de segundos
La nueva actualización de Gemini 1.5, permitirá a los usuarios pedir a la IA de Google analicé mucho más contenidos que en las versiones pasadas. De acuerdo a la información dela compañía, podrá ser 30.000 líneas de código (o texto), 11 horas de audio y una hora de video en cuestión de segundos.
Gemini fue recientemente anunciando para remplazar el asistente de IA, Bard. Esta nueva actualización representa la creciente velocidad en la carrera por construir tecnología IA más capaz, que se está disputando tras los lanzamientos de OpenAI y otras compañías.
Gemini 1.5 funciona con la arquitectura Mixture-of-Experts (MoE), que divide el modelo en pequeñas redes neuronales que actúan como “expertas” y se activan de manera selectiva dependiendo del tipo de información introducida. Esto permite que Gemini 1.5 pueda aprender tareas complejas con mayor rapidez manteniendo la calidad, mientras su entrenamiento se vuelve más eficiente, como explica Google en su blog oficial.
Le recomendamos leer: Anuncio de Xbox: ¿Dejarán de fabricar consolas? Esto fue lo que dijo Phill Spencer
Según Sundar Pichai, CEO de la empresa, Google discutió internamente en cómo hacer para que un director de cine pueda pedirle a la IA que juzgara una versión de su película, como lo haría un crítico. “Este es solo uno de los casos del uso que estamos hablando en el equipo, el cielo es el límite”.
Todo esto se traduce en que el modelo tiene capacidades mejoradas de compresión y razonamiento; analiza, clasifica y resume grandes cantidades de contenido dentro de un mensaje determinado, como apuntan desde Google. Asimismo, puede realizar tareas de resolución de problemas más relevantes en bloques de código más largos.
👽👽👽 ¿Ya está enterado de las últimas noticias de tecnología? Lo invitamos a visitar nuestra sección en El Espectador.