Sora: la inteligencia artificial para crear videos realistas

Feb 18, 2024
5 min read

OpenAI lanzó su nuevo producto de inteligencia artificial que permite crear videos a partir de texto como ningún otro modelo y promete revolucionar (de nuevo) la industria de creación de contenidos. Hace menos de un año nos sorprendíamos por la capacidad de la IA para crear imágenes estáticas y ahora gracias a esta tecnología, que permite comprender y simular el mundo físico en movimiento, podremos generar videos de hasta un minuto de duración con una calidad de imagen sumamente realista, en base a cualquier texto proporcionado.

Sora, el nombre de este nuevo modelo de "texto a video", utiliza todas las capacidades de inteligencia artificial de OpenAI, la empresa conocida mundialmente por crear ChatGPT y DALL-E. Si bien por el momento se encuentra en fase de lanzamiento y todavía no está disponible para todo el mundo, los videos creados a partir de esta herramienta que han salido a la luz son realmente increíbles.

Qué es Sora y cómo funciona

Sora es capaz de generar escenas complejas con múltiples personajes, tipos específicos de movimiento y detalles precisos del sujeto y el fondo. El modelo comprende no solo lo que el usuario pide en la solicitud, sino también cómo esas cosas existen e interactúan en el mundo real. Es que el modelo tiene un profundo entendimiento del lenguaje, lo que le permite interpretar con precisión las solicitudes, crear múltiples tomas dentro de un mismo video, respetando los estilos visuales y generando personajes convincentes.

https://vimeo.com/913331489

Texto: "Una mujer elegante camina por una calle de Tokio llena luces de neon brillantes y una animada señalización urbana que se reflejan como un espejo en la calle húmeda y llena de charcos. Lleva una chaqueta de cuero negra, un vestido largo rojo, botas negras y un bolso negro. Además usa lentes de sol y labial rojo, mientras camina con total seguridad y despreocupación. En el fondo, podemos ver a varios peatones paseando".

Sora es un modelo de difusión, que genera un video comenzando con uno que parece ruido estático y lo transforma gradualmente al eliminar el ruido en muchos pasos. Similar a los modelos GPT, Sora utiliza una arquitectura de transformador, desbloqueando un rendimiento de escalado superior, lo que permite generar videos completos de una vez o extender videos generados para hacerlos más largos.

Gracias a la técnica de recaptación de DALL-E 3, que implica generar descripciones altamente descriptivas para los datos de entrenamiento visual, el modelo puede seguir las instrucciones de texto del usuario en el video generado de manera más fiel. Además de poder generar un video únicamente a partir de instrucciones de texto, el modelo puede tomar una imagen estática existente y generar un video a partir de ella, animando el contenido de la imagen con precisión y atención al detalle. El modelo también puede tomar un video existente y extenderlo o rellenar fotogramas faltantes.

https://vimeo.com/913130577

Texto: "Un dron sobrevuela una antigua iglesia de la Costa Amalfitana, mostrando increíbles detalles arquitectónicos de los edificios y de las calles que la rodean. Las olas rompen contra las rocas del acantilado donde se encuentra el enclave y a lo lejos se ven más acantilados típicos de esta zona de Italia. Podemos ver personas paseando por las calles y la luz del atardecer le da un toque mágico a la escena, con una excelente calidad cinematográfica".

Al final del artículo, podrás encontrar más videos generados con Sora, o también puedes ver todos los videos y más información en el sitio web de OpenAI.

Sora vs. la competencia: Runway, Stable Diffusion y Pika Labs

Runway

https://runwayml.com/

Si bien Runway existe desde 2018, fue su modelo Gen-2, lanzado en noviembre de 2023, que logró posicionarlo como la “mejor opción” disponible para crear videos con inteligencia artificial, ya que su herramienta cuenta con varias funcionalidades extremadamente útiles: Motion tracking (para seguir el movimiento de cualquier elemento de un vídeo), Fondo verde (para suprimir el fondo de un vídeo), difuminación de rostros, alteración del campo de profundidad del vídeo, transcripción automática y subtitulación, entre otras.

Aún así, si comparamos la calidad de imágenes generadas por Runway y le pedimos a Sora que genere videos similares, los resultados obtenidos por la herramienta de OpenAI son ampliamente superiores:

https://video.wixstatic.com/video/39fcdd_ac43f3f29f5f4429b0111775916e8bcc/480p/mp4/file.mp4

Stable Video Diffusion

https://stability.ai/stable-video

El modelo diseñado por Stability AI, que nace a partir del producto Stable Diffusion para generar imágenes estáticas, también lanzó en noviembre de 2023 su última versión para generar videos a partir de imágenes y de texto, como el resto de las herramientas. Si bien la calidad de imagen es buena, una de las grandes limitantes de Stable Video Diffusion es la duración de los videos creados, que pueden llegar hasta 5 segundos de duración.

https://www.youtube.com/watch?v=G7mihAy691g

Pika Labs

https://pika.art/home

Pika también cuenta con capacidades de creación de videos a partir de texto, imágenes y videos y tiene algunas funcionalidades que lo han posicionado como una opción sencilla de usar. A través de la herramienta, los usuarios pueden editar partes específicas del video generado, permite expandir la dimensión del video para adaptarlo a otros formatos e incluso extender la duración del video agregando nuevas escenas. Si bien la calidad de imagen es buena, está lejos de alcanzar la calidad cinematográfica que ofrece Sora.

https://www.youtube.com/watch?v=6b10jGNNbXQ

Debilidades de Sora y su uso de forma segura

El modelo actual, por más sorprendente que sea, todavía presenta algunas dificultades para simular con precisión la física de una escena compleja y para entender instancias específicas de causa y efecto. Por ejemplo, una persona podría darle un mordisco a una galleta, pero después, la galleta podría no tener una marca de mordisco. El modelo también puede confundir detalles espaciales de una solicitud, por ejemplo, mezclar izquierda y derecha, y puede tener dificultades con descripciones precisas de eventos que ocurren con el tiempo, como seguir una trayectoria de cámara específica.

A su vez, la posibilidad de generar videos de esta calidad a partir de texto, abre la puerta para la generación de contenido malicioso o engañoso, motivo por el cual, OpenAI planea incluir metadatos C2PA que podrán identificar cuándo un video fue generado por Sora, además de los métodos de seguridad ya implementados para ChatGPT y DALL-E. Los productos de OpenAI ya cuentan con un clasificador de texto que verifica y rechaza las solicitudes de entrada de texto que violan las políticas de uso, como aquellas que soliciten violencia extrema, contenido sexual, imágenes odiosas, similitud con celebridades o la propiedad intelectual de otros.

Más ejemplos de videos creados a partir de texto con Sora

https://vimeo.com/913133210

Texto: “Varios mamuts peludos se acercan a la cámara caminando a través de un campo nevado, mientras su largo pelaje se mueve con el viento al caminar. Incluir árboles cubiertos de nieve y montañas nevadas al fondo, con una luz de media tarde que crea un brillo cálido a la imagen. La cámara en posición baja captura a los mamuts con una espectacular fotografía y profundidad de campo”.

https://vimeo.com/913132493

Texto: “La cámara sigue desde atrás a una camioneta blanca tipo SUV clásica, mientras acelera a través de una calle de tierra en medio de una montaña rodeada por árboles y demás vegetación. La camioneta no se cruza con ningún otro vehículo en el camino y sus ruedas levantan polvo de la calle que tiene varias curvas, mientras la luz del sol le da un brillo especial a la escena. Si bien la cámara sigue el movimiento de la camioneta en cada curva, la imagen se mantiene estática”.

https://vimeo.com/913353528

Texto: “Una abuela con su pelo gris perfectamente peinado, está parada detrás de una colorida torta de cumpleaños con muchas velas encendidas y apoyada en una mesa de madera. Su expresión de felicidad es absoluta mientras disfruta junto a familiares y amigos sentados celebrando detrás, con la cámara levemente desenfocada, para darle protagonismo a ella. La luz tenue y con colores cálidos le dan un toque especial a la escena”.

Volver al Inicio