Sora: nueva inteligencia artificial capaz de crear vídeos de hasta 1 minuto a partir de texto
En febrero de este año, OpenAI, el desarrollador de ChatGPT, anunció Sora. Una tecnología capaz de crear vídeos a partir de texto. El sitio vídeos promocionales son impresionantes.
El programa puede generar vídeos de hasta 1 minuto, manteniendo la calidad visual y el cumplimiento de las instrucciones del usuario.
Sora es capaz de generar escenas complejas con múltiples personajes, tipos específicos de movimiento y detalles precisos del sujeto. El modelo comprende no sólo lo que el usuario ha pedido en la pregunta, sino también cómo existen esas cosas en el mundo físico.
TÉCNICAS DE INVESTIGACIÓN SORA
Sora es un modelo de difusión que genera un vídeo a partir de ruido estático y lo transforma gradualmente eliminando el ruido en varias etapas.
Es capaz de generar vídeos enteros de una vez o ampliar los vídeos generados para hacerlos más largos. Al proporcionar al modelo la predicción de muchos fotogramas a la vez, resuelven un difícil problema que consiste en garantizar que un objeto siga siendo el mismo cuando sale de la vista.
Además de ser capaz de generar un vídeo sólo a partir de instrucciones de texto, la plantilla es capaz de tomar una imagen fija existente y generar un vídeo a partir de ella, animando el contenido de la imagen con precisión y atención a los pequeños detalles. La plantilla también puede tomar un vídeo existente y comprenderlo.
Sora sirve de base para modelos capaces de comprender y simular el mundo real, una capacidad que creen que será un hito importante para llegar a todo el mundo. AGI.
Al igual que los modelos GPT, Sora utiliza una arquitectura de transformadores, lo que proporciona un rendimiento de escalabilidad superior.
Representar vídeos e imágenes como colecciones de unidades de datos más pequeñas denominadas "patches", cada una de las cuales es similar a un "token" en la GPT. Al unificar la forma de representar los datos, pueden entrenar a los transformadores de emisión con una gama de datos visuales más amplia de lo que era posible hasta ahora, abarcando distintas duraciones, resoluciones y relaciones de aspecto.
SEGURIDAD
Además de desarrollar nuevas técnicas para preparar el despliegue, aprovechan los métodos de seguridad existentes para los productos que utilizan DALL-E 3, que también son aplicables a Sora.
Por ejemplo, el clasificador de texto comprobará y rechazará las solicitudes de entrada de texto que infrinjan las políticas de uso, como las que soliciten violencia extrema, contenido sexual, imágenes de odio, parecido con famosos o propiedad intelectual de terceros. También desarrollará sólidos clasificadores de imágenes que se utilizarán para revisar los fotogramas de cada vídeo generado con el fin de garantizar que cumple las políticas de uso antes de mostrárselo al usuario.
PRUEBAS Y DISEÑO
SORA sigue poniéndose a disposición de los equipos rojos para que evalúen las zonas importantes en busca de daños o riesgos. Y también se está poniendo a disposición de diseñadores, artistas visuales y cineastas para que den su opinión sobre cómo el producto podría ser útil para los profesionales creativos, así como para compartir el progreso de la investigación con antelación para empezar a trabajar y obtener opiniones de personas ajenas a OpenAI y dar al público una idea de las características de la IA que están en proceso.
El modelo actual sigue teniendo algunos problemas, como la dificultad de simular la exactitud física de una escena compleja y puede no comprender casos concretos de causa y efecto.
El modelo aún puede tener problemas para confundir detalles espaciales de una indicación, por ejemplo confundir derecha e izquierda, y puede tener dificultades con descripciones precisas de acontecimientos que ocurren a lo largo del tiempo, como seguir trayectorias específicas de la cámara.
En otro artículo hablamos de la La IA y cómo puede utilizarse para su negocio a través del marketing digital. Merece la pena echarle un vistazo.
¿Conocía ya la plataforma? ¿Cree que será innovadora? ¿Qué impacto tendrá en Internet?
¿Le ha gustado el contenido? Consulte otros artículos en ¡nuestro blog!