Sora es capaz de generar contenidos audiovisuales siempre que se le brinde una imagen y un mensaje como entrada y todavía su uso está restringido a “un número limitado de creadores”, reveló en su cuenta de X el ejecutivo de OpenAI, Sam Altman, al presentar al producto como un “modelo de generación de vídeo”.
La compañía explicó en su sitio web que el nuevo producto “es capaz de generar un minuto de vídeo de alta fidelidad. Nuestros resultados sugieren que escalar modelos de generación de video es un camino prometedor hacia la construcción de simuladores de propósito general del mundo físico”.
Y, explicaron que Sora es un modelo generalista de datos visuales ya que puede generar vídeos e imágenes de diversas duraciones, relaciones de aspecto y resoluciones, hasta un minuto completo de vídeo de alta definición.
“Nos inspiramos en grandes modelos de lenguaje que adquieren capacidades generalistas mediante el entrenamiento con datos a escala de Internet. El éxito del paradigma LLM se debe en parte al uso de tokens que unifican elegantemente diversas modalidades de texto: código, matemáticas y varios lenguajes naturales”, aseveró la empresa e indicó que se puede usar Sora para intercalar gradualmente dos videos de entrada, creando transiciones perfectas entre videos con temas y composiciones de escenas completamente diferentes.
OpenAI reconoció que este simulador de inteligencia artificial todavía está en sus inicios ya que “presenta numerosas limitaciones como simulador. Por ejemplo, no modela con precisión la física de muchas interacciones básicas, como la rotura de cristales. Otras interacciones, como comer, no siempre producen cambios correctos en el estado del objeto”.
De todas formas, confiaron en “que el escalamiento continuo de modelos de video es un camino prometedor hacia el desarrollo de simuladores capaces del mundo físico y digital, y de los objetos, animales y personas que viven dentro de ellos”.