人们一直期待GPT-5,但Sora带来的轰动不亚于一次GPT-5的发布。
作为OpenAI 首推的文本转视频模型,Sora能够根据文本指令或静态图像生成长达 1分钟的视频,其中包含精细复杂的场景、生动的角色表情以及复杂的镜头运动。同时也接受现有视频扩展或填补缺失的帧。
每条提示60秒的视频长度与Pika Labs的3秒、Meta Emu Video的4秒、和Runway公司Gen-2的18秒相比,妥妥地铁赢了。并且从官方发布的演示来看,无论从视频流畅度还是细节表现能力上,Sora的效果都相当惊艳。
比如官推里这条14秒的东京雪景视频。
提示词:Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.
「美丽的,被雪覆盖的东京正繁忙着。镜头穿过繁忙的城市街道,跟随着几个享受雪景和在附近摊位购物的人。美丽的樱花瓣随风飘落,与雪花一同飞舞。」