Sora现世，OpenAI再次血洗AI界

2024-02-23 智慧医疗来源：梅斯医学

2024年2月16日凌晨（美国时间2月15日），OpenAI发布了“文生视频”（text-to-video）的工具，Sora。范例视频一经发布迅速引发业内热议，其接近商业化的水准的运镜呈现能力让网友直呼，“又有一个行业的人要失业了”。

关于Sora

据OpenAI发布信息，Sora 是一种扩散模型，从噪声开始，能够一次生成整个视频或扩展视频的长度。关键之处在于一次生成多帧的预测，确保画面主体即使暂时离开视野也能保持不变。

Sora主要功能包括：根据文字提示生成视频；静态图片生成视频；对视频进行填充和扩充等。

Sora可以根据用户输入的提示词，生成长达一分钟的高清视频。虽然还没有公开使用，但在OpenAI官方分享的演示视频中，Sora可以直接输出有多个角色、多种场景和运镜的画面。

上述功能虽非Sora首创，很多其他工具可以不同程度实现。不过，其生成效果并不能令人满意，并且很容易出现错误。而此次，Sora则将生成视频的质量提升了一大步。

Sora不仅可以生成长达1分钟的视频，还可以一镜到底，多角度镜头切换，并且对象始终不变。Sora视频，更可以运用景物、表情和色彩等镜头语言，表达出如孤独、繁华、呆萌等情感色彩。

Sora的AI视频效果，几乎和人工拍摄不相上下：

Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

Sora，世界模型的雏形正在形成

Sora的技术文档里有一句话：

Our results suggest that scaling video generation models is a promising path towards building general purpose simulators of the physical world.

翻译成中文就是：我们的结果表明，扩展视频生成模型是向着构建通用物理世界模拟器迈进的有希望的路径。

也就是说，OpenAI最终想做的，不仅是一个“文生视频”的工具，而是一个通用的“物理世界模拟器”。也就是世界模型，为真实世界建模。而 Sora验证了其可行性：

Prompt: Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. The art style is 3D and realistic, with a focus on lighting and texture. The mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with wide eyes and open mouth. Its pose and expression convey a sense of innocence and playfulness, as if it is exploring the world around it for the first time. The use of warm colors and dramatic lighting further enhances the cozy atmosphere of the image.

prompt中描绘了「一个短毛绒怪物跪在一支红蜡烛旁的动画场景」，同时描述了怪物的动作和视频的氛围。

随后，Sora就创造了一个类似皮克斯作品的生物，它似乎融合了Furby、Gremlin和《怪兽公司》中Sully的DNA。

令人震惊的是，Sora在从未有人教过的情况下，轻而易举地实现了对毛发纹理物理特性地理解！

要知道，在《怪兽公司》上映时，皮克斯为了创造出怪物在移动时超级复杂的毛发纹理，可是费了好大一番功夫，技术团队直接连肝几个月。

“它学会了关于 3D 几何形状和一致性的知识，”项目的研究科学家Tim Brooks表示，“这并非我们预先设定的——它完全是通过观察大量数据自然而然地学会的。”

Sora的出现，可能意味着，通用人工智能（AGI），离我们真的不远了。

当下的Sora并不完美

Sora 当前也存在着明显的弱点，比如它可能难以准确模拟复杂场景的物理原理，并且可能无法理解因果关系。

该模型还可能混淆提示的空间细节，例如混淆左右，并且可能难以精确描述随着时间推移发生的事件，例如遵循特定的相机轨迹。

如提示词“篮球穿过篮筐然后爆炸”中，篮球没有正确被篮筐阻挡。

未来，各种不同用途的Sora短视频，或许会很快充斥各种视频社交平台，其对现实的影响与改变，不可不谓之巨大。

来源 | 梅斯医学（公众号）