视频生成新模型Sora的突破与风险

吴晓凌

本文字数：1138

　　据新华社电（记者吴晓凌）位于旧金山的美国人工智能公司“开放人工智能研究中心”（OpenAI）近日推出能够通过文本指令创建视频的生成式人工智能模型Sora，这一突破巩固了其在人工智能领域的领军地位，但同时也加剧了对“深度伪造”等风险的担忧。

　　这是OpenAI首次进军人工智能视频生成领域。据公司介绍，Sora使用Transformer架构，可根据文本指令创建近似现实且富有想象力的场景，生成多种风格、不同画幅、最长为一分钟的高清视频。该模型还能够根据静态图像生成视频，或对现有视频进行扩展或填充缺失的帧。

　　一些分析人士认为，Sora再次凸显人工智能技术进步对现实生活和传统行业的深远影响。人工智能在视频生成领域的巨大发展前景在为塑造影视产业新业态打开大门的同时，恐将颠覆现存影视产业。

　　虽不是第一家涉足文本转视频领域的公司，但Sora的推出使OpenAI在这一赛道取得领先，巩固了其在生成式人工智能领域的领军地位。

　　OpenAI称，Sora对语言有着深刻的理解，不仅了解用户文本提示，还了解所述事物在物理世界中的存在方式。

　　Sora发布可谓一石激起千层浪，但此次推出的更像是预览版，公众尚难以深入全面了解该模型的优缺点。OpenAI表示，目前仅主要向一些设计师和电影制作人等特定人群提供Sora访问权限，以获取有关改进该模型的反馈。公司不仅未公布训练Sora模型的数据等基础细节，更没有确定向公众发布的日期。

　　OpenAI承认，目前Sora生成视频中可能包含不合逻辑的图像，混淆左右等空间细节，难以准确模拟复杂场景的物理原理和因果关系实例等。例如，一个人咬了一口饼干，饼干上却没有咬痕。

　　不过，随着算力增强、模型改进，人们可能会在短期内获得更加完善、先进的视频生成功能。

　　不少业内人士担心，Sora将为“深度伪造”（Deepfake）技术推波助澜。

　　针对造假顾虑，OpenAI称在真正面向公众推出产品时，将确保生成视频包含来源元数据，并推出检测视频真伪的工具。OpenAI还承诺，在产品中使用Sora前将采取安全措施，包括由“错误信息、仇恨内容和偏见等领域的专家”对模型进行对抗性测试来评估危害或风险；核查并拒绝包含极端暴力、性内容、仇恨图像、他人IP等文本输入提示等。

　　即便如此，OpenAI也承认，尽管进行了广泛的研究和测试，“我们仍无法预测人们将使用我们技术的所有有益方式和滥用我们技术的所有方式”。

　　在科技领域颠覆式创新不断涌现的情况下，如何实现拥抱技术进步和确保社会安全的平衡，越来越受到各界关注。

　　OpenAI表示，将与世界各地的政策制定者、教育工作者和艺术家合作，了解他们的担忧，确定Sora的积极使用案例，并认为从现实世界的使用中学习是创建和发布越来越安全的人工智能系统的关键组成部分。

下载