颠覆视频创作？Sora还需“学好物理”

肖欢欢

本文字数：2626

Sora生成的视频细节逼真。（@视觉中国）

从图像生成到视频生成，AI大模型不断刷新人们的认知。（@视觉中国）

王孝宇

王咏刚

　　最近几天，OpenAI公司发布的视频生成大模型Sora成了全世界关注的焦点。它究竟会给我们的生活带来怎样的影响？连日来，记者专访了几位人工智能领域的专家，专家表示，Sora还远未达到理解自然规律的地步，仍有很长的路要走。

　　文、图/广州日报全媒体记者肖欢欢（除署名外）

　　一山更比一山高？Sora来自“组合拳”式技术创新

　　著名人工智能研究专家、创新工场人工智能工程院执行院长王咏刚表示，OpenAI公布的样例视频连贯、流畅、稳定，与提示文本的符合程度极高，无论是时长还是质量都远超此前的视频生成技术。“初步看，Sora是人工智能发展史上的又一个里程碑，是文生视频领域的‘GPT-3时刻’。”他认为，AI大模型从文本信息处理进化到多模态信息处理，Sora可能是其中至关重要的一环。“AI从处理文本一跃提升到能高质量处理或生成视频，这意味着AI对世界的理解达到了一个全新的高度。通俗来说，ChatGPT使AI学会了读书写字，Sora的发布则代表AI初步学会了‘拍摄’视频或电影短片，今年很可能掀起AI视频技术与应用发展的巨大浪潮。”

　　王咏刚介绍，从ChatGPT到Sora，两种技术之间有明确的继承与发展关系。Sora的技术突破主要得益于两个方面：第一，融合了两大生成式AI技术——虽然在整体算法框架上沿用了图像生成领域常用的Diffusion模型，但在框架内部巧妙融入ChatGPT使用的Transformer来编码和表达视频中的时空信息，得到了名为Diffusion Transformer的组合模型。根据技术报告，Sora在视频生成时涌现的精准、连贯的表达能力就源自这种组合拳式的科技创新。第二，发挥GPT的特长，改进标注质量——Sora使用类似GPT-4的技术对训练用的样本视频做了重新标注，从根本上解决了目前视频训练数据缺乏高质量标注的问题。“现在经过GPT重新标注，AI可以知道训练视频中的人长什么样子、穿什么衣服、手从哪里运动到哪里、身体呈现什么姿势等。显然AI可据此学有关这个世界运动规律的更多知识。”

　　“OpenAI首先研发出ChatGPT和GPT-4，现在又把ChatGPT的核心技术与视频生成的流行技术框架结合起来，可以说Sora是站在ChatGPT的肩膀上，一山更比一山高。”

　　多模态同步推进未来AI的AGI水平将极大提高

　　原云天励飞联合创始人、首席科学家王孝宇博士是人工智能领域的资深科学家，连日来他也密切留意着Sora带来的影响。王孝宇认为，在具体功能方面，Sora能部分模拟人或事物在现实世界中的存在方式，并由此产生一定水准的情感表达；在生成视频质量上，Sora高清的画质、丰富的细节，尤其是在处理遮挡和场景连贯性上，跟之前的模型相比有了质的飞跃。

　　王孝宇介绍，OpenAI这些年一直在进行多模态同步推进，比如说将视频转化成文字，利用AI给视频精准配音等。“打个比方，生成视频先需要文本，但先输入的这句话机器不一定能理解，先用ChatGPT重新写一遍，将prompt(提示词）转化成Sora能够理解的文字，然后再进行视频创作；同时，也会把训练视频转化成Sora可以理解的文字。这些技术是相互夯实、相互搭台的，而不是相互替代。所以，Sora的技术架构并不复杂，只不过它跳脱出以前大家做文生视频的思路。”

　　王孝宇表示，Sora正是在多模态演进和高质量数据学习的基础上，实现了视频涌现机制，生成的视频连贯性比较高，并且能大概理解真实世界的一些规律。“AI技术方面最大的进步不一定是基础技术的进步，工程学、呈现效果的进步也是进步，Sora的最大意义在于，它让学界认识到通过文字和视频的桥接来提升AI的AGI（通用人工智能）水平是有可能的。未来Sora和ChatGPT结合，将极大提高AI的AGI水平。”

　　AI功能莫过分夸大逻辑推理、自然规律理解能力待提高

　　王咏刚表示，尽管Sora在文本生成视频方面有了质的提升，但并不能将其功能过分夸大。“它还远远没有达到掌握物理规律的地步。”

　　在王咏刚看来，“机器学习完全理解自然界规律”还是一个遥远的命题。“Sora在技术上并没有跳出ChatGPT和Stable Diffusion等前沿AI大模型的范畴，不大可能在智力水平上跃升到另一个完全不同的境界。”

　　对此，王孝宇也表示认同。他表示，Sora的“文生视频”技术还不是完美的，还有很多不连贯性，比如说，视频中人的手指有时会多一根或者少一根，它还不能准确地理解现实世界。“一个模型能生成逼真视频，并不能代表它理解了物理世界，从目前来看，Sora并没有完全掌握现实世界的物理规律，因为也是看着视频学习，它可供学习的样本相当有限。模型的预测能力依赖于其训练数据的多少和质量，对于那些超出训练数据分布的新情况，模型可能无法精确预测。要知道，现实世界的复杂性远超过任何模型能够通过有限数据学习到的经验。” 王孝宇说，这就像天气预报一样，即便人类掌握了足够多的卫星云图和气象资料，也还是难以精确预报每一次台风的最终走向。“所以，它只能部分模拟现实世界，掌握人或者其他物体在现实世界中的存在方式。我同意现在有些学者的观点，只让 AI看视频是学不成世界模型的，它还不能用作现实世界的可靠模拟，在逻辑推理上还有很大的进步空间。”

　　AI大模型未来将向哪个方向发展？王咏刚说，大语言模型的评估是一个复杂的课题，但即便如此，对AI大模型能力的评估数据仍然是其改进的关键一环。他认为，目前AI体现出的写作水平、绘画水平比较强，在某些方面可以接近人类的专业水平，但在逻辑推理上，AI的“智力水平”大概还处在人类孩童的阶段，无法处理过于复杂的逻辑问题，也无法完全依照人类指令完成所有任务。“缺乏复杂逻辑推理能力，对世界的认知不够准确，难以完全按人类要求工作，这是阻碍AI应用落地的最核心问题。目前最流行的AI应用还停留在知识问答、陪伴式聊天、办公文案生成、辅助编程、辅助设计等领域，只有更进一步提高AI的逻辑推理能力及可控性，AI相关应用才能更进一步普及。”

下载