Sora生成的视频细节逼真。(@视觉中国)
从图像生成到视频生成,AI大模型不断刷新人们的认知。(@视觉中国)
王孝宇
王咏刚
最近几天,OpenAI公司发布的视频生成大模型Sora成了全世界关注的焦点。它究竟会给我们的生活带来怎样的影响?连日来,记者专访了几位人工智能领域的专家,专家表示,Sora还远未达到理解自然规律的地步,仍有很长的路要走。
文、图/广州日报全媒体记者 肖欢欢(除署名外)
一山更比一山高?Sora来自“组合拳”式技术创新
著名人工智能研究专家、创新工场人工智能工程院执行院长王咏刚表示,OpenAI公布的样例视频连贯、流畅、稳定,与提示文本的符合程度极高,无论是时长还是质量都远超此前的视频生成技术。“初步看,Sora是人工智能发展史上的又一个里程碑,是文生视频领域的‘GPT-3时刻’。”他认为,AI大模型从文本信息处理进化到多模态信息处理,Sora可能是其中至关重要的一环。“AI从处理文本一跃提升到能高质量处理或生成视频,这意味着AI对世界的理解达到了一个全新的高度。通俗来说,ChatGPT使AI学会了读书写字,Sora的发布则代表AI初步学会了‘拍摄’视频或电影短片,今年很可能掀起AI视频技术与应用发展的巨大浪潮。”
王咏刚介绍,从ChatGPT到Sora,两种技术之间有明确的继承与发展关系。Sora的技术突破主要得益于两个方面:第一,融合了两大生成式AI技术——虽然在整体算法框架上沿用了图像生成领域常用的Diffusion模型,但在框架内部巧妙融入ChatGPT使用的Transformer来编码和表达视频中的时空信息,得到了名为Diffusion Transformer的组合模型。根据技术报告,Sora在视频生成时涌现的精准、连贯的表达能力就源自这种组合拳式的科技创新。第二,发挥GPT的特长,改进标注质量——Sora使用类似GPT-4的技术对训练用的样本视频做了重新标注,从根本上解决了目前视频训练数据缺乏高质量标注的问题。“现在经过GPT重新标注,AI可以知道训练视频中的人长什么样子、穿什么衣服、手从哪里运动到哪里、身体呈现什么姿势等。显然AI可据此学有关这个世界运动规律的更多知识。”
“OpenAI首先研发出ChatGPT和GPT-4,现在又把ChatGPT的核心技术与视频生成的流行技术框架结合起来,可以说Sora是站在ChatGPT的肩膀上,一山更比一山高。”
多模态同步推进 未来AI的AGI水平将极大提高
原云天励飞联合创始人、首席科学家王孝宇博士是人工智能领域的资深科学家,连日来他也密切留意着Sora带来的影响。王孝宇认为,在具体功能方面,Sora能部分模拟人或事物在现实世界中的存在方式,并由此产生一定水准的情感表达;在生成视频质量上,Sora高清的画质、丰富的细节,尤其是在处理遮挡和场景连贯性上,跟之前的模型相比有了质的飞跃。
王孝宇介绍,OpenAI这些年一直在进行多模态同步推进,比如说将视频转化成文字,利用AI给视频精准配音等。“打个比方,生成视频先需要文本,但先输入的这句话机器不一定能理解,先用ChatGPT重新写一遍,将prompt(提示词)转化成Sora能够理解的文字,然后再进行视频创作;同时,也会把训练视频转化成Sora可以理解的文字。这些技术是相互夯实、相互搭台的,而不是相互替代。所以,Sora的技术架构并不复杂,只不过它跳脱出以前大家做文生视频的思路。”
王孝宇表示,Sora正是在多模态演进和高质量数据学习的基础上,实现了视频涌现机制,生成的视频连贯性比较高,并且能大概理解真实世界的一些规律。“AI技术方面最大的进步不一定是基础技术的进步,工程学、呈现效果的进步也是进步,Sora的最大意义在于,它让学界认识到通过文字和视频的桥接来提升AI的AGI(通用人工智能)水平是有可能的。未来Sora和ChatGPT结合,将极大提高AI的AGI水平。”
AI功能莫过分夸大 逻辑推理、自然规律理解能力待提高
王咏刚表示,尽管Sora在文本生成视频方面有了质的提升,但并不能将其功能过分夸大。“它还远远没有达到掌握物理规律的地步。”
在王咏刚看来,“机器学习完全理解自然界规律”还是一个遥远的命题。“Sora在技术上并没有跳出ChatGPT和Stable Diffusion等前沿AI大模型的范畴,不大可能在智力水平上跃升到另一个完全不同的境界。”
对此,王孝宇也表示认同。他表示,Sora的“文生视频”技术还不是完美的,还有很多不连贯性,比如说,视频中人的手指有时会多一根或者少一根,它还不能准确地理解现实世界。“一个模型能生成逼真视频,并不能代表它理解了物理世界,从目前来看,Sora并没有完全掌握现实世界的物理规律,因为也是看着视频学习,它可供学习的样本相当有限。模型的预测能力依赖于其训练数据的多少和质量,对于那些超出训练数据分布的新情况,模型可能无法精确预测。要知道,现实世界的复杂性远超过任何模型能够通过有限数据学习到的经验。” 王孝宇说,这就像天气预报一样,即便人类掌握了足够多的卫星云图和气象资料,也还是难以精确预报每一次台风的最终走向。“所以,它只能部分模拟现实世界,掌握人或者其他物体在现实世界中的存在方式。我同意现在有些学者的观点,只让 AI看视频是学不成世界模型的,它还不能用作现实世界的可靠模拟,在逻辑推理上还有很大的进步空间。”
AI大模型未来将向哪个方向发展?王咏刚说,大语言模型的评估是一个复杂的课题,但即便如此,对AI大模型能力的评估数据仍然是其改进的关键一环。他认为,目前AI体现出的写作水平、绘画水平比较强,在某些方面可以接近人类的专业水平,但在逻辑推理上,AI的“智力水平”大概还处在人类孩童的阶段,无法处理过于复杂的逻辑问题,也无法完全依照人类指令完成所有任务。“缺乏复杂逻辑推理能力,对世界的认知不够准确,难以完全按人类要求工作,这是阻碍AI应用落地的最核心问题。目前最流行的AI应用还停留在知识问答、陪伴式聊天、办公文案生成、辅助编程、辅助设计等领域,只有更进一步提高AI的逻辑推理能力及可控性,AI相关应用才能更进一步普及。”