2月16日凌晨,OpenAI突然发布首个文生视频模型Sora,其横空出世对AI大模型行业无疑是继ChatGPT之后的又一次大震动。近日,同济大学艺术与传媒学院副院长、教授王建民,复旦大学新闻学院教授、博士生导师邓建国,上海交通大学电子信息与电气工程学院教授马利庄等专家接受了广州日报记者专访,针对Sora的现实意义、对未来的影响以及或许会产生的风险、伦理等问题进行了探讨。
文/广州日报全媒体记者李晓璐、贺涵甫
Sora背后的技术水平远不止60秒?
王建民教授介绍,不同于市面上现有的AI视频模型仅能生成不足10秒且镜头视角单一、内容失真的视频,Sora的视频生成长度不仅一次性提升15倍——突破到60秒,在内容的稳定性上也有不小的提升,不仅实现单视频的多角度镜头切换,也最大限度还原真实场景。
马利庄教授进一步解析Sora的技术原理,Sora是将原始视频通过一个视觉编码器编码到隐空间形成隐时空块,这些隐时空块(结合文本信息)通过三维Transformer结构做扩散模型的训练和生成,将生成的隐时空块再通过视觉解码器解码到像素空间,生成目标视频。
王建民教授补充道,“Sora从文本转换成60秒视频是一次技术突破,而这只是公开数据,其背后的实际技术水平应该远不止60秒。”
Sora未来自己能造出元宇宙?
OpenAI发布的技术报告题目上写道:以视频生成模型作为世界模拟器。王建民教授解析,这说明Sora不仅能够生成短视频,而且能够学会现实世界的物理规律,并由此进行一定的拓展,将前后视频帧之间进行数据弥补,模拟与现实世界类似的影像,也是文生视频模型的一大进步。言下之意,Sora不再只是需要人类“投喂”数据的单一技术,而可以通过自己学习,从目前世界上现有的视频影像中习得这些规律和变化。
王建民教授预计,或许不超过两年,OpenAI就会将Sora发展成能如同电影《黑客帝国》中展现的内容般创建矩阵,自己创造包括元宇宙在内的虚拟世界,那么这项技术未来发展的现实意义,与真实世界的链接都是我们需要思考的方向。
Sora究竟会抢工作还是好帮手?
王建民教授并不认为Sora会完全取代传统影视业、广告业中的岗位,而是替换部分岗位的能力需求,同时催生另一部分新岗位,比如视频策划师、视频评审人员等,也让更多非专业人士有机会从事与视频创作相关的工作,从社会层面来说,反而是将这些行业推广开来。未来谁能用好这些新领域中的工具,激发更多创造力,谁就有可能成为下一个“王家卫”。
邓建国教授强调,Sora对于新闻业的冲击并没有那么大,新闻报道追求真实(facts),而Sora几乎全是虚拟(fictions),因此和ChatGPT不同,Sora从本质上对新闻业应用面不广,甚至只有坏处没有好处,除非新闻业沦为“创意业”。“Sora唯一可以被新闻业利用的,也许是记者建构在新闻事实基础上的新闻现场情景再现。‘视频记者’这四个字中重要的不是‘视频’而是‘记者’。如果记者没有脚力、眼力、脑力和笔力,而仅仅满足于坐在空调房里进行网络内容搜索和拼凑,或者不断使用人工智能炮制内容,那么这些记者在任何时候都应该被人工智能替代。”
邓建国教授还指出,新闻业不能将对“新闻”的追逐异化成对“技术”的追逐。新媒介技术如果有利于更好地报道新闻,则应该尽快采纳,如果不利于更好地报道新闻,则应暂缓采纳。在各种“虚拟现实”技术盛行的今天,新闻业应该更加坚守“现实”本身。
王建民教授表示,人工智能是未来多个专业的学科发展趋势,学术界很早就已经接受、理解并开展了一系列学习规划。学校也一直在思考如何利用好这些变化,引导学生学习并合理合规使用好这些新工具。
邓建国教授表示,在人工智能快速发展的大背景下,每一个人都应该保持对新事物的敏感性,勇于尝试,在一定程度上“有知”,不要因为无知而产生不必要的恐慌。
Sora带来伦理、知识产权新课题?
马利庄教授强调,与静态图片相比,逼真的虚拟视频更具有危险性和蛊惑性,可能产生虚假宣传、谣言传播、金融诈骗等,危害公共安全。这也需要关于AI生成虚拟视频创作的相关法律法规来配套约束。
王建民教授也谈及他对未来Sora正式投放使用或许会产生的伦理风险的担忧,比如视频真假、视频是否符合正确的三观和普遍的社会价值,尤其是视频传播对于社会的影响力远大于文字和图片,因此如何把控尺度,在有限的范围内用好这些软件是未来大家都需要面对的新课题。
对此,邓建国教授也聊到了深度伪造等Sora未来可能会带来的伦理风险,但目前来看,相关科技公司本身设有一些技术防范。他建议人工智能公司、专家、政府、媒体等各方面应该协同合作,商讨研制出一个切实有效的方案,确保人类社会秩序的稳固性。