
可灵AI的“运动笔刷”功能

可灵AI上线“对口型”功能,图为可灵AI生成的视频截图。

可灵1.5模型能响应更复杂的文本要求,图为可灵AI生成的视频截图。
国产视频生成大模型迎来大消息。9月30日,快手自研的“可灵AI”再次升级,全新上线“对口型”功能,也是可灵AI自今年6月发布以来,累计第十次升级,并且全面开放API服务,推动行业发展。
就在两周前,可灵AI更是完成其基座模型迭代,新增1.5模型,支持在高品质模式下直出1080p高清视频,该版本全球同步开放。内部评测显示,相比1.0模型,全新1.5模型的整体效果提升95%。
经过三个多月的努力,一直被称为国产版“Sora”的可灵AI,无论国内还是海外,已收获了大量的创作者。平台披露,目前累计全球超260万人使用过可灵AI,累计生成超2700万个视频、5300万张图片。随着技术与产品的持续创新突破,视频生成大模型在专业领域也有更广阔的拓展空间,“尝试”进入影视圈,协同导演们制作电影级的内容。近日,快手宣布可灵AI导演计划正式启动,9位知名导演将与人工智能一同“开拍”个人首部AIGC电影短片。
文/文静 图/受访者提供
AIGC视频中音频内容与视频人物嘴型能精准同步
视频中,一位棕发女生吟唱出一段英文旋律,画面中的她口型与声音高度同步,神情自然,头部随着音乐轻微律动……这段惟妙惟肖的AI视频,正是基于快手可灵AI最新推出的“对口型”功能制作。
近日,国产视频生成大模型可灵AI迎来新一轮的升级,上线全新的“对口型”功能。所谓“对口型”功能,创作者可以对可灵AI生成的人物视频上传配音或歌唱,音频内容与视频人物嘴型精准同步。
也就是说,用户在生成满足条件的人物视频后,便可上传配音或歌唱,利用“对口型”功能让视频中的人物“说话”“唱歌”。无论是真实人物还是2D、3D人物,均可实现音频与视频画面的高度融合。
在可灵展示的视频中,一位3D卡通小男孩微笑着介绍着上述新功能,其面部形态、唇形和语音内容完美契合,眼睛自然眨动、头部运动也全然符合真实人物的说话形态,体现了音频内容与视频人物嘴型精准结合。
除了“对口型”功能,本次升级中,可灵AI正式面向所有用户开放API(应用程序接口)服务,包括全面开放视频生成、图像生成、虚拟试穿等接口能力,并支持在线下单、Key管理、订单管理、用量查询等全流程操作。而且,开发者无需申请,自助下单即可快速接入。
业内人士看来,在本轮升级之后,可灵AI的易用性和开放性进一步提升。能够在更为复杂的需求场景下,满足更多元化的内容创作需求。
值得注意的是,最新的可灵AI,还上线了创作社区“创意圈”,为创作者打造一个AI创作的专属交流平台。使用方法很简单,创作者可自行上传素材或短片等,发布作品,也可以在完成可灵AI生成视频或图片时直接分享至该社区“创意圈”。与此同时,为了鼓励更多优质的内容创作,平台上线了限时灵感值激励方案,单个作品最高可得666灵感值。
全球同步升级1.5模型
直出1080p高清视频
实际上,9月19日,可灵AI就迎来一场“硬核”的升级——新增可灵1.5模型,并且全球开放同步。作为基座模型级别的升级,全新的1.5模型相比1.0模型,在画面质量、动态质量、文本响应度等方面有显著效果提升,其内部评测显示,新版本整体效果提升95%。
基座模型迭代后,可灵AI就可直接生成1080p高清视频。举例来讲,同时在新旧两个版本中输入提示词“女孩看着车窗”,对比视频生成的效果,可以发现,全新1.5模型所生成的视频画面质量有显著提升:画面清晰度直观可感,画面内的女孩面部细节更清晰丰富,车窗的水雾、整体光影表现等也都更加出色。同时,在新模型下,画面整体构图也进一步优化,画面更具美感。
在图生视频方面,可灵1.5模型能响应更复杂的文本描述要求。根据平台的演示,利用一张没有人物的食物照片,加上提示词“镜头拉远,一个小男孩走到桌前拿起勺子开始吃饭”。在1.5模型下生成的视频是:随着镜头的微微晃动,一个勺子“入场”,然后画面聚焦到握着勺子的小男孩,看他将一勺饭菜送到嘴里,勺子在碗里拨开饭粒的细节也能够被细致地呈现出来。这样的视频细节,充分显示了新模型下图生视频理解能力的强大。
从1.0模型迭代到1.5模型,可灵还加入了“运动笔刷”功能。这项功能支持创作者为图片中的元素(人或物体等)指定运动轨迹,大幅提升用户在图生视频中运动效果的控制能力。
具体来看,通过“运动笔刷”功能,创作者只需将图片中需要控制运动方向的部分勾勒出来,然后画一个示意运动方向箭头,就可实现精准运动控制。上传图片后,最多能为图中的六个元素(人或物体等)指定运动轨迹。此外,还可以为某些元素额外指定静止区域,让视频内容有更好的运动控制及运动表现。
目前,横屏(16:9、4:3)、竖屏(9:16、3:4)、方屏(1:1)等多种尺寸格式的图片,可灵AI都支持使用“运动笔刷”生成视频,生成视频时长为5秒。
三个月累计生成2700万个视频
与多位导演共创AIGC电影
自今年6月6日发布至今,三个多月,这款国产自研的视频生成模型已实现十次升级。7月底,快手可灵AI全球会员体系上线,其商业化“落地”,大大超越了全球一些AI公司所推出的视频生成模型。
作为快手推出的视频生成大模型,其目标就是将视频创作门槛大大降低,让广大创作者体验到AIGC生产力的高效与魅力。因而,版本升级的同时,可灵AI近期上线了一系列新功能,包括支持一次性生成最多4条视频,方便创作者快速选取到最优生成结果;“图生视频”功能新增支持10秒时长并在标准模式下支持增加尾帧;“AI图片”功能支持“画质增强”。此外,官方也上线了使用指南,帮助创作者更好地掌控可灵AI……
如今,可灵AI吸引了越来越多的全球创作者使用。早前举行的快手科技2024年投资者日上,快手高级副总裁、主站业务与社区科学线负责人盖坤表示,累计超260万人使用过可灵AI,并累计生成超2700万个视频、5300万张图片。
随着技术与产品的持续创新突破,在专业领域,可灵AI的想象空间也在不断拓宽。9月,快手宣布“可灵AI”导演共创计划启动,李少红、贾樟柯、叶锦添、薛晓路、俞白眉、董润年、张吃鱼、王子川、王卯卯等9位知名导演,将依托可灵AI的技术能力,制作出品9部时长3分钟左右的电影短片。
这次依托于可灵AI进行的电影级别内容共创,既是首个AIGC导演共创计划在国内的正式落地,也是李少红、贾樟柯等导演个人创作生涯中首次创作AIGC电影短片。
盖坤表示,可灵AI不仅是全球内容创作者的创意工具,也有望成为影视行业的新质生产力。“作为先行者,我们希望携手影视行业一起抓住产业智能化升级的历史性机遇,共同探索生成式AI的行业新生态和产业新格局。”
专题