广州日报-最新上线“对口型”功能开放API服务

快手自研“可灵AI”三个月累计十次升级

最新上线“对口型”功能开放API服务

广州日报 2024年10月11日 文静

可灵AI的“运动笔刷”功能

可灵AI上线“对口型”功能，图为可灵AI生成的视频截图。

可灵1.5模型能响应更复杂的文本要求，图为可灵AI生成的视频截图。

　　国产视频生成大模型迎来大消息。9月30日，快手自研的“可灵AI”再次升级，全新上线“对口型”功能，也是可灵AI自今年6月发布以来，累计第十次升级，并且全面开放API服务，推动行业发展。

　　就在两周前，可灵AI更是完成其基座模型迭代，新增1.5模型，支持在高品质模式下直出1080p高清视频，该版本全球同步开放。内部评测显示，相比1.0模型，全新1.5模型的整体效果提升95%。

　　经过三个多月的努力，一直被称为国产版“Sora”的可灵AI，无论国内还是海外，已收获了大量的创作者。平台披露，目前累计全球超260万人使用过可灵AI，累计生成超2700万个视频、5300万张图片。随着技术与产品的持续创新突破，视频生成大模型在专业领域也有更广阔的拓展空间，“尝试”进入影视圈，协同导演们制作电影级的内容。近日，快手宣布可灵AI导演计划正式启动，9位知名导演将与人工智能一同“开拍”个人首部AIGC电影短片。

　　文/文静图/受访者提供

　　AIGC视频中音频内容与视频人物嘴型能精准同步

　　视频中，一位棕发女生吟唱出一段英文旋律，画面中的她口型与声音高度同步，神情自然，头部随着音乐轻微律动……这段惟妙惟肖的AI视频，正是基于快手可灵AI最新推出的“对口型”功能制作。

　　近日，国产视频生成大模型可灵AI迎来新一轮的升级，上线全新的“对口型”功能。所谓“对口型”功能，创作者可以对可灵AI生成的人物视频上传配音或歌唱，音频内容与视频人物嘴型精准同步。

　　也就是说，用户在生成满足条件的人物视频后，便可上传配音或歌唱，利用“对口型”功能让视频中的人物“说话”“唱歌”。无论是真实人物还是2D、3D人物，均可实现音频与视频画面的高度融合。

　　在可灵展示的视频中，一位3D卡通小男孩微笑着介绍着上述新功能，其面部形态、唇形和语音内容完美契合，眼睛自然眨动、头部运动也全然符合真实人物的说话形态，体现了音频内容与视频人物嘴型精准结合。

　　除了“对口型”功能，本次升级中，可灵AI正式面向所有用户开放API（应用程序接口）服务，包括全面开放视频生成、图像生成、虚拟试穿等接口能力，并支持在线下单、Key管理、订单管理、用量查询等全流程操作。而且，开发者无需申请，自助下单即可快速接入。

　　业内人士看来，在本轮升级之后，可灵AI的易用性和开放性进一步提升。能够在更为复杂的需求场景下，满足更多元化的内容创作需求。

　　值得注意的是，最新的可灵AI，还上线了创作社区“创意圈”，为创作者打造一个AI创作的专属交流平台。使用方法很简单，创作者可自行上传素材或短片等，发布作品，也可以在完成可灵AI生成视频或图片时直接分享至该社区“创意圈”。与此同时，为了鼓励更多优质的内容创作，平台上线了限时灵感值激励方案，单个作品最高可得666灵感值。

　　全球同步升级1.5模型

　　直出1080p高清视频

　　实际上，9月19日，可灵AI就迎来一场“硬核”的升级——新增可灵1.5模型，并且全球开放同步。作为基座模型级别的升级，全新的1.5模型相比1.0模型，在画面质量、动态质量、文本响应度等方面有显著效果提升，其内部评测显示，新版本整体效果提升95%。

　　基座模型迭代后，可灵AI就可直接生成1080p高清视频。举例来讲，同时在新旧两个版本中输入提示词“女孩看着车窗”，对比视频生成的效果，可以发现，全新1.5模型所生成的视频画面质量有显著提升：画面清晰度直观可感，画面内的女孩面部细节更清晰丰富，车窗的水雾、整体光影表现等也都更加出色。同时，在新模型下，画面整体构图也进一步优化，画面更具美感。

　　在图生视频方面，可灵1.5模型能响应更复杂的文本描述要求。根据平台的演示，利用一张没有人物的食物照片，加上提示词“镜头拉远，一个小男孩走到桌前拿起勺子开始吃饭”。在1.5模型下生成的视频是：随着镜头的微微晃动，一个勺子“入场”，然后画面聚焦到握着勺子的小男孩，看他将一勺饭菜送到嘴里，勺子在碗里拨开饭粒的细节也能够被细致地呈现出来。这样的视频细节，充分显示了新模型下图生视频理解能力的强大。

　　从1.0模型迭代到1.5模型，可灵还加入了“运动笔刷”功能。这项功能支持创作者为图片中的元素（人或物体等）指定运动轨迹，大幅提升用户在图生视频中运动效果的控制能力。

　　具体来看，通过“运动笔刷”功能，创作者只需将图片中需要控制运动方向的部分勾勒出来，然后画一个示意运动方向箭头，就可实现精准运动控制。上传图片后，最多能为图中的六个元素（人或物体等）指定运动轨迹。此外，还可以为某些元素额外指定静止区域，让视频内容有更好的运动控制及运动表现。

　　目前，横屏（16:9、4:3）、竖屏（9:16、3:4）、方屏（1:1）等多种尺寸格式的图片，可灵AI都支持使用“运动笔刷”生成视频，生成视频时长为5秒。

　　三个月累计生成2700万个视频

　　与多位导演共创AIGC电影

　　自今年6月6日发布至今，三个多月，这款国产自研的视频生成模型已实现十次升级。7月底，快手可灵AI全球会员体系上线，其商业化“落地”，大大超越了全球一些AI公司所推出的视频生成模型。

　　作为快手推出的视频生成大模型，其目标就是将视频创作门槛大大降低，让广大创作者体验到AIGC生产力的高效与魅力。因而，版本升级的同时，可灵AI近期上线了一系列新功能，包括支持一次性生成最多4条视频，方便创作者快速选取到最优生成结果；“图生视频”功能新增支持10秒时长并在标准模式下支持增加尾帧；“AI图片”功能支持“画质增强”。此外，官方也上线了使用指南，帮助创作者更好地掌控可灵AI……

　　如今，可灵AI吸引了越来越多的全球创作者使用。早前举行的快手科技2024年投资者日上，快手高级副总裁、主站业务与社区科学线负责人盖坤表示，累计超260万人使用过可灵AI，并累计生成超2700万个视频、5300万张图片。

　　随着技术与产品的持续创新突破，在专业领域，可灵AI的想象空间也在不断拓宽。9月，快手宣布“可灵AI”导演共创计划启动，李少红、贾樟柯、叶锦添、薛晓路、俞白眉、董润年、张吃鱼、王子川、王卯卯等9位知名导演，将依托可灵AI的技术能力，制作出品9部时长3分钟左右的电影短片。

　　这次依托于可灵AI进行的电影级别内容共创，既是首个AIGC导演共创计划在国内的正式落地，也是李少红、贾樟柯等导演个人创作生涯中首次创作AIGC电影短片。

　　盖坤表示，可灵AI不仅是全球内容创作者的创意工具，也有望成为影视行业的新质生产力。“作为先行者，我们希望携手影视行业一起抓住产业智能化升级的历史性机遇，共同探索生成式AI的行业新生态和产业新格局。”

　　专题

最新上线“对口型”功能 开放API服务

最新上线“对口型”功能开放API服务