热点聚焦
广州日报讯 (全媒体记者 文静)全球人工智能初创公司OpenAI又一次“炸裂”行业。5月14日,OpenAI公布了最新的旗舰GPT-4o模型。从现场演示来看,GPT-4o最惊人的地方是其更自然的人机交互能力,甚至能读懂人类的情绪,被行业形容科幻电影《Her》的现实版。
机构分析,GPT-4o是迈向更自然的人机交互的重大进步,新功能带来了崭新的多模态交互能力,通过新的端到端模型实现了体验上的新突破,有望在各类终端实现用户体验的最大化。
聊天对话“丝滑”犹如真人
所谓“多模态”AI是指能处理文本、音频、图像、视频和代码等多种形式内容的大模型。不管是全球还是国内,近两年模态AI的发展超市场预期。今年2月,OpenAI发布Sora到目前最新的GPT-4o,不到3个月时间。即将举办的谷歌I/O开发者大会,亦将会公布包括人工智能大模型Gemma最新的进展。
跟你对话的AI机器人竟然能读懂你的情绪。全球人工智能初创公司OpenAI发布的多模态模型GPT-4o再度让AI同行“炸裂”。据介绍,GPT-4o文本、推理、编码能力达到GPT-4 Turbo水平,速度是上一代AI大模型GPT-4 Turbo的两倍,但成本仅为GPT-4 Turbo的一半,视频、音频功能得到改善。最令人惊讶的是,有着GPT-4o加持的ChatGPT,在演示与人对话时,“丝滑”得如同真人,其语音响应时间短至232毫秒,与人类反应速度一致;加上支持将文本、音频、图像任何组合作为输入和输出。“它已经近乎一个真人,对话没有尴尬的停顿点,也没有理解障碍的地方。”业内人士评价。
众所周知,AI语音聊天并非新鲜事,但是目前大部分的AI聊天工具,其对话模式都较为生硬而且模式化,也就说,人是知道跟我们聊天的另一端究竟是机器还是真人客服。假如实际应用中,GPT-4o真能达到演示中的水平,人们或许就会在对话中逐渐“忘记”另一侧是机器了。
国内巨头入局争取后来居上
OpenAI这波“王炸”,势必加速多家公司对多模态大模型研发的投入,以及多模态领域的争夺。
全球科技公司Meta在早前公布的今年第一季度财报中表示,公司今年在人工智能的投资将比预计多数十亿美元。公开信息显示,微软不仅对OpenAI投资了130亿美元,还向人工智能初创公司Anthropic投资了数十亿美元。3月,有消息指亚马逊将对人工智能初创公司Anthropic的投资总额追加到40亿美元。
国内市场,百度、阿里巴巴、字节跳动、腾讯等大厂,及大模型公司昆仑万维、科大讯飞、商汤等均积极布局多模态。
艾媒咨询CEO张毅表示,在多模态领域,OpenAI目前还有一定的先发优势,但我国国内也有许多企业在该领域发力,长远来看,鹿死谁手尚待观察。
行业观察
我国AIGC产业2030年有望达万亿元
多模态AI的快速迭代,带动了多模态在不同领域的应用。业内预期,多模态AI将解锁新的商业机会,除了最初的游戏、广告营销以外,医疗、搜索、自动驾驶、消费电子等领域都逐渐能见到多模态模型的身影。
国盛证券研报认为,GPT-4o带来了崭新的多模态交互能力,通过新的端到端模型实现了体验上的新突破,有望在各类终端实现用户体验的最大化,利好智能终端Agent、机器人等方向。
机构研报指出,近期,ChatGPT、Kimi+等应用/模型发布更新,AI应用有望加快落地,AI的版本迭代有望带来投资机会,同时, AI更新和应用落地也有望提振芯片行业。
据第三方平台发布的《中国AIGC应用全景报告》显示,2024年中国AIGC(生成式人工智能)应用市场规模将达200亿元,2030年达万亿元规模,2024年到2028年的年平均复合增长率将超30%。