第A13版:经济

GPT-4o人机交互取得重大进步 AI已能感知人类的情绪

智能终端、机器人迎重大利好

文静

本文字数:1504

  热点聚焦

  广州日报讯 (全媒体记者 文静)全球人工智能初创公司OpenAI又一次“炸裂”行业。5月14日,OpenAI公布了最新的旗舰GPT-4o模型。从现场演示来看,GPT-4o最惊人的地方是其更自然的人机交互能力,甚至能读懂人类的情绪,被行业形容科幻电影《Her》的现实版。

  机构分析,GPT-4o是迈向更自然的人机交互的重大进步,新功能带来了崭新的多模态交互能力,通过新的端到端模型实现了体验上的新突破,有望在各类终端实现用户体验的最大化。

  聊天对话“丝滑”犹如真人

  所谓“多模态”AI是指能处理文本、音频、图像、视频和代码等多种形式内容的大模型。不管是全球还是国内,近两年模态AI的发展超市场预期。今年2月,OpenAI发布Sora到目前最新的GPT-4o,不到3个月时间。即将举办的谷歌I/O开发者大会,亦将会公布包括人工智能大模型Gemma最新的进展。

  跟你对话的AI机器人竟然能读懂你的情绪。全球人工智能初创公司OpenAI发布的多模态模型GPT-4o再度让AI同行“炸裂”。据介绍,GPT-4o文本、推理、编码能力达到GPT-4 Turbo水平,速度是上一代AI大模型GPT-4 Turbo的两倍,但成本仅为GPT-4 Turbo的一半,视频、音频功能得到改善。最令人惊讶的是,有着GPT-4o加持的ChatGPT,在演示与人对话时,“丝滑”得如同真人,其语音响应时间短至232毫秒,与人类反应速度一致;加上支持将文本、音频、图像任何组合作为输入和输出。“它已经近乎一个真人,对话没有尴尬的停顿点,也没有理解障碍的地方。”业内人士评价。

  众所周知,AI语音聊天并非新鲜事,但是目前大部分的AI聊天工具,其对话模式都较为生硬而且模式化,也就说,人是知道跟我们聊天的另一端究竟是机器还是真人客服。假如实际应用中,GPT-4o真能达到演示中的水平,人们或许就会在对话中逐渐“忘记”另一侧是机器了。

  国内巨头入局争取后来居上

  OpenAI这波“王炸”,势必加速多家公司对多模态大模型研发的投入,以及多模态领域的争夺。

  全球科技公司Meta在早前公布的今年第一季度财报中表示,公司今年在人工智能的投资将比预计多数十亿美元。公开信息显示,微软不仅对OpenAI投资了130亿美元,还向人工智能初创公司Anthropic投资了数十亿美元。3月,有消息指亚马逊将对人工智能初创公司Anthropic的投资总额追加到40亿美元。

  国内市场,百度、阿里巴巴、字节跳动、腾讯等大厂,及大模型公司昆仑万维、科大讯飞、商汤等均积极布局多模态。

  艾媒咨询CEO张毅表示,在多模态领域,OpenAI目前还有一定的先发优势,但我国国内也有许多企业在该领域发力,长远来看,鹿死谁手尚待观察。

  行业观察

  我国AIGC产业2030年有望达万亿元

  多模态AI的快速迭代,带动了多模态在不同领域的应用。业内预期,多模态AI将解锁新的商业机会,除了最初的游戏、广告营销以外,医疗、搜索、自动驾驶、消费电子等领域都逐渐能见到多模态模型的身影。

  国盛证券研报认为,GPT-4o带来了崭新的多模态交互能力,通过新的端到端模型实现了体验上的新突破,有望在各类终端实现用户体验的最大化,利好智能终端Agent、机器人等方向。

  机构研报指出,近期,ChatGPT、Kimi+等应用/模型发布更新,AI应用有望加快落地,AI的版本迭代有望带来投资机会,同时, AI更新和应用落地也有望提振芯片行业。

  据第三方平台发布的《中国AIGC应用全景报告》显示,2024年中国AIGC(生成式人工智能)应用市场规模将达200亿元,2030年达万亿元规模,2024年到2028年的年平均复合增长率将超30%。

分享到微信
使用"扫一扫"即可将网页分享至朋友圈
版权所有 不得转载
1999-2011@广州市交互式信息网络有限公司 (大洋网)
经营许可证编号:粤B2-20040381信息网络传播视听节目许可证: 1906152
联系我们:81883088总机转各部门
订报咨询电话:81911089
广告咨询电话:81163279
广州日报官方微信
广州日报APP
广州日报经济 A13智能终端、机器人迎重大利好 文静2024-05-15 2 2024年05月15日 星期三