OpenAI发布的GPT-4o究竟“牛”在哪儿?
今天实现这一突破的还是OpenAI。可以说,在大模型混战日益激烈的今天,OpenAI释放了又一重磅炸弹——GPT-4o。
2024-05-17 09:32:25
来源:天极网  

【天极网企业频道】先是GPT的持续迭代,后是文生视频的Sora的一骑绝尘,一直被OpenAI牵着鼻子走的大模型在经历繁花似锦的一年之后,终于在行业化场景化尝试落地,并于多模态能力寻求新的突破。 

GPT-4o横空出世

而今天实现这一突破的还是OpenAI。可以说,在大模型混战日益激烈的今天,OpenAI释放了又一重磅炸弹——GPT-4o。

事情是这样的。今天凌晨,OpenAI在其春季发布会上推出最新杰作GPT-4o,以其突破性的智能交互能力,彻底颠覆了我们对AI语音助手的认知。

在一段简短的视频中,OpenAI揭晓了其新一代AI大模型GPT-4o,该模型能够实时进行音频、视觉和文本的推理。GPT-4o中的“o”源自Omni,即“全能”,体现了其全面而强大的能力。 

何为全能?在发布现场,OpenAI技术负责人穆拉迪(Mira Murati)表示:“新型号GPT-4o‘速度快得多’,在文本、视频和音频方面都有改进,公司最终计划让用户与ChatGPT进行视频聊天。这是我们第一次在易用性方面迈出巨大的一步。”

据透露,相较于先前的GPT-4 Turbo,GPT-4o在运算速度和成本效益方面均实现了显著的优化。

更为出色的是,GPT-4o拥有对文本、图像、音频等多种信息模态的处理能力,从而为用户提供了更为自然且流畅的交互体验。

更快更强还免费

OpenAI不仅发布全新旗舰大模型GPT-4o,还更新界面以提高用户使用体验,并且宣布免费开放使用,付费用户享有五倍的使用容量限制。

在免费使用方面,官方给出的免费限制在一定消息数量上,超过这个消息量之后,免费的模型将被切回ChatGPT。这是GPT-4o的优势之一。

在API使用上,GPT-4o相较于去年11月发布的GPT-4-turbo,价格降低了50%,速度提升了200%,进一步提升了性价比。

更令人期待的是,未来几周内,GPT-4o的语音和视频输入功能也将陆续推出,为用户带来更多元的交互方式。 

与现有的大模型相比,GPT-4o在音频与视觉方面表现得尤为出色。其中,在音频方面,GPT-4o可以在短至232毫秒的时间内响应用户的语音输入,这也意味着320毫秒的用时已经接近人类在日常对话中的反应时间。

而在GPT-4o之前,用户使用Voice Mode(由三个独立模型组成)与ChatGPT通话,但平均延迟为2.8秒(GPT-3.5)和5.4秒(GPT-4)。这也进一步证明了GPT-4o的先进之处。

同时,GPT-4o能够应对文本、音频和图像任意组合的多元化输入,并据此生成相应类型的任意组合输出。

此外,GPT-4o在英语文本和代码处理方面的表现与GPT-4 Turbo旗鼓相当,而在非英语文本的处理能力上,GPT-4o更是展现出了显著的性能提升。

据悉,GPT-4o在设计中内置了跨模式的安全性,并创建了新的安全系统,为语音输出提供护栏。

此外,GPT-4o还与来自社会心理学、偏见和公平、错误信息等领域的70多名外部专家开展广泛的外部团队合作,以识别新增加的模式引入或放大的风险,提高与GPT-4o互动的安全性。

不停歇的OpenAI

从GPT到Sora再到GPT-4o,可以说,OpenAI在大模型创新的路上持续前行,并在大模型领域一骑绝尘。

早在上周便有消息传出,OpenAI准备推出一款AI搜索引擎,并将矛头指向Google即将召开的I/O大会。然而,AI搜索引擎并未如期而至,到来的是GPT-4o。 

GPT-4o不仅能通过声音和文字跟人交流,还能识别物体和图像,并且逻辑推理能力也比现在市面上的产品要强。

可以说,GPT-4o将转录音频和文本转语音等功能合二为一,构建一个更懂图像和音频的多模态模型,响应速度也更快。

在笔者看来,无论是上个月推出的“语音引擎”(Voice Engine),还是更早些时候发布的 TTS(文本转语音)软件,都有着不俗的表现,有着更为广泛的应用场景,且实用性更强。

以微软为例,微软也在考虑用技术来提升语音助手,OpenAI表示,这次更新“是朝着实用性的方向发展。”

除了探索更为实用的场景外,OpenAI也将推出新的定价模式,调查数据显示,一直“烧钱”的OpenAI今年预计将迎来数十亿美元的收入。

据悉,假如客户通过预付费预定Tokens,便能享受高达50%。一些AI服务器经销商曾表示,在他们的软件上运行开源模型比使用OpenAI的模型便宜六倍。

毫无疑问,这种更灵活的定价,将有助于OpenAI更好地与其他模型开发人员和AI服务器经销商竞争。

寻求场景化落地与商业化是OpenAI解决烧钱焦虑的重要方法,通过发布GPT-4o,我们看到OpenAI的决心与实力。

写在最后

在竞争激烈的大模型市场,OpenAI接连发布重磅版本,一骑绝尘。

不管我们承认与否,在GPT-4o的发布下,大模型的多模态交互的能力再次被拉高,OpenAI仍然站在多模态的最高峰。

接下来,让我们期待大模型领域其他玩家的新发布。

最新文章
1
华宝新能闪耀CES2026:光储与机器人融合,引领打造光储智能新生态
2
《2025快手热点年度趋势报告》发布:每日2.6亿老铁“上快手追热点”
3
对抗路夫妻悲情上演纯爱虐恋,快手星芒短剧《昭宁诀》催泪完结
4
飞天茅台仅售1428元!大牌年货重磅补贴,快手年货节预售开抢
5
对话京东方苏宁:CES2026高擎“科技+绿色”大旗 HERO生态将向全域延伸
6
长虹AI人感新品矩阵震撼亮相 驱动空调行业迈进“主动感知”新纪元
7
投影巨头跨界!极米在CES发布AI眼镜品牌MemoMind
8
空调行业“铝代铜”,权威协会的五大倡议,怎么解读?
9
超过8年必须更换!厨房需求升级,谁是燃气灶、油烟机的“安全哨兵”?
10
三星在CES 2026“The First Look”活动中发布“AI生活伴侣”愿景
11
海信CES发布全新一代RGB-Mini LED,全球首创玲珑4芯真彩背光
12
2026电视行业新动向:高端技术下放推动竞争升维
13
海信空调智慧风Pro新品将首次亮相CES 2026,解锁智能空气新体验
14
好画质不只高色域!TCL SQD技术下放Q10M系列,重新洗牌高端电视市场
15
杜比与抖音携手以杜比视界赋能新一代创作者
16
Proteintech选择亚马逊云科技为首选云服务商,构建行业首个AI抗体助手加速科研创新
17
抢占下一代交互入口:智能眼镜缘何晋级“国补”新贵?
18
贾跃亭《北京北京》爆火是集体情绪释放和普通人心中不可熄灭的火
19
铜价大幅上涨,2026龙头空调企业开始提价,行业开打价值战?
20
见证中国显示产业从“规模登顶”到“高端引领”的跃迁时刻:解码京东方
关于我们

微信扫一扫,加关注

商务合作
  • QQ:61149512