ChatGPT-4o，OpenAI的一小步，人类「AI助理」的一大步-Kedou视频解析

5月13日，OpenAI以一场春季发布会再次轰动整个人工智能行业。在SamAltman缺席的情况下，OpenAICTOMiraMurati介绍了ChatGPT新产品ChatGPT-4o。发布会虽然只有26分钟，但却几乎是对科幻电影《Her》的现实演绎。当你打开ChatGPT时，你面对的不再是一个只能帮你生成内容或进行僵化语音聊天的工具——你唤起的将是一个“万能”的语音助手，或者说，一个越来越强大的语音助手。越接近人类“物种”。

它长出了“眼睛”，可以通过摄像头看到你。例如，它可以通过研究者扬起的嘴角判断他的情绪，通过周围的环境和背景判断他在做什么，甚至给出造型建议；它可以“看到”你的电脑桌面，直接帮你检查你写的代码是否有问题。

它有更灵敏的“耳朵”。它不仅可以理解语言，还可以理解研究者过快的呼吸，引导他缓慢稳定地呼吸，放松心情。

OpenAICTOMuraMurati宣布推出ChatGPT-4o|图片来源：OpenAI

它有更灵活的“嘴巴”，说话不再有延迟，你可以随时打断它，它也可以随时抓住你。它的声音可以带来情感，比如更加平静，更加热情，甚至讽刺。它还可以唱歌。

它还有一个更聪明的“大脑”。它可以帮助研究人员逐步解决不等式，还可以进行同声翻译。您可以通过它与不同语言的人进行交流。

这些强大能力的背后，是OpenAI推出的新型号GPT-4o。与现有模型相比，GPT-4o最大的改进在于它可以实时推理音频、视觉和文本-换句话说，它让ChatGPT实现真正的多模态交互。

这不仅是追求技术进步，更是追求应用普及。OpenAI的使命之一就是让人工智能触手可及，而用户能否顺利使用人工智能至关重要。在“模型即应用”时代，这种交互体验最终取决于模型能力的提升。OpenAI表示，GPT-4o（“o”代表“omni”）是迈向更自然的人机交互的一步。

发布会上，MiraMurati宣布ChatGPT-4o将免费向所有用户开放，而付费用户和企业用户可以抢先体验。

电影《Her》于2013年上映，讲述了一个人类爱上人工智能语音助手的故事。从今天ChatGPT所呈现的能力来看，这种想象正在加速成为现实。

01、ChatGPT的惊人进步：变身人类“超级助手”，甚至不需要人类参与

在OpenAI官网上，ChatGPT被呈现为个人语音“超级助手”助手”更多精彩应用场景。

首先，它是针对个人用户的。和人一样，主要提供“情感价值”和“认知价值”。例如，它可以讲笑话、唱生日快乐歌、玩游戏、逗狗、催眠人、放松人等；可以充当面试官并提供面试建议；它还可以为盲人提供环境观察，告诉他看到的风景，提醒他过马路时的交通状况。

盲人用户使用ChatGPT-4o“观察”整个世界|图片来源：OpenAI

然后是面向多用户的，它提供的更多的是“协作价值”。例如，为两个不懂语言的人担任翻译，让他们可以毫无障碍地交流；担任两人之间“石头剪刀布”游戏的裁判。首先喊出命令让比赛开始，然后准确判断谁赢了；担任裁判员。“家教”辅导父亲做孩子的作业；他甚至充当“会议第三方”，主持并录制多人会议。

最有趣的是不同ChatGPT之间的对话。这种无需人类参与的交流不仅充满了科幻色彩，也让人们开始想象一个不需要人类协作、机器取代人类协作的未来。在演示中，用户要求一部手机的ChatGPT代表他向另一部手机的ChatGPT申请售后服务。结果，两个ChatGPT毫无阻碍地聊了两分钟，成功帮助用户“商品已调换”。OpenAI总裁格雷格·布罗克曼(GregBrockman)进行了一次顽皮的演示，他让两个ChatGPT互动并唱歌。

OpenAI总裁GregBrockman演示两个GPT的交互｜图片来源：OpenAI

一位10年前开始从事“AI语音助手”工作的前大工厂高管告诉极客公园，他曾想象过AI助手的终极形态应该是“多模态、无所不能”，但当时技术并不支持。他相信ChatGPT将加速实现这个想法的可能性——但他没想到这个过程会成为现实。很快。

他认为，实现AGI的关键标志是机器能否具备自主学习、自主迭代、自主解决问题的能力。这个突破看似很遥远，但当两个ChatGPT开始互相聊天时，鸿沟似乎变得更浅了一些。

02、GPT-4o多模态大模型的技术进步与安全性

这些令人惊叹的产品性能从根本上源自GPT-4o多模态大模型技能的提升。后者分为文本、语音、图像三部分。GPT-4o在这三个部分都进行了改进，尤其是后两个部分。

文字方面，根据OpenAI的技术报告，GPT-4o在MMLU（语言）、GPQA（知识）、MATH（数学）、HumanEval（编程）的评估指标上超过了GPT-4T和GPT-。4（最初于3月23日发布），以及竞争产品Claude3Opus、GeminiPro1.5、Llama3400b和GeminiUltra1.0。例如，在0-shotCOTMMLU上，GPT-4o取得了88.7%的新高分。

GPT-4o具有出色的文本结果|图片来源：OpenAI

最关键的是音频、多语言和视觉方面的进步。

在音频方面，以往ChatGPT的音频缺陷是需要经过三个独立的模型，导致延迟，无法承载丰富的信息。它首先通过第一个模型将音频转录为文本，然后使用GPT-3.5或GPT-4接收文本并输出文本，最后第三个模型将文本转换回音频-一方面，它使得音频的传输存在延迟，GPT-3.5的平均延迟为2.8秒，GPT-4的平均延迟为5.4秒。另一方面，该模型丢失了大量信息，无法直接观察音高、多个扬声器或背景噪音，也无法输出笑声、歌唱或情感表达。

GPT-4o的解决方案是跨文本、视觉和音频端到端训练新模型，这意味着所有输入和输出都由同一神经网络处理。OpenAI表示，这是他突破深度学习界限的最新举措。目前，GPT-4o可以在短至232毫秒、平均320毫秒的时间内响应音频输入，与人类的响应时间相似。同时，GPT-4o在音频ASR性能和翻译性能方面比Whisper-v3（OpenAI语音识别模型）有更好的表现。

M3Exam基准可用于多语言和视觉评估。它由多项选择题组成，并包含图表。GPT-4o在所有语言基准测试中都比GPT-4更强。此外，在视觉理解评估方面，GPT-4o在视觉感知基准上实现了state-of-the-art的表现。

GPT-4o也擅长视觉理解|图片来源：OpenAI

一位大型模型训练师曾告诉极客公园，模型的技术领先从来不是靠排名，而是靠用户最真实的感受和体验。从这个角度来看，GPT-4o的技术领先性就显而易见了。

OpenAI表示，GPT-4o的文字和图像功能将于会议当天在ChatGPT上线。免费用户可以使用它，但Plus订阅者可以享受高达5倍的消息容量。未来几周，OpenAI将在ChatGPTPlus中推出新版本的语音模式GPT-4oalpha。

开发人员现在可以在API中访问GPT-4o的文本和视觉模型。与GPT-4Turbo相比，GPT-4o速度提高2倍，价格降低一半，并且速率限制提高5倍。在接下来的几周内，Yao计划向一小群值得信赖的合作伙伴推出GPT-4o的新音频和视频功能。

一个强大的技术最让人担心的就是它的安全性和可控性。这也是OpenAI的核心考虑之一。

OpenAI表示，GPT-4o通过过滤训练数据和训练后细化模型行为等技术，将安全性内置到跨模态设计中。它还创建了一个新的安全系统来保护语音输出。为了确保更好的安全性，OpenAI表示，在未来几周和几个月内，他将致力于技术基础设施、培训后的可用性以及发布其他模式所需的安全性。

03、OpenAI从不让外界失望，再次引领科技圈未来

作为这波AI浪潮的发起者和引领者，OpenAI的每一次发布和更新都与其巨大的用户数量的升降、公司竞争的进退、以及整个行业的关注和动向。

在这次发布会之前，关于OpenAI的传闻和质疑有很多。一周前，外媒报道称OpenAI将要发布搜索引擎。在今年最重要的新闻发布时刻，该公司没有推出GPT-5，引发了外界对其创新的质疑。有很多疑问。而如果不能拿出足够创新的技术和产品，公司就很难重振用户增长，也很难满足整个市场的期望。

自2022年底ChatGPT上线以来，该公司经历了用户数量的起伏。据Similarweb估计，其全球访问量在2023年5月达到峰值18亿。但进入2023年下半年后，其用户数量有所下降，仍未追平去年5月的全球访问峰值记录。

ChatGPT自2022年11月以来全球和美国的流量增长｜图片来源：Similarweb

这次发布会与其用户群的增长直接相关。

外界对于搜索引擎还是非常关注的。Sameweb表示，该消息导致当天ChatGPT流量激增。不过，在发布会前两天，OpenAI首席执行官SamAltman澄清，这次既不会发布GPT-5，也不会发布搜索引擎，“但我们一直在努力开发一些我们认为人们会喜欢的新东西！”对我来说感觉就像魔法一样。”他把它描述得更小。

或许，人们对这场OpenAI发布会的期待不高。但最终，他们得到的却是强烈的震撼。这或许就是OpenAI想要的反差效果。

无论是去年这个时候的最初的GPT-3.5、GPT-4、去年底的GPT，还是今年年初的Sora——OpenAI再次证明了它不会让世界失望。尽管谷歌、克劳德、CharacterAI、Perplexity等竞争对手正在抢夺更多的新用户和资本，但OpenAI仍然证明了自己有能力引领技术创新的“高地”。

ChatGPT与其他聊天机器人的访问量对比｜图片来源：Similarweb

OpenAI推出基于GPT-4o的“超级智能助手”后，这似乎是各大科技厂商追赶的下一步。方向。

据外媒报道，谷歌最近一直在测试利用人工智能来打电话。有传言称，它将推出一款名为“Pixie”的多模态个人助理，作为“GoogleAssistant”的替代品。它可以通过摄像头查看物体并执行人类命令。这将于明天的GoogleI/O大会上揭晓。

近日，外媒还报道称，苹果即将与OpenAI达成协议。在6月份的苹果年度全球开发者大会上，苹果可能会在iOS18中推出由ChatGPT提供支持的“”。Chatbot”，这可能会对苹果个人语音助手Siri产生颠覆性影响。

很难想象，短短一年半的时间，OpenAI就将科技推向了今天的高度，让“超级助手”的想象如此之快地出现在我们眼前。然而，这只是OpenAI所释放的技术实力的冰山一角。毕竟我们今天讨论的只是GPT-4的更新，还不是GPT-5。OpenAI会给我们带来多大的震撼、带来多少的担忧，都是未知的问题。

如果从未来科技的隧道中回望，今天GPT-4o“超级语音助手”的诞生或许会成为科技史上具有里程碑意义的时刻。但也许正如OpenAI首席运营官BradLightcap几天前所说，“在接下来的12个月里，我们应该感觉到我们今天使用的（AI）系统糟糕得可笑。”

首页

视频解析

批量解析下载

下载器

教程

博客

字幕弹幕
字幕下载
哔哩哔哩
YouTube
腾讯（国际版）
优酷（海外版）
爱奇艺（国际版）
Dailymotion
Ted
Viki
Vimeo
Weverse
弹幕下载
哔哩哔哩
爱奇艺
腾讯视频
优酷视频
抖音
芒果TV
西瓜视频

歌词下载
网易云音乐
QQ音乐
酷狗音乐
酷我音乐
千千音乐

文本提取
知乎
小红书
CSDN
博客园
简书
百度文库
PHP中文网
51CTO博客
脚本之家

联系我们

ChatGPT-4o，OpenAI的一小步，人类「AI助理」的一大步

01、ChatGPT的惊人进步：变身人类“超级助手”，甚至不需要人类参与

02、GPT-4o多模态大模型的技术进步与安全性

03、OpenAI从不让外界失望，再次引领科技圈未来

首页

视频解析

批量解析下载

下载器

教程

博客

字幕弹幕 字幕下载 哔哩哔哩 YouTube 腾讯（国际版） 优酷（海外版） 爱奇艺（国际版） Dailymotion Ted Viki Vimeo Weverse 弹幕下载 哔哩哔哩 爱奇艺 腾讯视频 优酷视频 抖音 芒果TV 西瓜视频

歌词下载 网易云音乐 QQ音乐 酷狗音乐 酷我音乐 千千音乐

文本提取 知乎 小红书 CSDN 博客园 简书 百度文库 PHP中文网 51CTO博客 脚本之家

联系我们

ChatGPT-4o，OpenAI的一小步，人类「AI助理」的一大步

01、ChatGPT的惊人进步：变身人类“超级助手”，甚至不需要人类参与

02、GPT-4o多模态大模型的技术进步与安全性

03、OpenAI从不让外界失望，再次引领科技圈未来

字幕弹幕
字幕下载
哔哩哔哩
YouTube
腾讯（国际版）
优酷（海外版）
爱奇艺（国际版）
Dailymotion
Ted
Viki
Vimeo
Weverse
弹幕下载
哔哩哔哩
爱奇艺
腾讯视频
优酷视频
抖音
芒果TV
西瓜视频

歌词下载
网易云音乐
QQ音乐
酷狗音乐
酷我音乐
千千音乐

文本提取
知乎
小红书
CSDN
博客园
简书
百度文库
PHP中文网
51CTO博客
脚本之家