5月13日,OpenAI以一场春季发布会再次轰动整个人工智能行业。在SamAltman缺席的情况下,OpenAICTOMiraMurati介绍了ChatGPT新产品ChatGPT-4o。发布会虽然只有26分钟,但却几乎是对科幻电影《Her》的现实演绎。当你打开ChatGPT时,你面对的不再是一个只能帮你生成内容或进行僵化语音聊天的工具——你唤起的将是一个“万能”的语音助手,或者说,一个越来越强大的语音助手。越接近人类“物种”。
它长出了“眼睛”,可以通过摄像头看到你。例如,它可以通过研究者扬起的嘴角判断他的情绪,通过周围的环境和背景判断他在做什么,甚至给出造型建议;它可以“看到”你的电脑桌面,直接帮你检查你写的代码是否有问题。
它有更灵敏的“耳朵”。它不仅可以理解语言,还可以理解研究者过快的呼吸,引导他缓慢稳定地呼吸,放松心情。
OpenAICTOMuraMurati宣布推出ChatGPT-4o|图片来源:OpenAI
它有更灵活的“嘴巴”,说话不再有延迟,你可以随时打断它,它也可以随时抓住你。它的声音可以带来情感,比如更加平静,更加热情,甚至讽刺。它还可以唱歌。
它还有一个更聪明的“大脑”。它可以帮助研究人员逐步解决不等式,还可以进行同声翻译。您可以通过它与不同语言的人进行交流。
这些强大能力的背后,是OpenAI推出的新型号GPT-4o。与现有模型相比,GPT-4o最大的改进在于它可以实时推理音频、视觉和文本-换句话说,它让ChatGPT实现真正的多模态交互。
这不仅是追求技术进步,更是追求应用普及。OpenAI的使命之一就是让人工智能触手可及,而用户能否顺利使用人工智能至关重要。在“模型即应用”时代,这种交互体验最终取决于模型能力的提升。OpenAI表示,GPT-4o(“o”代表“omni”)是迈向更自然的人机交互的一步。
发布会上,MiraMurati宣布ChatGPT-4o将免费向所有用户开放,而付费用户和企业用户可以抢先体验。
电影《Her》于2013年上映,讲述了一个人类爱上人工智能语音助手的故事。从今天ChatGPT所呈现的能力来看,这种想象正在加速成为现实。
在OpenAI官网上,ChatGPT被呈现为个人语音“超级助手”助手”更多精彩应用场景。
首先,它是针对个人用户的。和人一样,主要提供“情感价值”和“认知价值”。例如,它可以讲笑话、唱生日快乐歌、玩游戏、逗狗、催眠人、放松人等;可以充当面试官并提供面试建议;它还可以为盲人提供环境观察,告诉他看到的风景,提醒他过马路时的交通状况。
盲人用户使用ChatGPT-4o“观察”整个世界|图片来源:OpenAI
然后是面向多用户的,它提供的更多的是“协作价值”。例如,为两个不懂语言的人担任翻译,让他们可以毫无障碍地交流;担任两人之间“石头剪刀布”游戏的裁判。首先喊出命令让比赛开始,然后准确判断谁赢了;担任裁判员。“家教”辅导父亲做孩子的作业;他甚至充当“会议第三方”,主持并录制多人会议。
最有趣的是不同ChatGPT之间的对话。这种无需人类参与的交流不仅充满了科幻色彩,也让人们开始想象一个不需要人类协作、机器取代人类协作的未来。在演示中,用户要求一部手机的ChatGPT代表他向另一部手机的ChatGPT申请售后服务。结果,两个ChatGPT毫无阻碍地聊了两分钟,成功帮助用户“商品已调换”。OpenAI总裁格雷格·布罗克曼(GregBrockman)进行了一次顽皮的演示,他让两个ChatGPT互动并唱歌。
OpenAI总裁GregBrockman演示两个GPT的交互|图片来源:OpenAI
一位10年前开始从事“AI语音助手”工作的前大工厂高管告诉极客公园,他曾想象过AI助手的终极形态应该是“多模态、无所不能”,但当时技术并不支持。他相信ChatGPT将加速实现这个想法的可能性——但他没想到这个过程会成为现实。很快。
他认为,实现AGI的关键标志是机器能否具备自主学习、自主迭代、自主解决问题的能力。这个突破看似很遥远,但当两个ChatGPT开始互相聊天时,鸿沟似乎变得更浅了一些。
这些令人惊叹的产品性能从根本上源自GPT-4o多模态大模型技能的提升。后者分为文本、语音、图像三部分。GPT-4o在这三个部分都进行了改进,尤其是后两个部分。
文字方面,根据OpenAI的技术报告,GPT-4o在MMLU(语言)、GPQA(知识)、MATH(数学)、HumanEval(编程)的评估指标上超过了GPT-4T和GPT-。4(最初于3月23日发布),以及竞争产品Claude3Opus、GeminiPro1.5、Llama3400b和GeminiUltra1.0。例如,在0-shotCOTMMLU上,GPT-4o取得了88.7%的新高分。
GPT-4o具有出色的文本结果|图片来源:OpenAI
最关键的是音频、多语言和视觉方面的进步。
在音频方面,以往ChatGPT的音频缺陷是需要经过三个独立的模型,导致延迟,无法承载丰富的信息。它首先通过第一个模型将音频转录为文本,然后使用GPT-3.5或GPT-4接收文本并输出文本,最后第三个模型将文本转换回音频-一方面,它使得音频的传输存在延迟,GPT-3.5的平均延迟为2.8秒,GPT-4的平均延迟为5.4秒。另一方面,该模型丢失了大量信息,无法直接观察音高、多个扬声器或背景噪音,也无法输出笑声、歌唱或情感表达。
GPT-4o的解决方案是跨文本、视觉和音频端到端训练新模型,这意味着所有输入和输出都由同一神经网络处理。OpenAI表示,这是他突破深度学习界限的最新举措。目前,GPT-4o可以在短至232毫秒、平均320毫秒的时间内响应音频输入,与人类的响应时间相似。同时,GPT-4o在音频ASR性能和翻译性能方面比Whisper-v3(OpenAI语音识别模型)有更好的表现。
M3Exam基准可用于多语言和视觉评估。它由多项选择题组成,并包含图表。GPT-4o在所有语言基准测试中都比GPT-4更强。此外,在视觉理解评估方面,GPT-4o在视觉感知基准上实现了state-of-the-art的表现。
GPT-4o也擅长视觉理解|图片来源:OpenAI
一位大型模型训练师曾告诉极客公园,模型的技术领先从来不是靠排名,而是靠用户最真实的感受和体验。从这个角度来看,GPT-4o的技术领先性就显而易见了。
OpenAI表示,GPT-4o的文字和图像功能将于会议当天在ChatGPT上线。免费用户可以使用它,但Plus订阅者可以享受高达5倍的消息容量。未来几周,OpenAI将在ChatGPTPlus中推出新版本的语音模式GPT-4oalpha。
开发人员现在可以在API中访问GPT-4o的文本和视觉模型。与GPT-4Turbo相比,GPT-4o速度提高2倍,价格降低一半,并且速率限制提高5倍。在接下来的几周内,Yao计划向一小群值得信赖的合作伙伴推出GPT-4o的新音频和视频功能。
一个强大的技术最让人担心的就是它的安全性和可控性。这也是OpenAI的核心考虑之一。
OpenAI表示,GPT-4o通过过滤训练数据和训练后细化模型行为等技术,将安全性内置到跨模态设计中。它还创建了一个新的安全系统来保护语音输出。为了确保更好的安全性,OpenAI表示,在未来几周和几个月内,他将致力于技术基础设施、培训后的可用性以及发布其他模式所需的安全性。
作为这波AI浪潮的发起者和引领者,OpenAI的每一次发布和更新都与其巨大的用户数量的升降、公司竞争的进退、以及整个行业的关注和动向。
在这次发布会之前,关于OpenAI的传闻和质疑有很多。一周前,外媒报道称OpenAI将要发布搜索引擎。在今年最重要的新闻发布时刻,该公司没有推出GPT-5,引发了外界对其创新的质疑。有很多疑问。而如果不能拿出足够创新的技术和产品,公司就很难重振用户增长,也很难满足整个市场的期望。
自2022年底ChatGPT上线以来,该公司经历了用户数量的起伏。据Similarweb估计,其全球访问量在2023年5月达到峰值18亿。但进入2023年下半年后,其用户数量有所下降,仍未追平去年5月的全球访问峰值记录。
ChatGPT自2022年11月以来全球和美国的流量增长|图片来源:Similarweb
这次发布会与其用户群的增长直接相关。
外界对于搜索引擎还是非常关注的。Sameweb表示,该消息导致当天ChatGPT流量激增。不过,在发布会前两天,OpenAI首席执行官SamAltman澄清,这次既不会发布GPT-5,也不会发布搜索引擎,“但我们一直在努力开发一些我们认为人们会喜欢的新东西!”对我来说感觉就像魔法一样。”他把它描述得更小。
或许,人们对这场OpenAI发布会的期待不高。但最终,他们得到的却是强烈的震撼。这或许就是OpenAI想要的反差效果。
无论是去年这个时候的最初的GPT-3.5、GPT-4、去年底的GPT,还是今年年初的Sora——OpenAI再次证明了它不会让世界失望。尽管谷歌、克劳德、CharacterAI、Perplexity等竞争对手正在抢夺更多的新用户和资本,但OpenAI仍然证明了自己有能力引领技术创新的“高地”。
ChatGPT与其他聊天机器人的访问量对比|图片来源:Similarweb
OpenAI推出基于GPT-4o的“超级智能助手”后,这似乎是各大科技厂商追赶的下一步。方向。
据外媒报道,谷歌最近一直在测试利用人工智能来打电话。有传言称,它将推出一款名为“Pixie”的多模态个人助理,作为“GoogleAssistant”的替代品。它可以通过摄像头查看物体并执行人类命令。这将于明天的GoogleI/O大会上揭晓。
近日,外媒还报道称,苹果即将与OpenAI达成协议。在6月份的苹果年度全球开发者大会上,苹果可能会在iOS18中推出由ChatGPT提供支持的“”。Chatbot”,这可能会对苹果个人语音助手Siri产生颠覆性影响。
很难想象,短短一年半的时间,OpenAI就将科技推向了今天的高度,让“超级助手”的想象如此之快地出现在我们眼前。然而,这只是OpenAI所释放的技术实力的冰山一角。毕竟我们今天讨论的只是GPT-4的更新,还不是GPT-5。OpenAI会给我们带来多大的震撼、带来多少的担忧,都是未知的问题。
如果从未来科技的隧道中回望,今天GPT-4o“超级语音助手”的诞生或许会成为科技史上具有里程碑意义的时刻。但也许正如OpenAI首席运营官BradLightcap几天前所说,“在接下来的12个月里,我们应该感觉到我们今天使用的(AI)系统糟糕得可笑。”