{dede:global.cfg_webname/}

当前位置: 首页 > 科技 > 软件 > 正文

OpenAI新模型GPT-4o“炸裂登场”

来源:互联网    时间:2024-05-16 11:15:29

  OpenAI首席技术官Mira Murati在备受期待的直播演示中宣布,推出名为GPT-4o的新旗舰AI模型,这是其已经问世一年多的GPT-4模型的更新版本。同时,OpenAI还推出了台式机版本的ChatGPT以及新的用户界面(UI)。

  GPT-4o模型基于来自互联网的大量数据进行训练,更擅长处理文本和音频,并且支持50种语言。更值得一提的是,GPT-4o最快可以在232毫秒的时间内响应音频输入,几乎达到了人类的响应水平。

  Murati称新模型面向所有人,而不仅仅是付费用户,为“我们的免费用户带来GPT-4级别的智能水平”。不过,GPT-4o的应用程序接口中尚未为所有客户提供语音功能。鉴于滥用风险,OpenAI计划在未来几周内首先向“一小部分可信赖的合作伙伴”推出对GPT-4o新音频功能的支持。

  GPT-4o发布后,网友对其褒贬不一。英伟达科学家Jim Fan评论称,从技术角度来看,总体来说是一个数据和系统优化问题。有网友也称,感觉到目前为止,OpenAI没有那么大的开创性。不过,也有网友认为,OpenAI进一步拉开了和苹果的差距,现在该轮到苹果的Siri“满头大汗”了。

  GPT-4o核心能力有三

  GPT-4o中的“o”代表“omni”,意为“全能”。OpenAI官网介绍称,GPT-4o向更自然的人机交互迈进了一步,因为它接受文本、音频和图像的任意组合作为输入内容,并生成文本、音频和图像的任意组合输出内容。

  那GPT-4o到底有多强,有哪些核心能力呢?

  能力一:“实时”互动,表达富有情感,视觉功能更强

  OpenAI表示,GPT-4o显著提升了AI聊天机器人ChatGPT的使用体验。虽然ChatGPT长期支持语音模式,可将ChatGPT的文本转为语音,但GPT-4o在此基础上进行了优化,使用户能够像与助手互动一样自然地使用ChatGPT。

  例如,用户现在可以在ChatGPT回答问题时中断它。而且,新模型能够提供“实时”响应,甚至能够捕捉到用户声音中的情感,并以不同的情感风格生成语音,如同真人一般。此外,GPT- 4o还增强了ChatGPT的视觉功能。通过照片或屏幕截图,ChatGPT现在可以迅速回答相关问题,从“这段代码是做什么用的”到“这个人穿的是什么品牌的衬衫”。

  美国科技媒体Quartz报道称,GPT-4o的技术让人印象深刻。OpenAI的演示表明,机器人现在可以与人类进行实时对话,与真人水平几乎没有区别。如果最终版本像OpenAI官方的演示一样,那么OpenAI似乎已经从某种程度上验证AI将在多大程度上改变我们的世界。

  能力二:多语言表现出色,响应速度几乎与真人无异

  GPT-4o的多语言功能得到了增强,在50种不同的语言中表现更佳。在OpenAI的API中,GPT-4o的处理速度是GPT-4(特别是GPT-4 Turbo)的两倍,价格则是GPT-4 Turbo的一半,同时拥有更高的速率限制。

  OpenAI官网介绍称,GPT-4o 最快可以在232毫秒的时间内响应音频输入,平均响应时间为320毫秒,这与人类在对话中的响应时间相似。它在英语文本和代码方面的性能与GPT-4 Turbo的性能一致,并且在非英语文本方面的性能有了显著提高。

  用户只需发出简单的“嘿,ChatGPT”语音提示,即可获得代理的口语回应。然后,用户可以用口语提交查询,并在必要时附上文字、音频或视觉效果——后者可包括照片、手机摄像头的实时画面或代理能“看到”的任何其他内容。

  能力三:在推理及音频翻译方面树立新标杆

  据OpenAI研究人员William Fedus透露,GPT-4o实际上就是在LMSYS模型竞技场上引起整个AI圈疯狂试用的GPT-2模型的另一版本,并附上了GPT-4o的基准测试评分对比图,相比GPT-4 Turbo提升了超过100个单位。

  在推理能力方面,此次发布的GPT-4o在MMLU、GPQA、MATH、HumanEval等测试基准上均超越GPT-4 Turbo、Claude 3 Opusn、Gemini Pro 1.5等前沿模型,取得最高分。

  音频ASR(智能语音识别)性能方面,GPT-4o相比Whisperv3.在所有语言的语音识别性能上均大幅提高,尤其是资源较少的语言。

  音频翻译方面,GPT-4o也树立了新的标杆,在MLS基准测试中优于Whisper-v3以及Meta、谷歌的语音模型。

  评价褒贬不一

  虽然并未在OpenAI这次重磅直播演示中现身,但OpenAI的CEO阿尔特曼对这次演示进行了重要的总结。阿尔特曼称,OpenAI在ChatGPT中免费提供了世界上最好的模型,新的语音和视频模式是他用过的最好的计算交互界面,感觉就像电影里的人工智能一样,达到了与人类相似的响应速度和表达能力。

  目前,GPT-4o的文本和图像功能开始在ChatGPT中免费推出,Plus用户可以享受到5倍的调用额度。在接下来的几周内,OpenAI将在ChatGPT Plus中推出Voice Mode新版本,该版本带有GPT-4o。

  而在社交媒体平台X(原推特)上,网友对GPT-4o的评价却褒贬不一。

  英伟达科学家Jim Fan评论称,从技术角度来看,总体来说是一个数据和系统优化问题(大多数事情都是如此)。

  对于OpenAI推出的新模型和UI更新,有网友称,感觉到目前为止OpenAI没有那么大的开创性。

  也有网友指出,GPT-4o不仅可以将语音转换为文本,还可以理解和标记音频的其他特征,例如呼吸和情感,但不确定这在模型响应中是如何表达的。

  但大部分网友还是给出了非常积极的看法。

  对于阿尔特曼在X上留下的一句“her”,这似乎是暗示ChatGPT实现了经典电影《她》(Her)中像人类一样“有血有肉”的AI。有网友对此评论:“你终于做到了。”并配了一张将电影《她》剧照中的AI“换头”成OpenAI的梗图。

  另有网友评价称,这太疯狂了。OpenAI刚刚推出了GPT-4o,它将彻底改变人工智能助手的竞赛。该网友还列举了10个GPT-4o的“疯狂”案例,例如实时视觉辅助等。

  也有网友觉得OpenAI进一步拉开了和苹果的差距,还发了一张人满头大汗的动图,称现在苹果的语音助手Siri应该就是这个样子。

  对于这点,Quartz报道称,GPT-4o的情感属性使AI聊天机器人比苹果的Siri更加个性化。Siri给人的感觉就像在和一个机器人对话,但OpenAI的演示清楚地表明,GPT-4o具有“人工情感智能”,能够识别用户的情感并与你的情绪相匹配。这让GPT-4o感觉就像一个真正的伴侣,为用户的智能手机操作系统增添了一丝人性。

  实际上,为了应对技术威胁,苹果也在与OpenAI进行合作洽谈。Wedbush分析师Dan Ives在一份报告中预计,苹果将在6月10日的WWDC(苹果全球开发者大会)大会上官宣和OpenAI的合作伙伴关系,并推出基于苹果LLM的AI聊天机器人。

声明:来源非IT商业科技网的作品均转载自其它媒体,转载请尊重版权保留出处,一切法律责任自负。文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。转载稿件或作者投稿可能会经编辑修改或者补充, 如有异议可投诉至:Email:342 4350 938@qq.com

频道精选
OpenAI新模型GPT-4o“炸裂登场”

OpenAI新模型GPT-4o“炸裂登场”

  OpenAI首席技术官Mira Murati在备受期待的直播演示中宣布,推出名为GPT-4o的新旗舰AI模型,这是其已经问世一年多的GPT-4模型的更新版
2024-05-16
腾讯宣布混元文生图大模型开源: Sora同架构 可免费商用

腾讯宣布混元文生图大模型开源: Sora同架构 可免费商用

  腾讯宣布旗下的混元文生图大模型全面升级并对外开源,目前已在 Hugging Face 平台及 Github 上发布,包含模型权重、推理代码、模
2024-05-16
联想上了AI 是加了翅膀还是拖了后腿?

联想上了AI 是加了翅膀还是拖了后腿?

  在最近的2024 Lenovo Tech World大会上,联想公司隆重推出了配备"联想小天"功能的多款电脑设备,包括YOGABook 9i AI元启、YOGAPro
2024-05-16
5G网络深度覆盖再提速 湖南宣贯建筑物移动通信基础设施工程技术标准

5G网络深度覆盖再提速 湖南宣贯建筑物移动通信基础设施工程技术标准

  昨日,《建筑物移动通信基础设施工程技术标准》(以下简称《标准》)宣贯会在长沙召开。会议阐述了实施《标准》的重要性,对其重要内容进
2024-05-16
再次站在行业前沿 vivo成为首批适配Android 15 Beta手机厂商

再次站在行业前沿 vivo成为首批适配Android 15 Beta手机厂商

  5月15日,谷歌在2024年I O开发者大会上正式发布了备受期待的Android 15 Beta版本操作系统,这一新版本带来了诸多创新功能和性能优化
2024-05-16
鸿海与西门子策略结盟 携手优化前瞻性智能制造

鸿海与西门子策略结盟 携手优化前瞻性智能制造

  鸿海15日宣布与西门子共同签署合作备忘录,双方将携手优化前瞻性智能制造,专注于全球各地资通讯和电动车的制造生产流程。  鸿海表示
2024-05-16

2017-2019 Copyright © IT商业科技网 备案许可证号粤ICP备2022153948号 豫公网安备110102003388号

紧急处理QQ:133 4673 445@qq.com