{dede:global.cfg_webname/}

当前位置: 首页 > 科技 > 软件 > 正文

用户投出来的大模型榜单-GPT4o、讯飞星火位居前列

来源:互联网    时间:2024-08-02 16:51:39

  从去年的“百模大战”到今年的“优胜劣汰”,AI大模型赛道呈现赛马机制,不少国产大模型以GPT-4o为标杆快速迭代,在核心能力上持续赶超。近期,由国内权威大模型评估平台OpenCompass(司南)公布的CompassArena周榜上,科大讯飞星火大模型连续三周位列前三,两次摘得第二桂冠。由于榜单采用专业用户投票方式,结合了用户对各款大模型的真实体验,更具客观性和说服力,含金量十足。

微信截图_20240802113719副本

  OpenCompass(司南)是由上海人工智能实验室发布的开源大模型评测体系,目前已成为业界权威的大模型评估平台,涵盖学科、语言、知识、理解、推理等评测维度,可全面评估大模型的综合能力。在最新三期专业用户投票的周榜评选中,讯飞星火以Elo-1078和Elo-1081位居前三,榜单前四强还出现阿里通义千问和百度文心一言的身影,它们共同组成了国产大模型的第一梯队,不断向榜单第一名的GPT-4o发起挑战。

配图 (1)

  根据CompassArena榜单排名规则,平台会利用Bradley-Terry模型,基于历史匿名对战数据评估大模型竞技场Elo的等级分数,并使用该分数对大模型进行排名。最终数据可以公正、开放、透明的反映当前各家大模型产品的综合实力。

  作为明确提出对标OpenAI的国内大模型公司,科大讯飞在今年6月27日发布的星火V4.0版本上,已完成了对GPT-4 Turbo的整体超越。根据八个国际主流测试集的横向评测,讯飞星火V4.0排名第一,在文本生成、语言理解、知识问答、逻辑推理、数学能力等方面完成了整体超越。这些测试集既有HumanEval、WinoGrande、GPQA等英文评测,也有C-Eval、CMMLU等中文评测,充分展现了讯飞星火的全方位实力。

  此前,讯飞星火还在国际权威的《麻省理工科技评论》横评中脱颖而出,凭借领先的语言能力、数学、理综等多项核心能力,超越了同期的其它国产大模型选手,并以1013分的总分斩获国产主流大模型榜首席位。该机构还认为,讯飞星火在工作提效方面具有明显优势,是一款优秀的提效类工具。

  目前,讯飞星火凭借领先技术优势和出色的体验,持续领跑国内大模型第一梯队。根据讯飞星火V4.0发布会上公布的数据,其安卓端APP的累计下载量已经高达1.31亿次,位列国内工具类通用大模型APP第一。更有大量围绕日常工作、生活与学习的实用助手“源源不断”地涌现,持续帮助用户解放生产力,释放想象力。

  历经一年多迭代,讯飞星火快速成长为国内领先的大模型,对标GPT-4o的下一代版本也在研发中。随着核心能力的持续升级,讯飞星火不仅将稳居国产大模型第一梯队,更有机会成为国产大模型的代表去对战GPT-4o。

声明:来源非IT商业科技网的作品均转载自其它媒体,转载请尊重版权保留出处,一切法律责任自负。文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。转载稿件或作者投稿可能会经编辑修改或者补充, 如有异议可投诉至:Email:342 4350 938@qq.com

频道精选
用户投出来的大模型榜单-GPT4o、讯飞星火位居前列

用户投出来的大模型榜单-GPT4o、讯飞星火位居前列

  从去年的百模大战到今年的优胜劣汰,AI大模型赛道呈现赛马机制,不少国产大模型以GPT-4o为标杆快速迭代,在核心能力上持续赶超。近期,
2024-08-02
PITAKA:做城市生活的造梦者

PITAKA:做城市生活的造梦者

  用色彩与编织,唤醒感官  万象天地,是深圳最繁华的商圈之一,也是大批量高级白领出没之地。这里毗邻大学城和科技园,车流与人潮包围
2024-08-02
TCL全球化战略再升级 中国“智”造加速出海

TCL全球化战略再升级 中国“智”造加速出海

  TCL宣布其全球化战略再升级,以进一步完善全球化产业链布局,加速提升企业全球竞争力。TCL创始人、董事长李东生对战略作出具体阐释:一
2024-08-02
钱大妈超600家门店上线“支付宝碰一下”:碰一下就是会员价

钱大妈超600家门店上线“支付宝碰一下”:碰一下就是会员价

  还记得每到门店活动期间,生鲜连锁钱大妈的各大门店总是人潮涌动,很多人排着长队在买单的场景吗?尤其是不太熟悉买单的老年人,需多次操作
2024-08-02
阿里云×端木软件AI赋能中小企业数智化转型大会成功举办

阿里云×端木软件AI赋能中小企业数智化转型大会成功举办

  7月31日,AI赋能中小企业数智化转型大会在合肥隆重举行。本次活动由合肥市工业和信息化局指导,阿里云、中国声谷、端木软件联合主办,
2024-08-02
深圳开通线上医保支付 叮当快药首批接入

深圳开通线上医保支付 叮当快药首批接入

  8月1日,深圳市宣布开通在线医保购药服务,叮当快药作为首批企业正式接入线上医保支付功能。  深圳医保参保人无需在医院或药店排队,通
2024-08-02
增速超360%!2024年AI手机加速爆发

增速超360%!2024年AI手机加速爆发

  AI终端浪潮持续演绎,推动AI智能手机增长势头强劲,渗透率稳步提升。  7月31日,IDC发布最新预测称,2024年全球GenAI智能手机出货量
2024-08-02
AI创业与音乐共舞 创投对接服务也可以这样别开生面

AI创业与音乐共舞 创投对接服务也可以这样别开生面

  近日,一场别开生面的创投路演和对接活动在苏州工业园区美丽的金鸡湖畔举行。SISPARK(苏州国际科技园)主办的人工智能+投融资对接活动Ch
2024-08-02
XREAL开售空间计算新品Air 2 Ultra 全方位赋能应用开发者

XREAL开售空间计算新品Air 2 Ultra 全方位赋能应用开发者

  近日,XREAL系列AR眼镜的最新成员XREAL Air 2 Ultra于北京时间7月31日在国内正式发售,目前在京东、天猫和抖音等平台都已上线,首发
2024-08-02
电视屏幕选购指南:三大指标锁定Mini LED屏幕最优解

电视屏幕选购指南:三大指标锁定Mini LED屏幕最优解

  相机行业有个特点,越高端专业的产品,镜头通常比机身更贵。因为镜头是光线进入相机的第一道关卡,性能直接关系成像质量。同理,电视屏
2024-08-02

2017-2019 Copyright © IT商业科技网 备案许可证号粤ICP备2022153948号 豫公网安备110102003388号

紧急处理QQ:133 4673 445@qq.com