{dede:global.cfg_webname/}

当前位置: 首页 > 科技 > 科技快讯 > 正文

Compass Arena大模型竞技场首期对战榜单公布 智谱AI持续领跑国内大模型

来源:互联网    时间:2024-06-15 11:27:21

  6月13日,司南OpenCompass和魔搭ModelScope联手推出的大语言模型竞技场 Compass Arena公布首期大模型对战榜单。智谱AI的GLM-4 w/search 排名仅次于GPT-4o,位列国内大模型第一。相比 GLM-4.GLM-4 w/search 可以在交互过程中引入外部搜索引擎信息辅助内容生成。

  Compass Arena司南大模型竞技场是由司南OpenCompass团队和魔搭ModelScope团队共同推出的大语言模型 (LLM) 评测平台,旨在为国内的大语言模型领域引入一种全新的竞技模式,为广大互联网用户提供了一个匿名、随机的大语言模型竞技环境,以产生更加客观和真实的评价。Compass Arena汇集了Qwen-Max、GLM-4、abab6.5以及Llama 3系列等 20 余个主流大语言模型,通过创新的竞技模式,让用户在直观体验比较不同模型的性能后,根据自己对生成内容质量的主观判断,自由评估选择生成效果更为出色的大模型。

  Compass Arena大模型竞技场首期对战榜单收集了截至6月12日接近6000条由用户真实反馈的大模型匿名对战数据,经过数据清洗和过滤后利用Bradley-Terry模型估计了大语言模型的竞技场Elo等级分数和95%置信区间,并使用该等级分数对大模型进行排名。榜单中,智谱AI的GLM-4 w/search凭借回答环节引入外部搜索引擎信息能力的辅助,有效提升了生成内容的准确性和完整性,排名仅次于GPT-4o位列第二名,成为Compass Arena大模型竞技场首期对战榜单国内大模型第一名。

  值得一提的是,智谱AI的GLM-4系列模型自发布以来便收获业内及广大用户认可,并多次在权威榜单与全球顶级大模型一较高下。清华《SuperBench大模型综合能力评测报告》显示,GLM-4在语义理解等方面的能力表现超过众多国际一流模型,在代码、智能体等方面,排名国内第一。在SuperCLUE-Fin(SC-Fin)中文原生金融大模型测评基准中,GLM-4斩获一项A+及多项A级评价,在国内大模型中排名第一。

  据了解,智谱AI于今年1月推出新一代基座大模型GLM-4.并在6月初发布最新开源模型GLM-4-9B,该模型拥有更强的基础能力,支持更长的上下文(最高支持1M/约两百万字),有更精准的函数调用和All Tools能力,并在这个尺寸上首次具备了多模态能力。GLM-4-9B综合能力相比ChatGLM3-6B提升40%,全面超过Llama-3-8B-Instruct,中文学科能力提升50%,最高支持达1百万tokens长文本,支持多达26种语言,函数调用(Function Call)能力媲美GPT-4-Turbo。

  上述模型均已在智谱AI MaaS大模型开放平台上线,开发者可以通过bigmodel.cn便捷接入GLM-4全系列模型开放API,从而体验智谱大模型的卓越性能。

声明:来源非IT商业科技网的作品均转载自其它媒体,转载请尊重版权保留出处,一切法律责任自负。文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。转载稿件或作者投稿可能会经编辑修改或者补充, 如有异议可投诉至:Email:342 4350 938@qq.com

频道精选
Compass Arena大模型竞技场首期对战榜单公布 智谱AI持续领跑国内大模型

Compass Arena大模型竞技场首期对战榜单公布 智谱AI持续领跑国内大模型

  6月13日,司南OpenCompass和魔搭ModelScope联手推出的大语言模型竞技场 Compass Arena公布首期大模型对战榜单。智谱AI的GLM-4 w sea
2024-06-15
2024年的AI服务器 相当于2018年的新能源车

2024年的AI服务器 相当于2018年的新能源车

  01 什么是当下最尖端的科技?  在谈到小米做智能电动车的核心原因时,雷军对外解释到:他通过调研痛苦地认识到智能手机肯定不是当下
2024-06-15
圈不到用户的AI大模型 开始倒闭了

圈不到用户的AI大模型 开始倒闭了

  拿到 2000 万元创业投资的大林,仅过了一年多,便在 2024 年 3 月解散了公司。随着大厂大模型开始 0 元购," 国内 AI 用户
2024-06-15
降价97%背后 大模型公司的心机和焦虑

降价97%背后 大模型公司的心机和焦虑

  国内大模型公司,也没有错过今年的 618   " 降价 97%!"" 免费!" 过去一个月,各大国产大模型厂商喊出了不要钱的架势,降价之狠
2024-06-15
五年增长60倍 AI PC将迎爆发式增长

五年增长60倍 AI PC将迎爆发式增长

  AI+时代,搭载AI的终端如雨后春笋般涌现,正在改变传统市场格局。  AI PC作为AI和PC结合的创新终端,随着消费端日趋旺盛的需求,以
2024-06-15
魔珐科技为申万宏源打造金融数字人 革新金融服务体验打造全域智能服务新标杆

魔珐科技为申万宏源打造金融数字人 革新金融服务体验打造全域智能服务新标杆

  近日,魔珐科技为申万宏源打造的数字员工正式推出。基于魔珐科技的3D虚拟人AIGC全栈技术,这位专业、睿智的金融数字员工将融入申万宏源
2024-06-15
用友承建!春雪食品CRM系统正式上线

用友承建!春雪食品CRM系统正式上线

  近日,经过数月的精心筹备和部署,春雪食品集团股份有限公司(简称春雪食品)的客户关系管理(CRM)系统正式上线。这不仅是春雪公司数字化
2024-06-15
中国民营企业500强龙成集团签约用友

中国民营企业500强龙成集团签约用友

  近日,河南龙成集团有限公司(以下简称:龙成集团)数智化采购平台建设项目正式启动。项目将基于用友BIP,通过数字化手段的深度应用,助
2024-06-15
三星公布2纳米、1.4纳米路线图3年内到位

三星公布2纳米、1.4纳米路线图3年内到位

  三星代工在美国三星代工论坛上公布其先进芯片制造技术的更新路线图,其中包括2纳米级制程、1 4纳米级制造的计划,以及背面供电的引入,
2024-06-15

2017-2019 Copyright © IT商业科技网 备案许可证号粤ICP备2022153948号 豫公网安备110102003388号

紧急处理QQ:133 4673 445@qq.com