找回密码
 立即注册
搜索
查看: 64|回复: 0

零一万物 Yi-Large 闭源模型:实力超群,超越多家国际大厂当家基座模型

[复制链接]

9420

主题

0

回帖

2万

积分

管理员

积分
28470
发表于 2024-9-25 09:59:06 | 显示全部楼层 |阅读模式
Zero One 一切都像是配备了一台V12发动机。

本月13日,李开复和零一万事发布了他们的第二款产品Yi-Large的闭源模式,发布不到半个月,Yi-Large已经从新一代无畏新人的菜鸟,变成了新一代年轻人眼中的强大前端。

上周,

“im-also-a-good-gpt2-”这个神秘型号突然出现在大模型赛场上,排名直接高过GPT-4-Turbo、1.5 Pro、30pus、Llama-3-70b等国际大牌,成为该厂的主力基础型号。

这个神秘模型正是GPT-4o的测试版,CEO Sam在GPT-4o发布后也亲自转发并引用了LMSYS竞技场盲测竞技场的测试结果。

一周后,在最新更新的排名中,“

“im-also-a-good-gpt2-”的黑马故事再度上演,此次排名迅速上升的模型,是中国大模型公司零一千物提交的“Yi-Large”千亿参数闭源大模型。

在LMSYS盲测竞技场最新排名中,零一千亿参数模型Yi-Large总榜位居世界模型第7位、中国大模型第1位,超越Llama-3-70B和3;中文排名与GPT4o并列全球第一。

由开放研究组织LMSYS Org(Large Model)发布的Arena,已成为、、、、Meta等国际巨头的面对面竞赛平台,并且还开放了公众投票功能。

零一万物由此成为唯一一家自有模型进入总榜单前十的中国大型模型公司。

在总榜单中,GPT系列占据前10名中的4席。在机构排名方面,01.AI仅次于、,正式进入全球顶尖大咖企业阵营。

如今看来,“成为世界第一”这一口号已不再只是一句空话,而是正在变成现实。

汉语成绩全球第一,“烧脑”盲测全球第二

LMSYS Arena 盲测结果于 2024 年 5 月 20 日(美国时间)刚刚更新,来自迄今为止积累的超过 1170 万全球用户的真实投票。

值得一提的是,为了提高Arena查询的整体质量,LMSYS还实现了去重机制,并在删除冗余查询后发布了列表。

这一新机制旨在消除过于冗余的用户提示,例如过度重复的“你好”,这可能会影响排行榜的准确性。

LMSYS公开表示,删除冗余查询后的列表将来将成为默认列表。

在删除冗余查询之后的整体排名中,Yi-Large 的 Elo 分数进一步提升,以 3 Opus 和 GPT-4-0125- 排名第四。



除了总榜单,LMSYS 还新增了英语、中文、法语三个语言类别,并开始关注全球大模型的多样性。Yi-Large 在中文排行榜上夺得冠军,与 GPT4o 并列第一。首先,Qwen-Max 和 GLM-4 在中文排行榜上也表现不俗。

在国内大型模型厂商中,阿里的Qwen-Max、智普的GLM-4均有出色表现。

在类别排名上,Yi-Large同样表现不俗,编程能力、长题三项测评以及最新的“难点提示词”是LMSYS给出的针对性排名,以专业性和高难度著称,堪称“最烧脑”的大模型公开盲测。

编程能力三大测试、长题目以及最新的“难提示词”专业性强,也被誉为LMSYS榜单中“最烧脑”的公开盲测。

在编程能力()排名中,Yi-Large 的 Elo 分数超过 3 Opus,仅低于 GPT-4o,与 GPT-4-Turbo 和 GPT-4 并列第二;

在长查询榜单中,Yi-Large 也位居全球第二,与 GPT-4-Turbo、GPT-4、3 Opus 并列;

在 Hard 榜单上,Yi-Large 与 GPT-4-Turbo、GPT-4 和 3 Opus 并列第二。

使用科学方法获得客观结果

如何对大模型给出客观公正的评价一直是业界普遍关注的话题。

此前,业内曾出现过各种“排名造假”手段,但始终无法体现出大模型的真正能力,让想要了解的人一头雾水,让相关行业的投资者摸不着头脑。

LMSYS Org 发布的 Arena 开始打破这种混乱。

凭借其新颖的“竞技场”形式和测试团队的严谨,它已成为全球业界认可的标杆。甚至在 GPT-4o 正式发布之前,它就在 LMSYS 上进行了匿名预发布和预测试。

创始团队成员甚至公开表示:

竞技场太棒了。

从形式上看,Arena借鉴了搜索引擎时代的横向比较评测思路:



Arena 通过众筹真实用户进行线上实时盲测和匿名投票,一方面减少了偏见的影响,另一方面最大程度地减少了基于测试集的排名操纵的可能性,从而增加了最终结果的客观性。

Arena 还将在清理和匿名化之后公开所有用户投票数据。

在收集真实用户投票数据后,LMSYS Arena还将利用Elo评分体系量化模型的表现,进一步优化评分机制,力求公平反映参赛选手的实力。

在Elo评分系统中,每个参与者都会获得一个基线评分,每场比赛结束后,参与者的评分会根据比赛结果进行调整。

系统会根据参赛者的得分计算获胜概率,当得分较低的玩家击败得分较高的玩家时,得分较低的玩家将获得更多积分,反之亦然。

通过引入Elo评级系统,LMSYS Arena在很大程度上保证了排名的客观性和公平性。

从小到大

本次竞技场共有44个模型参赛,包括顶级开源模型70B,以及来自各大厂商的闭源模型。

值得一提的是,排名前6的模型均属于海外巨头,分别为Zero One 位列全球第四,而GPT-4、1.5 Pro等模型更是万亿级超大参数规模的旗舰模型,其他模型也有千亿级参数规模。

Yi-Large“虽小但很伟大”,紧随其后,只有数千亿个参数。

大型AI模型的竞争还处于激烈阶段,人工智能的“百模大战”还将继续,在这个以周甚至天为单位进行迭代的领域,有一个相对公平、客观的评价体系变得尤为重要。

一个持续更新评分体系的评估平台,不仅可以让行业投资者看到技术发展的真实状态,让用户拥有选择先进模型的权利,还可以促进整个大模型行业的健康发展。

无论是为了自身模型能力迭代,还是为了长久的口碑,大型模型厂商都应该积极参与Arena等权威评测平台,通过实际的用户反馈和专业的评测机制来证明自身产品的竞争力。

相反,如果只关心排名的结果,而忽略模型的实际应用效果,模型能力与市场需求的差距就会越来越明显,最终难以在激烈的AI市场竞争中立足。

在AI时代,各大模型厂商若想做到优秀甚至顶尖,至少需要具备两种素质:

值得期待的是,如今国内已有一批优秀的大型模型生产企业,脚踏实地、创新发展,甚至能在国际舞台上与行业巨头同台竞技。

LMSYS Arena盲测竞技场公投地址:LMSYS评估排名(滚动更新):
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|【科创星域】 ( 京ICP备20013102号-15 )

GMT+8, 2025-5-5 09:46 , Processed in 0.344414 second(s), 19 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表