快科技6月21日消息,在AI大模型领域,OpenAI的ChatGPT成为当前最火的大模型,也是标杆性的,多个国产大模型都要对标它,今天商汤科技公布了自己的大模型测试结果,三个测试项目中都超越了ChatGPT。
商汤科技自研中文语言大模型名为“商量SenseChat 2.0”,日前公布的测试显示,MMLU、AGIEval、C-Eval三个权威大语言模型评测基准的成绩。
【资料图】
根据评测结果,“商量SenseChat 2.0”在三个测试集中表现均领先ChatGPT,部分已十分接近GPT4的水平,实现了我国语言大模型研究的重要突破。
这三个测试分别如下:
由美国加州大学伯克利分校等高校构建的多任务考试评测集MMLU;
微软研究院推出的学科考试评测集AGIEval(含中国高考、司法考试及美国SAT、LSAT、GRE和GMAT等);
由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集C-Eval;
在MMLU测试中,“商量SenseChat 2.0”综合得分为68.6,远超GLM-130B(45.7分)的得分,同时还超过了ChatGPT(67.3分)、LLaMA-65B(63.5分)仅落后GPT-4(86.4分),位居第二。
在AGIEval测试中,“商量SenseChat 2.0”测出49.91的分数,遥遥领先GLM-130B(34.2分)、LLaMMA-65B(34.0分),并再次超越ChatGPT(42.9分),仅次于GPT-4的56.4分。
在其中的AGIEval(GK)评测子集中,“商量SenseChat 2.0”以58.5分全面领先,仅微弱差距落后GPT-4(58.8分)。
在C-Eval测试中,“商量SenseChat 2.0”拿到了66.1的分数,在参评的18个大模型中,仅次于GPT-4(68.7分),全面领先ChatGPT、Claude、Bloom、GLM-130B、LLaMA-65B等一众海内外大模型。
截至目前,已有近千家企业客户通过申请,应用和体验“商量SenseChat 2.0”超强的长文本理解、逻辑推理、多轮对话、情感分析、内容创作、代码生成等综合能力,并且“商量SenseChat 2.0”还在服务客户过程中,持续实现着快速迭代和提升,以及知识的实时更新。
X 关闭
- 1、世界信息:商汤国产中文大模型全面领先ChatGPT 部分接近GPT-4
- 2、资讯推荐:坚朗五金: 关于2021年股票期权激励计划第二个行权期行权条件未成就及注销股票期权的公告
- 3、易纬集团:梁士锋获委任为执行董事及财务董事|世界即时
- 4、斯里兰卡外长萨布里将访华
- 5、甲鱼养殖富一方 乡村振兴勇担当 要闻
- 6、港华智慧能源(01083.HK):拟收购中华煤气可再生能源(香港)全部已发行股份-每日报道
- 7、纵横游控股(08069.HK)6月21日收盘跌1.5%
- 8、全球今日报丨6月21日泰盛化工糠醇价格平稳
- 9、全球聚焦:四川小龙虾5年增长超4倍总产量居全国第六
- 10、全球观点:2023年6月21日湖南省四氢呋喃价格最新行情预测
-
麦趣尔控股股东所持部分股份被司法拍卖完成过户-全球新要闻
公告显示,因麦趣尔控股股东合同纠纷一案中,四川省成都市中级人民法院
-
做幻灯片如何批量导入图片_做幻灯片
1、我们一个完整的PPT要制作的话,首先我们要确定你要制作的PPT的内容
-
关注:中国建设银行 官网_中国建设银行etc
1、ETC(ElectronicTollCollection)即电子不停车收费系统。2、是国际上
-
嘉禾:把保障性住房分配到真正有需要的群体中_当前简讯
6月20日上午,嘉禾县住房保障服务中心在中心六楼现场举行2023年第一批
-
环球观点:土豆可以用电饭煲煮熟吗
关于土豆可以用电饭煲煮熟吗的内容,包含晚上煮熟的土豆可以一直放在电
-
【天天报资讯】黄宗泽上综艺劲搞笑!个样好chok但会错认人、想扮恶人秒变“黄三岁”、开课教粤语撩女仔,后续仲同“熊君”齐齐玩湿身游戏?
喺演戏方面黄宗泽前排密密同蔡小姐有合作虽然佢唔愿提、唔愿理嘅表现表
-
民进党渲染海峡论坛是对台所谓“统战” 蓝民代:台湾也办啊!
来源:中国台湾网中国国民党“立委”陈玉珍(图片来源:台湾《联合报》
-
最新资讯:360磁盘碎片整理在哪_磁盘碎片整理在哪里
1、【问题描述】:磁盘碎片整理【简易步骤】:方案一:【开始】—【程
-
北京将发行20亿元地方政府债券,百元起投,利率下周确定-每日速看
钛媒体App6月20日消息,从北京市财政局获悉,6月26日,北京市将通过11
-
过眼烟云是什么生肖 过眼云烟猜生肖
富自有道。财不足为奇,能把财运做到富。才是传奇。现在富的传奇比比皆