您的当前位置:首页 > 热点 > 内地首个AI高考评测 数学全不及格 正文
时间:2024-06-30 00:32:49 来源:网络整理 编辑:热点
杭州高端茶-杭州预约品茶-杭州品茶联系
图:AI得分情况。内
【大公报讯】据第一财经报道:高考这一高难度综合性测试,地首目前普遍被研究者用于考察大模型的个AI高格智能水平。在前不久高考结束后,考评上海人工智能实验室旗下司南评测体系OpenCompass选取了7个大模型进行高考“语数外”全卷能力测试,测数并于19日发布了首个大模型高考全卷评测结果。学全
语数外三科加起来的不及满分为420分,此次高考测试结果显示,内阿里通义千问2-72B得303分排名第一,地首OpenAI的个AI高格GPT-4o得296分排名第二,上海人工智能实验室的考评书生.浦语2.0排名第三,三个大模型的测数得分率均超过70%,但大模型的学全数学都不及格,最高分也只有75分。不及在数学试卷上,内阅卷老师们发现,大模型的主观题回答相对凌乱,且过程具有迷惑性,甚至出现过程错误但得到正确答案的情况。大模型的公式记忆能力较强,但是无法在解题过程中灵活引用。可以看出,在数学方面大模型还有很大的提升空间。
数学关乎复杂推理相关能力,这是大模型普遍面临的难题,也是大模型在金融、工业等要求可靠的场景落地需要的关键能力。上海人工智能实验室领军科学家林达华表示,“现在很多大模型的应用场景是客服、聊天等,在聊天场景一本正经胡说八道影响不太大,但它很难在非常严肃的商业场合去落地。”
后续:2岁女娃尿裤子被亲戚一巴掌打出血,叔叔已介入,家长到场2024-06-30 00:03
她是9枚金牌的冠军,被教练下药终身不育,退役后当搓澡工嫁和尚2024-06-29 23:58
北京这一夜,人情世故、江湖地位,都在这张合照上体现得淋漓尽致2024-06-29 23:19
上海这一夜,袒胸露乳的姚晨和金晨,败给了“全裹”出镜的俞飞鸿2024-06-29 23:10
真上上签!三个理由告诉你,为啥国足抽到日澳巴林是幸运2024-06-29 23:04
照片曝光!菲海军特战队员被“兔子”海警断掉手指,已被菲官方授勋2024-06-29 22:32
希尔顿集团千金:38岁高龄三胎生男娃,将成罗斯柴尔德家族继承人2024-06-29 22:31
官宣,中国女足归化第1人曝光,有中国血缘,或化解女足难题2024-06-29 22:23
十天破54亿,全球票房冠军易主,好莱坞大片只被内地抛弃2024-06-29 21:58
各地“罚没收入”正数排行榜,本质上是“营商环境”倒数排行榜2024-06-29 21:53
太疯狂!又有人“不要命”式炫耀 上海警方不惯着!2024-06-30 00:30
红薯、南瓜不能吃?医生提醒:人老了,要尽量少吃红薯和南瓜2024-06-30 00:18
红薯、南瓜不能吃?医生提醒:人老了,要尽量少吃红薯和南瓜2024-06-30 00:11
复旦毕业生打老师后续:同学曝打人原因,本人发声道歉,评论炸锅2024-06-30 00:08
中石油被美国重罚,油价应声涨,每天赚4.41亿,请让点利给国民吧2024-06-29 23:37
斯坦福博士拟被录用乡镇公务员?是否“大材小用”引热议2024-06-29 23:20
95分钟绝平!欧洲杯神剧本:世界第66救赎,死亡之组出线乱了2024-06-29 22:51
名记曝湖人内斗分三派 要求佩林卡和巴斯下课 詹姆斯正在撤离洛城2024-06-29 22:42
权宜之计/曲线供港 成本骤增 影响品质2024-06-29 22:25
复旦毕业生打老师后续:同学曝打人原因,本人发声道歉,评论炸锅2024-06-29 22:12