复旦测评13家大模型高考数学成绩：GPT-4o被国内AI大模型超越！-电子工程专辑



 0

 收藏

 分享

扫码分享到微信好友

 海报

 扫一扫

扫码查看更多文章

GPT-4o更侧重于广泛的语言理解和生成任务，而Qwen2-72b则在中文处理上有特别的优化。GPT-4o能够克服“水土不服”，拿到名列前茅的成绩，其能力可见一斑。

近日，复旦大学自然语言处理（NLP）实验室LLMEVAL团队做了一个极具创意和挑战性的尝试，开创性地用高考数学题来评测大模型！

根据公开的2024 年高考数学大模型评测结果，阿里千问和讯飞星火分别获得了 2024 高考数学新 I 卷的第一名和第二名，以及高考数学新 II 卷的第二名和第一名，两份考卷的评测中，而GPT-4o 均列第三名。

据悉，LLMEval是由复旦大学NLP实验室推出的大模型评测基准，专注于评估专业领域的知识能力。评测团队表示，全新出炉的高考试题具备高度的独创性和保密性，是用来评测大模型的“绝好评测集合”。因此，团队在高考后第一时间对GPT-4o、文心一言、阿里千问、字节豆包等13家大模型进行了评测。

AI大模型成绩都不算太高

据悉，复旦大学NLP实验室的大模型评测LLMEVAL团队选取了2024年高考新I卷、新II卷数学试卷的14道客观题，用国内外的13个大模型“考生”测验。这些模型包括国内外知名的大型语言模型，如GPT-4o和Qwen2-72b。

在评测过程中，团队首先对数学试题进行筛选和分类，确保试题涵盖广泛的数学知识点和难度梯度。

具体评分标注如下：单选题共8题，每题5分，总计40分；多选题共3题，每题6分，总计18分，部分正确得部分分，有错误选项则得0分；填空题共3题，每题5分，总计15分；3项总分73分。

整体来看，AI大模型们的“高考成绩”都不算太高。其中，OpenAI 新一代旗舰大模型GPT-4o与阿里云研发的通义千问720亿参数大模型Qwen-72b在两次测试中排名都靠前，正确率稳定在60%以上。

部分大模型的表现存在起伏与波动，如百川智能、字节跳动新近发布的Baichuan4和豆包大模型分别在新I卷和新II卷客观题测试中得分排名第一，但在另一场测试中排名相对靠后。

图源：复旦大学NLP实验室

AI大模型仍有较大提升空间

通过两卷的评测，团队发现大部分模型在简单题（如选择题前三道）上有较高的准确率，而在中档题目上表现较为一般。Qwen2-72b（两次第二）与GPT-4o（两次第三）在两次测试中均名列前茅，显示出相对稳定的表现。

测试还表明，不同模型在两次评测中的表现存在较大波动，尤其在较难题目上，模型的准确率显著下降，有些题目甚至没有模型能完全答对。

总结而言，AI大模型对基础题目表现尚可，中档题目（涉及到数值计算和一定的逻辑推理）已经“力不从心”，复杂题目（涉及到严谨的推到和复杂的计算、以及图表理解等）无能为力。

此次测试证明，让AI大模型做数学题仍是一个难度较大的挑战，主要体现在以下几个方面：

一是文本输入格式的不同会对测试结果造成比较明显的干扰。目前测试主要采用上传图片识别文本的方式，这种方式更类似“人类”是对大模型能力的全面考验。而有的大模型还未做题，就先败在了AI识图这一步。

二是大模型的推理能力仍有很大进步空间。较难的题目对思维能力的考察要求更高，大模型的准确率也会更低。

三是在多选题方面，大多数模型表现不佳。可见，面临复杂选项的时候，大模型的准确率也会降低。

因此，AI大模型不管是逻辑推理能力还是按步骤解题的能力上，都还不及人类水平。

如何看待GPT4o被超越？

值得一提的是，数学能力是GPT-4o一直以来引以为傲的能力模块。OpenAI 在 5 月 14 日的发布会上推出大语言模型 GPT-4o 时，曾重点演示其数学能力。

然而，此次测试来看，Qwen-72b的表现要好于GPT4o。实际上，Qwen2绝对的智力程度是不如GPT4o的，造成这一差距重要原因可能是对于中文的理解以及处理。

有专业人士分析，从模型架构角度，GPT-4o基于OpenAI的GPT-4，采用了Transformer架构，是一种广泛应用于自然语言处理任务的深度学习模型。Transformer架构的核心思想是通过多头自注意力机制来捕捉输入数据中的长程依赖关系。GPT-4o通过预训练和微调两个阶段来进行训练。在预训练阶段，模型被暴露于大量的互联网文本，通过自监督学习来学习语言的统计规律和语义关系。

而Qwen2-72b具有720亿参数的语言模型，在参数数量上较GPT-4o有所不同，但也采用了Transformer架构。Qwen2-72b也通过预训练和微调两个阶段进行训练，但作为国内AI通用大模型，尤其强调在中文自然语言处理任务中的表现。

这两种模型的主要区别在于它们的规模和特定的优化目标，GPT-4o更侧重于广泛的语言理解和生成任务，而Qwen2-72b则在中文处理上有特别的优化。

因此，GPT-4o能够克服“水土不服”，拿到名列前茅的成绩，其能力可见一斑。

不过，从另外一个层面来看，最近半年来，国产大模型的发展突飞猛进，逐渐展现出超越国外模型的能力。例如，Qwen-72b就在之前的测试中力压此前的最先进开源模型Llama3。

最近，斯坦福大学抄袭面壁智能MiniCPM-Llama3-V的事件，也体现了国内AI技术的进步和竞争力。

另外，此次测试也显示，一个可以适应中文环境且拥有不俗智力程度的大模型，未来将具有很好的发展前景和潜力。

综上，尽管AI大模型可以解高考题，但离真正的“智能”还有不小距离。不过，通过不断地迭代和优化，以及训练过程中的各种磨合，AI技术的潜力无限。

责编：Jimmy.zhang

人工智能业界新闻

您可能感兴趣

不写一行代码：让AI给我开发个AI应用，基于Jetson板子

最近收到一款Jetson Orin Nano Super开发套装，我打算拿它来做个简单的AI应用开发...在没有任何AI应用和嵌入式应用开发经验的基础上...主打传说中的零代码开发~

NVIDIA物理智能，如何重塑自动驾驶底层逻辑？

“物理智能(Physical AI)”，黄仁勋在CES 2025上发表主题演讲时提出的新概念。他指出，即将全面到来的“Physical AI”时代，将是在1000万工厂、20万仓库、15亿汽车和卡车及海量人形机器人之上应用的下一波万亿规模市场驱动力。

微软呼吁美国政府放宽“Tier 2国家”芯片出口管制，平衡安全与商业利益

微软还强调，拜登政府的《人工智能扩散出口管制框架》限制了美国向许多快速增长且具有战略意义的市场出口关键AI组件，破坏了特朗普政府的两项优先事项：加强美国的AI领导地位以及减少美国近万亿美元的贸易逆差。

中国牵头制定的世界首个养老机器人国际标准正式发布

该标准旨在为养老机器人的设计、制造、测试和认证提供统一规范，推动全球养老机器人产业的健康发展，通过明确养老机器人的功能与性能分类，确保其在互联家居环境中的有效应用。

人形机器人企业高薪揽才，核心岗位月薪飙至10万！

2月以来，一些人形机器人头部企业高薪案例值得关注。其中，宇树科技招聘机器人感知算法工程师、机器人控制算法专家等岗位，月薪可达7万元至10万元。智元机器人SLAM算法专家月薪4-7万元，年薪超百万（15薪制）。

美国将升级对华芯片管制，中国应如何应对加码措施？

在应对美国加码措施上，中国一方面应该依托自身庞大的垂直应用场景，特别是工业制造领域，在做大做强中国制造的同时，推动国产AI芯片的替代，另一方面仍需加大基础研究投入，重点突破AI芯片设计、半导体设备和先进工艺制程。

赤池昌二先生升任TEL集团副总裁兼中国区总裁

TEL宣布自2025年3月1日起，现任TEL中国区地区总部——东电电子（上海）有限公司高级执行副总经理赤池昌二正式升任为集团副总裁，同时兼任东电电子（上海）有限公司总裁和东电光电半导体设备（昆山）有限公司总裁。

2025年无线连接的七大趋势

预计在2025年，以下七大关键趋势将塑造物联网的格局。

4月必逛电子展！六大热门新赛道，来NEPCON China 2025一展全看

领域新成果领域新成果4月必逛电子展！AI、人形机器人、低空飞行、汽车、新能源、半导体六大热门新赛道，来NEPCON China 2025一展全看，速登记！

ASML公布2025年度股东大会议程，并提名Karien van Gennip为新任监事会委员

本次股东大会将采取线上和线下相结合的混合形式召开，股东们可选择现场出席或线上参会。

莲花跑车高层被曝人事调整

点击上方蓝字谈思实验室获取更多汽车网络安全资讯3 月 5 日，据中国经济网报道，近日有传言毛京波即将卸任莲花中国总裁，调整至海外市场。莲花汽车内部人士证实了此事：“毛总（毛京波）已经有几天没有出现在办

小米又一预研技术全球首发

小米宣布全球首发光学预研技术——小米模块光学系统，同时发布官方宣传视频。简单来说，该系统是一个磁吸式可拆卸镜头，采用定制M4/3传感器+全非球面镜组，带来完整一亿像素，等效35mm焦段，配备f/1.4

5.1亿，一LED显示屏项目下月试产

‍‍据“龙岩发布”3月5日消息，蓝天LED显示屏产业链生产项目一期装修已完成50%，预计3月底可完工，4月初试投产。加入LED显示行业群，请加VX：hangjia188图源：龙岩发布据介绍，蓝天LED

NoETL+大模型=万数皆可问!「NoETL指标平台最佳实践研讨会」报名开启

数据民主化终极拷问：借助大模型问数，究竟能不能实现灵活、准确、深入的数据洞察？“华东区会员复购率是多少？”——业务提需求3天，IT排期2周，口径对齐5轮。“为什么A产品毛利异常？”——指标定义模糊，数

DeepSeek在企业侧的落地：技术盘点与路径解析

DeepSeek的崛起不仅是技术革新，更是一场从“机器语言”到“人类语言”的范式革命，推动了AGI时代到来。各个行业的应用场景不断拓展，为企业数字化发展带来了新机遇，同时也面临诸多挑战。不同企业在落地

迈为股份：MLED整线方案最新披露

‍‍近几年，随着Mini/Micro LED技术的高速发展，LED产业呈现几大发展趋势，如LED显示间距持续缩小、LED芯片持续微缩化、产品、工艺制造环节更为集成，以及RGB 封装与COB 降本需求迫

【今日招聘】注意了！UESTC面向全球诚聘光电英才

今日光电有人说，20世纪是电的世纪，21世纪是光的世纪；知光解电，再小的个体都可以被赋能。追光逐电，光引未来...欢迎来到今日光电！----追光逐电光引未来---- 来源：时光沉淀申明：感

瑞淀：3月11日，新型显示等最新方案展示

2025年3月11-13日，亚洲激光、光学、光电行业年度盛会的慕尼黑上海光博会将在上海新国际博览中心-3号入口厅N1-N5,E7-E4馆盛大召开。本次瑞淀光学展示方案有：■ MicroOLED/Min

全球首个！人形机器人半程马拉松，下月北京开跑！

在3月4日北京市政府新闻办公室举行的发布会上，北京经济技术开发区（北京亦庄）发布消息称，将于4月13日举行北京亦庄半程马拉松赛，全球首个人形机器人半程马拉松赛将同期举行。会上表示，人形机器人将与运动员

直播报名|高效DC-DC转换器的设计系列直播

点击上方蓝字➞右上「· · ·」设为星标➞更新不错过★2025 年 3 月 12 日至 14 日连续 3 晚 19:00 - 20:30德州仪器电力全开为您带来 “高效 DC-DC 转换器的设

文章评论

最新
热门

换一换

EE直播

更多>

复旦测评13家大模型高考数学成绩：GPT-4o被国内AI大模型超越！

AI大模型成绩都不算太高

AI大模型仍有较大提升空间

如何看待GPT4o被超越？

杂志声明