GPT-4o更侧重于广泛的语言理解和生成任务,而Qwen2-72b则在中文处理上有特别的优化。GPT-4o能够克服“水土不服”,拿到名列前茅的成绩,其能力可见一斑。

近日,复旦大学自然语言处理(NLP)实验室LLMEVAL团队做了一个极具创意和挑战性的尝试,开创性地用高考数学题来评测大模型!

根据公开的2024 年高考数学大模型评测结果,阿里千问和讯飞星火分别获得了 2024 高考数学新 I 卷的第一名和第二名,以及高考数学新 II 卷的第二名和第一名,两份考卷的评测中,而GPT-4o 均列第三名。

据悉,LLMEval是由复旦大学NLP实验室推出的大模型评测基准,专注于评估专业领域的知识能力。评测团队表示,全新出炉的高考试题具备高度的独创性和保密性,是用来评测大模型的“绝好评测集合”。因此,团队在高考后第一时间对GPT-4o、文心一言、阿里千问、字节豆包等13家大模型进行了评测。

AI大模型成绩都不算太高

据悉,复旦大学NLP实验室的大模型评测LLMEVAL团队选取了2024年高考新I卷、新II卷数学试卷的14道客观题,用国内外的13个大模型“考生”测验。这些模型包括国内外知名的大型语言模型,如GPT-4o和Qwen2-72b。

在评测过程中,团队首先对数学试题进行筛选和分类,确保试题涵盖广泛的数学知识点和难度梯度。

具体评分标注如下:单选题共8题,每题5分,总计40分;多选题共3题,每题6分,总计18分,部分正确得部分分,有错误选项则得0分;填空题共3题,每题5分,总计15分;3项总分73分。

整体来看,AI大模型们的“高考成绩”都不算太高。其中,OpenAI 新一代旗舰大模型GPT-4o与阿里云研发的通义千问720亿参数大模型Qwen-72b在两次测试中排名都靠前,正确率稳定在60%以上。

部分大模型的表现存在起伏与波动,如百川智能、字节跳动新近发布的Baichuan4和豆包大模型分别在新I卷和新II卷客观题测试中得分排名第一,但在另一场测试中排名相对靠后。

图源:复旦大学NLP实验室

AI大模型仍有较大提升空间

通过两卷的评测,团队发现大部分模型在简单题(如选择题前三道)上有较高的准确率,而在中档题目上表现较为一般。Qwen2-72b(两次第二)与GPT-4o(两次第三)在两次测试中均名列前茅,显示出相对稳定的表现。

测试还表明,不同模型在两次评测中的表现存在较大波动,尤其在较难题目上,模型的准确率显著下降,有些题目甚至没有模型能完全答对。

总结而言,AI大模型对基础题目表现尚可,中档题目(涉及到数值计算和一定的逻辑推理)已经“力不从心”,复杂题目(涉及到严谨的推到和复杂的计算、以及图表理解等)无能为力。

此次测试证明,让AI大模型做数学题仍是一个难度较大的挑战,主要体现在以下几个方面: 

一是文本输入格式的不同会对测试结果造成比较明显的干扰。目前测试主要采用上传图片识别文本的方式,这种方式更类似“人类”是对大模型能力的全面考验。而有的大模型还未做题,就先败在了AI识图这一步。

二是大模型的推理能力仍有很大进步空间。较难的题目对思维能力的考察要求更高,大模型的准确率也会更低。

三是在多选题方面,大多数模型表现不佳。可见,面临复杂选项的时候,大模型的准确率也会降低。

因此,AI大模型不管是逻辑推理能力还是按步骤解题的能力上,都还不及人类水平。

如何看待GPT4o被超越?

值得一提的是,数学能力是GPT-4o一直以来引以为傲的能力模块。OpenAI 在 5 月 14 日的发布会上推出大语言模型 GPT-4o 时,曾重点演示其数学能力。

然而,此次测试来看,Qwen-72b的表现要好于GPT4o。实际上,Qwen2绝对的智力程度是不如GPT4o的,造成这一差距重要原因可能是对于中文的理解以及处理。

有专业人士分析,从模型架构角度,GPT-4o基于OpenAI的GPT-4,采用了Transformer架构,是一种广泛应用于自然语言处理任务的深度学习模型。Transformer架构的核心思想是通过多头自注意力机制来捕捉输入数据中的长程依赖关系。GPT-4o通过预训练和微调两个阶段来进行训练。在预训练阶段,模型被暴露于大量的互联网文本,通过自监督学习来学习语言的统计规律和语义关系。

而Qwen2-72b具有720亿参数的语言模型,在参数数量上较GPT-4o有所不同,但也采用了Transformer架构。Qwen2-72b也通过预训练和微调两个阶段进行训练,但作为国内AI通用大模型,尤其强调在中文自然语言处理任务中的表现。

这两种模型的主要区别在于它们的规模和特定的优化目标,GPT-4o更侧重于广泛的语言理解和生成任务,而Qwen2-72b则在中文处理上有特别的优化。

因此,GPT-4o能够克服“水土不服”,拿到名列前茅的成绩,其能力可见一斑。

不过,从另外一个层面来看,最近半年来,国产大模型的发展突飞猛进,逐渐展现出超越国外模型的能力。例如,Qwen-72b就在之前的测试中力压此前的最先进开源模型Llama3。

最近,斯坦福大学抄袭面壁智能MiniCPM-Llama3-V的事件,也体现了国内AI技术的进步和竞争力。

另外,此次测试也显示,一个可以适应中文环境且拥有不俗智力程度的大模型,未来将具有很好的发展前景和潜力。

综上,尽管AI大模型可以解高考题,但离真正的“智能”还有不小距离。不过,通过不断地迭代和优化,以及训练过程中的各种磨合,AI技术的潜力无限。

责编:Jimmy.zhang
阅读全文,请先
您可能感兴趣
有分析认为,台积电断供7纳米及更先进工艺的芯片,一方面是回应此前的“白手套”事件,配合美国对中国大陆人工智能产业发展进行限制,以避免进一步的法律和政治风险,另一方面则是向新一任总统特朗普“投诚”,毕竟时间点很微妙。
这款芯片不仅适用于AI汽车,还可以应用于AI机器人和未来可能的飞行汽车领域,体现了小鹏在智能化领域的雄心壮志。据悉,图灵AI芯片的算力非常强大,一颗芯片的算力相当于三颗主流智驾芯片。这使得它能够同时驱动自动驾驶系统、智能座舱大模型等多种应用。
由于较早预判了transformer网络架构的发展,爱芯通元AI处理器原生支持transformer,这也保证了其能效比领先于更高端的AI芯片,更加契合边缘大模型的落地应用。基于爱芯智眸AI-ISP和爱芯通元NPU两大核心技术,爱芯元智在智慧城市、智能驾驶和边缘智能等领域不断落地。
作为IIC Shenzhen 2024主论坛之一,2024全球CEO峰会以“边缘·芯未来”为主题,邀请全球领先的半导体技术厂商探讨和分享边缘AI技术在硬件和软件上的创新和布局,以及边缘AI的发展为半导体产业带来的巨大的市场机遇和技术挑战。
汪洋特别提到,第十三届芯原CEO论坛五大预测之一是2028年用于端侧微调卡和推理卡的销售额将超过用于云侧的训练卡。目前,推理和端侧微调也是芯原重点关注的领域,同时也希望在这一发展趋势中寻找新的机遇。 
三星电子的晶圆代工业务亏损重要原因之一是错失HBM风口和尖端制程良率问题。作为全球最大的存储芯片制造商,三星电子巅峰时期曾独占全球45%以上的内存市场。然而,近两年来,三星电子在先进制程芯片及AI芯片领域的进展缓慢。
为了更直观地了解FinFET到GAAFET架构世代的差异,本文利用高倍率的电子显微镜影像进行深入的探讨与分析,观察其于结构微观层面上的特征...
汽车技术领域正处于关键的转折点,其未来依托于动态且适应性强的系统,并可通过软件不断提升驾驶体验。
连接标准联盟很高兴宣布 Matter 1.4 现已正式发布,可供设备制造商和生态平台开发应用。这次更新是Matter生态系统迈出的重要一步。Matter 1.4带来了一系列增强功能......
根植雄厚研发实力及物联网领域的深耕实践,汇顶科技面向新兴车载互联应用全力进击。旗下首款高可靠性、高性能车规级低功耗蓝牙SoC——GR5405,已成功通过AEC-Q100 Grade 2认证。
台积电7nm停供中国大陆!集微网报道称,从多个消息源获悉,台积电已经向目前所有中国大陆AI芯片客户发送正式电子邮件,宣布自下周(11月11日)起,将暂停向中国大陆AI/GPU客户供应所有7纳米(nm)
国芯网[原:中国半导体论坛] 振兴国产半导体产业!   不拘中国、放眼世界!关注世界半导体论坛↓↓↓11月12日消息,据路透社看到的草案,日本政府计划提出一个耗资 10 万亿日元的计划,在“数年”时间
东芝电子今日宣布,最新开发出一款用于车载牵引逆变器[1]的裸片[2]1200 V碳化硅(SiC)MOSFET“X5M007E120”,其创新的结构可实现低导通电阻和高可靠性。X5M007E120现已开
由前苹果和英特尔等资深人士共同创立的硅谷人工智能芯片初创公司Tenstorrent,近日宣布与日本政府达成一项重要协议。根据协议,Tenstorrent将在未来五年内,于其美国办公室为日本培训多达20
芯片超人现有1600平米芯片智能仓储基地,现货库存型号1000+,品牌高达100种,5000万颗现货库存芯片,总重量10吨,库存价值高达1亿+。同时,芯片超人在深圳设有独立实验室,每颗物料均安排QC质
EETOP 11月12日消息,据外媒报道,华为公司已要求美国法官驳回一项联邦起诉书中的大部分指控。该起诉书指控华为试图窃取美国竞争对手的技术机密,并在其伊朗业务问题上误导银行。华为在上周五晚间提交给法
随着铜箔行业上市公司2024年度三季报的陆续发布,整体行业呈现出“增收不增利”的局面,财报数据如表1所示。表1 铜箔上市公司2024年前三季度财报数据面对上述现实,中国电子材料行业协会电子铜箔材料分会
中国新能源车市场的变化速度用“日新月异”来形容毫不夸张,短短几年时间,车企们的发力方向就从“冰箱彩电大沙发”的卷配置,到猛堆电池的卷续航,再到蜂拥而上卷智能化。各种方向的技能树都没少点,但由于补能效率
艾默生完成对NI的收购已有一年,NI客户或也许会有这样的疑问——艾默生收购NI意味着什么?如何继续投入测试测量行业?NI如何看待中国市场?在今天举办的NI全联结峰会上,针对这三大关键问题,艾默生测试与
11月11日,据路透社消息,华为技术有限公司要求美国法官驳回一项针对其的联邦起诉书的大部分内容。该起诉书指控华为试图窃取美国竞争对手的技术机密,并就其相关业务误导银行。           报道称,华