随着今年高考的落幕,一场鲜为人知的"智能较量"也在幕后悄然兴起,那便是国产人工智能大模型。十余家媒体对近10款国产人工智能大模型进行了高考作文、数学、物理三个科目的全面评测,并公布了成绩。

随着今年高考的落幕,一场鲜为人知的"智能较量"也在幕后悄然兴起,那便是国产人工智能大模型。

近日,搜狐科技、潇湘晨报、量子位、机器之心等十余家媒体对近10款国产人工智能大模型进行了高考作文、数学、物理三个科目的全面评测,并公布了成绩。

高考作文

考题以“随着互联网的普及、人工智能的应用,越来越多的问题能很快得到答案。那么,我们的问题是否会越来越少?”为题,引领考生思考科技进步与问题之间复杂的关系。

搜狐科技组织了十款AI大模型的作文评测,包括ChatGPT-4O、腾讯元宝、百度文心一言等。三位资深语文教师作为权威专家为各大模型的作文打分。结果显示,ChatGPT-4O以52.7分的平均成绩夺得第一,腾讯元宝以51.7分位居第二,智谱清言、字节豆包与讯飞星火则并列第三。Kimi、阿里通义、百川、海螺排名相对靠后。即便排名最低的AI模型也获得了45.7分的平均分,考虑到作文满分为60分,这一成绩已相当于高中生的平均水平。

而在潇湘晨报的“AI写作”评测中,讯飞星火不仅平均分位居首位,且获得了全场最高分56分。潇湘晨报邀请湖南知名作家、编辑作为阅卷老师,对国内五大AI大模型产品——百度文心一言、讯飞星火、阿里通义千问、字节豆包、腾讯元宝的高考作文进行评分,经过四位阅卷老师的综合打分,讯飞星火以49分的平均分高居首位。

给讯飞星火打出“全场最高分”56分的阅卷老师表示:“本文观点清晰,论述集中且层层推进,很多句子都简洁有力,颇有思想性。如果是某个学生写的,无疑是难得的佳作。”

数学科目

在搜狐科技的数学评测中,讯飞星火、文心一言、豆包均以63%的正确率位列第一梯队,智谱清言、阿里通义则以50%的正确率位居第二梯队,其他大模型相对落后。

在量子位的高考数学评测中,虽然没有给出详细成绩单,但展示了各家大模型详细的解题思路,交由网友打分,通过网友的投票打分可以看出,讯飞星火的“识图+解数学题”能力收到了最高认可,位居其后的分别是Kimi、通义千问、文心一言、豆包等。

机器之心选取了六家国内头部大模型公司的产品与考生们一同参与一场客观且公平的高考数学考试(新课标 Ⅰ 卷),其中包括 GPT-4o、GLM-4、文心一言 4.0、豆包、百小应(百川 4)以及通义千问 2.5。

而在机器之心的评测中,大模型(产品)的表现并未达到预期,甚至出现了几乎全部不及格的情况,只有智谱最新发布的 GLM-4-0520 模型超过了及格线。

机器之心将评测的重点放在了高考数学的前 14 个客观题上,这些题目覆盖了基础的数学知识和计算能力,满分为 73 分。在测试时,我们将题目直接输入产品,不做 System Prompt 引导,直接输出结果;同时也没有触发搜索,没有来自外界的干扰。

分数计算方法依照高考真实判分原则:

  • 单选题 8 道,每道 5 分,选项正确计分,错误不得分;
  • 多选题 3 道,每道 6 分,全对计 6 分,漏选按正确答案数量计分,如答案为 ABCD,漏选其一扣 1.5 分,错选不得分;
  • 填空题,3 道,每道 5 分,填空正确计分,错误不得分。

                                    图|8 模型对 14 道数学题的回答结果,绿色为正确、红色为错误、黄色为部分正确具体而言,在满分 73 分、及格线为 43.8 分(60%)的情况下,六家大模型产品的分数结果分别为:GLM-4-0520 (63 分) > 智谱清言 (43 分) > GPT-4o (41 分) > 豆包 (40 分) > 文心 4 (30 分) = 百川 4 (30 分) > 通义千问 2.5 (29 分)。

机器之心还指出,每年的第 8 道单选题往往是高考数学卷中最难的一道题,被测试的大模型都 “全军覆灭” 了。

机器之心表示,对大模型产品来说,高考语文作文可以直接测试它们的创造性写作技巧,包括构思、组织和表达观点的能力。

而在数学考试测试中,除了基本的计算能力、对数学知识的掌握,更能体现大模型在逻辑推理、抽象思维和问题解决方面的高级能力。大模型必须理解并运用数学概念、公式和定理,这要求它具备深厚的数学知识基础。同时,逻辑推理能力是解答数学题目的关键,大模型需要通过严密的逻辑推导来解决问题。

物理科目

在量子位的评测中,阿里通义千问与讯飞星火以71.4%的准确率高居第一梯队,而Kimi、海螺和腾讯元宝则以42.9%的准确率位于第二梯队。百川百小应和万知答对一题位于第三梯队。

文心一言、豆包、天工、智谱清言、商量因为出现了不同程度读图失败的问题,在成功识别的题目中,商量和文心一言的正确率为2/4,即正确率为28.6%;豆包、天工、智谱清言正确率为1/2,即正确率为14.3%。

综合以上媒体在作文、数学、物理三门科目的成绩,来自科大讯飞的讯飞星火以总分52.49分高居综合排名第一。紧随其后的是通义千问和文心一言,分别位列第二、第三名。而Kimi、字节豆包、海螺AI等其他大模型也有不错的表现。

此次评测展示了人工智能大模型在应对高考这类复杂考试中的能力进展,体现了国内AI技术的快速发展。此外,高考作文单项成绩方面,有AI大模型取得了52.7的高分,显示出在语言理解和生成任务上的显著提升。

综合成绩:

第一名:52.49 讯飞星火

第二名:46.08 通义千问

第三名:37.67 文心一言

第四名:34.68  Kimi

第五名:33.57 字节豆包

第六名:31.92 海螺AI

第七名:30.61 腾讯元宝

第八名:30.28 智谱清言

第九名:21.56 百川百小应

责编:Demi
阅读全文,请先
您可能感兴趣
有分析认为,台积电断供7纳米及更先进工艺的芯片,一方面是回应此前的“白手套”事件,配合美国对中国大陆人工智能产业发展进行限制,以避免进一步的法律和政治风险,另一方面则是向新一任总统特朗普“投诚”,毕竟时间点很微妙。
这款芯片不仅适用于AI汽车,还可以应用于AI机器人和未来可能的飞行汽车领域,体现了小鹏在智能化领域的雄心壮志。据悉,图灵AI芯片的算力非常强大,一颗芯片的算力相当于三颗主流智驾芯片。这使得它能够同时驱动自动驾驶系统、智能座舱大模型等多种应用。
由于较早预判了transformer网络架构的发展,爱芯通元AI处理器原生支持transformer,这也保证了其能效比领先于更高端的AI芯片,更加契合边缘大模型的落地应用。基于爱芯智眸AI-ISP和爱芯通元NPU两大核心技术,爱芯元智在智慧城市、智能驾驶和边缘智能等领域不断落地。
作为IIC Shenzhen 2024主论坛之一,2024全球CEO峰会以“边缘·芯未来”为主题,邀请全球领先的半导体技术厂商探讨和分享边缘AI技术在硬件和软件上的创新和布局,以及边缘AI的发展为半导体产业带来的巨大的市场机遇和技术挑战。
汪洋特别提到,第十三届芯原CEO论坛五大预测之一是2028年用于端侧微调卡和推理卡的销售额将超过用于云侧的训练卡。目前,推理和端侧微调也是芯原重点关注的领域,同时也希望在这一发展趋势中寻找新的机遇。 
三星电子的晶圆代工业务亏损重要原因之一是错失HBM风口和尖端制程良率问题。作为全球最大的存储芯片制造商,三星电子巅峰时期曾独占全球45%以上的内存市场。然而,近两年来,三星电子在先进制程芯片及AI芯片领域的进展缓慢。
为了更直观地了解FinFET到GAAFET架构世代的差异,本文利用高倍率的电子显微镜影像进行深入的探讨与分析,观察其于结构微观层面上的特征...
汽车技术领域正处于关键的转折点,其未来依托于动态且适应性强的系统,并可通过软件不断提升驾驶体验。
连接标准联盟很高兴宣布 Matter 1.4 现已正式发布,可供设备制造商和生态平台开发应用。这次更新是Matter生态系统迈出的重要一步。Matter 1.4带来了一系列增强功能......
根植雄厚研发实力及物联网领域的深耕实践,汇顶科技面向新兴车载互联应用全力进击。旗下首款高可靠性、高性能车规级低功耗蓝牙SoC——GR5405,已成功通过AEC-Q100 Grade 2认证。
据行家说Research调研信息显示,2024年,LED一体机市场出货量呈现增长态势,尤其海外市场推广力度加强;同时,多家厂商对2025年的市场增长持乐观态度,并积极布局LED一体机产品。近日,创维商
国芯网[原:中国半导体论坛] 振兴国产半导体产业!   不拘中国、放眼世界!关注世界半导体论坛↓↓↓11月12日消息,据路透社看到的草案,日本政府计划提出一个耗资 10 万亿日元的计划,在“数年”时间
近几年,越来越多的中国电子零部件企业将目光投向海外市场,寻求“出海”机会。有一家坐落于深圳龙岗坂田的企业,在高端豪华车、工业控制上的产品成功获得了行业标杆客户的订单,出口额更是突破百万美元,成为“出海
东芝电子今日宣布,最新开发出一款用于车载牵引逆变器[1]的裸片[2]1200 V碳化硅(SiC)MOSFET“X5M007E120”,其创新的结构可实现低导通电阻和高可靠性。X5M007E120现已开
新原型的耐用性增强意味着它可以重复拉伸超过10000次。美通社消息,全球领先的显示技术创新者LG Display宣布,推出了全球首款可拉伸显示器,其伸长率可达50%,是业内最高的伸长率。可拉伸显示器被
国芯网[原:中国半导体论坛] 振兴国产半导体产业!   不拘中国、放眼世界!关注世界半导体论坛↓↓↓世界先进11月11日公告,位于桃园的晶圆三厂于下午12:10分因供电系统设备异常,致使厂区电力中断,
大联大控股宣布,其旗下诠鼎推出基于高通(Qualcomm)IPQ5322、QCN6422、QCN6432和QCA8386芯片的Wi-Fi 7家庭网关方案。   &nb
11月12日,百度创始人李彦宏在百度世界2024大会上表示,智能体是AI应用最主流的形态,即将迎来爆发点,这里是李彦宏演讲完整视频。●付费专栏文章小白自媒体赚钱,年入十万不是梦:专栏介绍 丨小白自媒体
芯片超人现有1600平米芯片智能仓储基地,现货库存型号1000+,品牌高达100种,5000万颗现货库存芯片,总重量10吨,库存价值高达1亿+。同时,芯片超人在深圳设有独立实验室,每颗物料均安排QC质
EETOP讯,据中国台湾《经济日报》报道,美国出口管制措施进一步升级,不仅传闻台积电将因遵循规定而停止向中国大陆的非消费类AI芯片客户提供7纳米制程产品,三星也同样受到限制,无法承接相关订单。(参考阅