广告

高考机器人惜败人类状元,输在“语文是程序员教的”

时间:2017-06-08 11:26:20 作者:网络整理 阅读:
2017年6月8日,是中国恢复高考制度 40 周年。早前我们就了解到,今年将有两位特别的考生会亮相高考,它就是成都“准星数学高考机器人AI-MATHS“,以及北京的智慧教育机器人Aidam。
广告

6月7日晚间,AI-MATHS在断网断题库的情况下完成了北京文科数学卷和全国二卷数学卷,分别用时22分钟与10分钟,考试成绩也于当天揭晓,分别为105与100分(两套试卷的总分均为150分)。这一分数说不上是数学“学霸”,不过还算差强人意。毕竟,AI-MATHS研发团队设立的高考目标分也才110。

靠“刷题“提升,考试时需断网

像普通高考考生一样,AI-MATHS也靠大量“刷题”提升水平。今年2月,AI-MATHS仅靠100套试题的训练量,在一次模拟考中取得了93分的成绩。2月份之后,为了训练AI-MATHS的答题速度,团队加大了题量,目前AI-MATHS已有500套试题的积累,这次AI-MATHS算是超越自己了吧。
20170608-ai-gaokao-0
▲ AI-MATHS现场答题(Source:澎湃新闻)

资料显示,AI-MATHS是成都高新区一家本土人工智能企业研发,以自动解题技术为核心的人工智能系统,诞生于2014年,在2016年5月宣布参加今年高考数学试卷。业界透露,让机器人参与高考,旨在测试机器人能达到什么样的人工智能水平,然后在更多地方应用AI成果。

AI-MATHS由10余台服务器组成,“考场”设在成都天府新谷10号楼的一个会议室里。像考生会被切断与外界的联系一样,开始答题时这些服务器也会被切断网络连接。由公证机构和媒体出任“监考老师”。
20170608-ai-math
▲ AI-MATHS主机

据了解,准星AI-MATHS近1年多来,在复杂逻辑推理、直觉观察推理、计算机算法、深度学习上都进行了深入攻关。它是通过综合逻辑推理平台来解题,而非学习储存题库。本次挑战的结果也将运用到该公司对AI-MATHS的技术验证中,帮助AI-MATHS早日从“学生”变成“老师”。
20170608-ai-gaokao-1
▲ 现场老师给AI-MATHS评卷(Source:成都发布)

Aidam机器人大战六名高考理科状元

北京这边战况更加惨烈,教育机构“学霸君”自行研发的智慧教育机器人Aidam与六名高考理科状元同台对决,共同解答今年高考文科数学试题,满分为150分。结果Aidam的成绩为134分,六名状元为135分,险胜。

昨天(6月7日)晚间六点四十分,Aidam开始答题。这不是一个普通的高考考场大约三百平方的大厅里,循环大声播放着一首钢琴曲,时不时还有女主持人和嘉宾对话——明显比考场嘈杂多了。
20170608-ai-gaokao-5
▲Aidam和六名学霸同时开始答题

Aidam仅仅经历九分四十七秒就答题结束。学霸君创始人张凯磊坦言自己很紧张,“就像送自己的女儿参加高考”。他表示,为了展示,Aidam昨天答题放慢六倍速度,平时每道题完成时间应该在七至十五秒。
20170608-ai-gaokao-3
▲学霸君创始人张凯磊讲解Aidam解题原理

Aidam放慢的原因是不仅需要把题目做对,还需要给大家展示他是如何做到的。根据要求,Aidam会通过礼堂前部的大屏幕来展示:左边是一个由无数蓝色光点组成的大脑,每算一道题,蓝色大脑里就会跳出若干以红色、黄色、蓝色节点构建的知识链。每个节点旁边有一行白色的字,标注着这道题涉及了哪些知识。
20170608-ai-gaokao-4
▲Aidam解题全程展示

六名高考状元在高考数学结束拿到试题后,即开始答题,答题时间是五十五分钟。人机双方分别完成了包括客观题和主观题在内的整张试卷,并按照评分标准得出最终成绩。

经过数学特级老师、奥赛教练韩兆勇的评审,Aidam的分数最终公布:134 分。三组高考状元陪他一起进行测试,状元一组得分119分。状元二组得分140分。状元三组得分146分。三组高考状元平均分135分,Aidam以 1 分之差惜败于最精英的人类“做题家”。
20170608-ai-gaokao-2
2016年河北省理科状元孟祥熙现就读于北京大学光华管理学院,他受访时表示,“人机大战赢了很开心,但是机器人技术很先进,想知道自己解题错在哪里”。

以拍照搜题为最初产品的学霸君,其产品已经有 6000 万注册用户,答题搜索次数超过 60 亿,老师在线答疑超过 500 万次。这一庞大的题库和数据积累为 Aidam 的发展打下了基础,“我发现,原来在我们的题库里面我们记录了大量的关于状态之间可跳转、可推演、可演算、可关联的信息。” 在讲解 Aidam 的背后逻辑的时候,学霸君的首席科学家陈锐锋使用了围棋作为比喻。

类似于围棋棋盘可以被分为无数横轴和纵轴。人的思维模式和解题模式也可以被具象为棋子,棋子的纵轴与横轴分别代表起始的状态和下一步的状态,这样,每一次题目的可能解法,就相当于在一个庞大思维矩阵里下棋的过程。而学霸君此前积累的庞大的题库与数据记录,恰恰类似于无数张围棋棋谱,为人工智能自主学习提供了可能性。

高考机器人的意义在哪?

机器人参加高考,并不是所谓的 “ 人机大战 ” 后才出现的噱头。在国家层面,“ 高考机器人 ” 是国家863计划信息技术领域 “ 基于大数据的类人智能关键技术与系统 ” 项目的重要研究目标之一。该项目由科大讯飞联合30多家科研院校和企业共同参与,早在2015年便已立项。

“ 高考机器人 ” 有多方面的意义:聚集国内的一些比较顶级的研究机构和科学家,一起来攻关现在人工智能领域相关的一些重要的技术问题;替代传统测试人工智能水平的 “ 图灵测试 ” ,全方面测试和应用与人工智能相关的多个领域;最后将这些领域攻关所取得的技术成果,运用到相关行业和领域,如翻译和车载控制等。

尽管目标类似,但不同的背景决定了AI-Maths和Aidam的不同的解题思路,甚至在一定程度上截然相反:准星云学的 AI-Maths 与 863 计划的高考机器人的思路一致,强调 “ 不联网、不连接题库、无人工参与 ”。在只有少量训练样本的情况(只有约500套试卷、1万道题的训练量)以机器建立类似人类的复杂逻辑推理能力与联想能力。试图让机器在较少样本和较少资源耗费的情况下,拥有“举一反三”能力。而学霸君的思路则强调大题库(已经有超过7000万的巨大题库),通过海量的题库,用户行为数据,以及 Ai 自我博弈,从海量题目中找到适合共通的知识组件和解题模式。
20170608-ai-gaokao-6
▲AI-Math解题全程断网断库,全凭“学习来”的知识

从某种角度说,这两种模式的区别类似于Alphago 早期版本的学习过程,计算机可以通过规则自己对弈,也可以学习棋谱。从此前的测试中看,Aidam 的成绩要好于 AI-Maths,但如果以纯粹人工智能的难度和多行业的延展性,AI-Maths 要略高一筹。

机器人的语文可能是数学老师教的

但为何这次AI-MATHS机器人无论是目标分还是实际成绩都没有非常高呢?澎湃新闻调查表示,因为AI-MATHS对自然语义的理解还有点弱。

比如北京文科数学卷这题:
20170608-ai-gaokao-1
▲ AI-MATHS答不出来的数学题(Source:成都发布)

AI-MATHS没能答出来,不是因为计算问题,而是机器不理解提问的意思。

一言以蔽之,这个机器人考生的数学成绩,败给了自己的语文水平。负责改卷的成都七中高级教师祁祖海指出,AI-MATHS错误题的共同点是文字太多,但它的计算题和证明题做得不错,分数算中等水平,正常学生能考110分左右。

据了解,AI-MATHS 学习了小学到高中的 7000 多个考点,运算量可达到 2 的 800 次方,其研发团队准星云学的创始人林辉认为,跟 AlphaGo 相比,高考机器人的研发难度更大,因为要让系统准确理解人类语言。人类的语言千变万化,而且还在不断创新,几乎是学不完的。遇到没学过的生词,人类会联系上下文去推测词义,猜对是比较容易的事;而机器人却会卡壳。比如,正切(tangent)的缩写,近年来的教材和试题里面都用的是“tan”,但早些年用过“tg”。团队在训练AI-MATHS用的题都是“tan”,最近突然让它做了一道“tg”的题,它就懵了。

不仅是AI-MATHS,我们发现Siri、微软小娜等聊天机器人也场景提问下的回答也不够灵活与聪明,这也是因为它们对自然语言的理解能力还不够强。

两部机器人高考成绩出炉后,也引发了网友热议,虽然嘲弄居多,但也有网友笑说“马云第一次高考,数学才考1分呢,机器人很厉害了”。不知道前段时间怒怼AlphaGo的马爸爸听后有什么感想:)

EETC wechat barcode


关注最前沿的电子设计资讯,请关注“电子工程专辑微信公众号”。

本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
  • 晶圆级脉冲激光沉积将改变游戏规则 一项技术要想产生广泛的影响,它不仅要解决短期的挑战,还应该超越现有技术的进步,为未来的创新打开大门。这就是我们对泛林集团(Lam Research)今年早些时候推出的全球首个用于半导体量产的脉冲激光沉积(PLD)技术的描述。
  • 晶合集成与思特威首颗集成1.8亿像素全画幅CIS芯片成功试产 当今这个数字化时代,图像传感器技术的发展对于摄影、安防、医疗等多个领域的重要性不言而喻。近日,合肥晶合集成电路股份有限公司与国内设计公司思特威联合宣布,他们共同研发的首颗1.8亿像素全画幅(2.77英寸)CMOS图像传感器(CIS)已成功试产。
  • 为什么相干激光雷达在ADAS和汽车传感领域越来越受欢迎 激光雷达正在迅速获得人们的关注,并被广泛用于ADAS和自动驾驶汽车传感系统,但该技术有多种实现方法。本文介绍了这些方法以及相干激光雷达检测的相对优势。
  • 设计汽车雷达系统的挑战 雷达在新型汽车设计中随处可见。现在,高清雷达可以在所有天气条件下发挥作用,可以作为AI物体检测的前端,与其他传感器通道相辅相成,进一步提高准确性和安全性。高价值嵌入式雷达系统的制造商有着巨大的潜力。然而,如何在竞争中发掘这种潜力可能是一项挑战。
  • 面对欧盟效率和空载功耗两大新要求,BLDC设计怎么破? BLDC的应用持续增长,主要市场驱动力来自于以下几个方面:工业类电机应用节能指令提出了新要求;印度对于吊扇应用,致力于实现50%的节能目标;越来越多设备的终端客户,希望有更好的使用体验。
  • 马斯克:正与首位脑机芯片受试者讨论植入第二代芯片 据悉,Neuralink公司正在积极推进第二阶段的临床试验。该公司已获得美国FDA的批准,将在6月份对受试者进行芯片植入手术。
  • 全球折叠屏手机快速增长,中国品牌压 • 得益于西欧、关键亚洲市场和拉丁美洲市场的增长,以及中国品牌的持续领先,全球折叠屏手机出货量在2024年第二季度同比增长了48%。 • 荣耀凭借其在西欧特别强劲的表现,成为最大的贡献者,成为该地区排名第一的品牌。 • 摩托罗拉的Razr 40系列在北美和拉丁美洲表现良好,为其手机厂商的出货量贡献了三位数的同比增长。 • 我们预计,头部中国手机品牌厂商的不断增加将至少在短期内抑制三星Z6系列在第三季度的发布。
  • AI网络物理层底座: 大算力芯片先进 AI技术的发展极大地推动了对先进封装技术的需求,在高密度,高速度,高带宽这“三高”方面提出了严苛的要求。
  • 奕斯伟计算DPC 2024:发布RISAA(瑞 奕斯伟计算2024首届开发者伙伴大会以“绿色、开放、融合”为主题,从技术创新、产品应用、生态建设等方面,向开发者、行业伙伴等相关方发出开放合作倡议,加速RISC-V在各行各业的深度融合和应用落地,共同推动RISC-V新一代数字基础设施生态创新和产业发展。
  • 重磅发布:Canalys 2024年中国云渠道 2024年 Canalys 中国云计算渠道领导力矩阵冠军厂商分别是:阿里云、华为云和亚马逊云科技(AWS)
  • 路特斯的努力有多“韧性” 文|沪上阿YI路特斯如今处在一个什么样的地位?吉利控股集团高级副总裁、路特斯集团首席执行官冯擎峰一直有着清晰的认知:“这个品牌的挑战依然非常大。首先,整个中国市场豪华汽车整体数据下滑了30%~40%,
  • 银河E5和小鹏MONAM03开门红,纯电车或将卷土重来? 文|萝吉今年下半年开始,国内新能源市场正式跨过50%历史性节点,且份额依然在快速增长——7月渗透率破50%,8月份破55%……在这一片勃勃生机万物竞发的景象下,新能源市场占比最高的纯电车型,却在下半年
  • 发奖金,人均105万,1.2万人有份! ‍‍近期,IC 设计大厂联发科宣布了2024年上半年度的员工分红计划,与8月份薪资一起发放。据外界估算,按照上半年税前盈余约648.66亿新台币(约 144.42 亿元人民币)进行估算,此次分红总额接
  • 2032年单晶硅市场营收将增至201亿美元! 据市场调查机构Allied Market Research的《单晶硅晶圆市场》报告指出,2022年单晶硅晶圆市场价值为109亿美元,预计到2032年将达到201亿美元,2023年~2032年的复合年均
  • 【光电智造】机器视觉三维成像方法及应用  今日光电      有人说,20世纪是电的世纪,21世纪是光的世纪;知光解电,再小的个体都可以被赋能。追光逐电,光赢未来...欢迎来到今日光电!----追光逐电 光赢未来----来源:机器视觉沙龙申
  • 骄成超声:引领超声波技术革新,助力碳化硅产业升级 8月28-30日,PCIM Asia 2024展在深圳举行。“行家说”进行了为期2天的探馆,合计报道了200+碳化硅相关参展企业(.点这里.)。其中,“行家说”还重点采访了骄成超声等十余家企业,深入了
  • 总投资12亿元!这一IGBT项目明年投产 [关注“行家说动力总成”,快速掌握产业最新动态]9月6日,据“内江新区”消息,晶益通(四川)半导体科技有限公司旗下IGBT模块材料和封测模组产业园项目已完成建设总进度的40%,预计在明年5月建成。据了
  • 长飞先进:与多家车企达成SiC合作,晶圆产能明年释放 8月28-30日,PCIM Asia 2024展在深圳举行。“行家说”进行了为期2天的探馆,合计报道了200+碳化硅相关参展企业(.点这里.)。其中,“行家说”还重点采访了长飞先进等众多企业,深入了解
  • 华为大突破! 在苹果和华为的新品发布会前夕,Counterpoint公布了2024年第一季度的操作系统详细数据,数据显示, 鸿蒙操作系统在2024年第一季度继续保持强劲增长态势,全球市场份额成功突破4%。在中国市场
  • 下线、投产...这3个电驱动项目传最新进展 近日,3个电驱动项目迎来最新进展,包括项目量产下线、投产、完成试验等,详情请看:[关注“行家说动力总成”,快速掌握产业最新动态]青山工业:大功率电驱项目下线9月5日,据“把动力传递到每一处”消息,重庆
广告
热门推荐
广告
广告
广告
EE直播间
在线研讨会
广告
广告
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了