我们举办了一场推理模型“年终考试”,最终夺冠的居然是

原创 Alter聊科技 2024-12-31 12:11

推理模型不仅能够模仿人类思维,还能跨越知识领域,将信息整合并生成新的知识,这正是AGI实现通用性的基础。

撰文张贺飞
编辑沈菲菲

笛卡尔说:“我思,故我在。”

思考是文明存在的根本,是人类探索未知的永恒追求,现在也成了大模型技术演进的一个重要方向。

自OpenAI在9月中旬悄然发布o1模型后,一系列推理模型陆续开放测试。比如通义千问的QwQ、deepseek的R1、Kimi的K1以及智谱刚刚发布的GLM-Zero的初代版本GLM-Zero-Preview(智谱清言同步上线了智能体“Zero推理模型”)。

正好到了年末,我们萌生了举办一场推理模型“年终考试”的想法。

在“考试”正式开始前,先来简单科普下推理模型的特点:相较于基座模型,推理模型在回答问题前会像人类一样进行更长时间的“思考”,不断验证和纠错,更擅长编程、数学、科学等任务。

所以,这是一场面向“理科生”的考试。

需要说明的是,我们没有使用AIME2024、MATH500等专业的数据集,也无意对各个推理模型进行专业测评和排名,仅适用于多数人在日常生活中可能遇到的问题。

譬如给孩子辅导作业、应付面试时的“奇葩问题”、和朋友一起玩剧本杀时的推理游戏等等,和大家一起探索各个推理模型的“长项”和“短板”。

考试规则

一共有六道考题,分别用高三数学的单选题、多选题和计算题测试模型的数学计算能力,用一道常见的编程题目测试模型的编程能力,用一道逻辑问题和一道海龟汤问题测试模型的推理能力。

分数评定分为三个维度,最终根据推理结果(占比60%)、推理过程(占比25%)、推理时间(占比15%)加权平均。考虑到单次测试存在的不确定性,满分为100分,兜底分数为60分(即使做错了也有60分)。

考生名单:OpenAI o1、通义千问QwQ-32B-preview、deepseek深度思考(R1)、Kimi视觉思考版(K1)和智谱GLM-Zero。

下面,考试正式开始。

第一题:单选题


考虑到不少人曾经拿高考真题测试,为了防止可能的“作弊”行为,我们从《2024届浙江省镇海中学高三下学期期中数学试题》筛选了一道单选题目进行测试。(难度的话,至少本科毕业十年的我们是不会做的。

鉴于测试的过程比较无趣,我们把5个模型的测试录屏放在了视频中,感兴趣的小伙伴可以点击观看,也可以直接查看最终的“考试”结果。

第一题成绩揭晓


五个推理模型均给出了正确答案。

其中o1模型的推理速度是最快的,推理过程简单高效,直接给出了计算过程和结果;可能是刚上线的缘故,GLM-Zero的推理速度相对慢一些,但推理过程是最符合人类思维的(在思维链中可以清晰地看到自我反思和优化、将复杂问题分解,并尝试用不同方法解决问题),可以作为解题的参考答案。另外三个模型的推理速度比o1稍慢,但在结果和推理过程上可以和o1媲美。

第二题:多选题


题目来源和单选题一样,难度有所增加,更考验模型处理复杂问题的能力,以及思考的方式和过程。(PS:我们在考前进行过类似题目的测试,部分模型每次都只给一个答案,所以在正式考试时特意给了多选题的提示。)


第二题成绩揭晓


五个推理模型中,只有三个模型给出了正确答案。

o1、GLM-Zero和QwQ回答正确,Kimi视觉思考版只给出了一个正确选项,deepseek深度思考的回答是“没有正确答案”(排除了图像识别问题)。在三个回答正确的模型中,GLM-Zero和QwQ表现出了不俗的归纳与演绎能力,提供了详细的解题过程,并通过反思进行多次验证,而且GLM-Zero的推理速度比上一题提升了不少。o1没有显示思考过程,直接给出了答案。

第三题:计算题
如果一个城市中 95%的人打了疫苗,而疫苗保护率是 90%,病毒传播率是5%,未接种者感染率是 50%,计算城市中总感染率。
这是一道AI拟定的题目,因为表述有点“模糊不清”,但又不乏逻辑自洽,审题不仔细的话,很可能给出错误答案。(毕竟我们当年就在高考试卷上吃过“马虎”亏,也要让AI尝尝什么叫审题要认真!!!!)


第三题成绩揭晓


和预料的一样,有两个模型“翻了车”。

这道题不仅仅计算,还考验模型的思考过程,能否识别中题目中的逻辑漏洞,找到最合理的假设。GLM-Zero在速度上“逆袭”了,整体表现比o1的表现还要优秀。deepseek深度思考的推理过程看起来最完善,考虑到了多种可能,最终给到的是最合理的答案。Kimi和QwQ也考虑了多种可能,但在逻辑漏洞的理解上出现了偏差,最终沿着错误的方向进行计算,导致计算结果错误。

第四题:编程题
写一个程序,将一个字符串中的所有单词翻转(例如输入:“Hello World”,输出:“World Hello”)。
由于我们不是程序员,对代码的认知停留在了大一的C语言入门阶段,所以选择的编程题目比较基础,主要考验代码的合理性和可用性。(如果你是程序员的话,希望进行更深度的测试,并将结果同步给我们。)


第四题成绩揭晓


五个推理模型都达到了及格分。

其中GLM-Zero和Kimi的代码解释最为详细,虽然程序很简单,依然进行了逐行解释,对新手程序员非常友好。o1模型照旧简单高效,deepseek给出了两种不同的实现方式,且均测试有效。就推理速度来看,GLM-Zero考虑到了更复杂的测试情形,反复推理验证,导致耗时比其他模型长了不少。

第五题:推理题
一个房间里有三个开关,分别对应三个灯泡,你只能进入房间一次,如何确定哪个开关对应哪个灯泡?
据传是微软的面试题,主要考验面试者的逻辑思维和判断能力,推理模型能否通过微软的面试呢?(本来打算用“牛过桥”的问题,据说是华为的面试题,考虑到逻辑性和答案的一致性,最终还是选择了灯泡问题。)


第五题成绩揭晓


也许是问题过于“经典”,五个模型均顺利过关。

其实也意味着,五个模型在推理上都有着不错的能力。就细节上来看,Kimi“不小心”出现了格式混乱,GLM-Zero和o1都在极短时间里给出了合理的推理过程和正确答案。之所以在得分上有差距,原因是deepseek和QwQ都特意补充“确保灯泡是白炽灯”,弥补了题目本身的缺陷,在逻辑上更加合理。

第六题:海龟汤题
一名男子在弹钢琴时,突然一根弦断了,他立即停止弹奏并开始哭泣。这是为什么?
海龟汤问题的答案通常是开放的,涉及不同领域的知识,模型需要对语言细节进行精确理解,并在回答中清晰地表达推理过程。同时需要从表面信息推导出隐藏的逻辑,要求模型能够分析隐含的信息并进行深度推理。


第六题成绩揭晓


海龟汤题没有标准答案,主要考的是推理结果的合理性。

o1模型终于“翻车”了,将问题理解为了“脑筋急转弯”,而且推理几乎没有逻辑;deepseek陷入了思考死循环,等待了4分多钟后,我们被迫停止了测试;kimi、GLM-Zero和QwQ的表现不相上下,只是Kimi再次出现了格式混乱。遗憾的是,作为“理科生”的推理模型,都没有进行富有创造性的故事描述。

考试小结

我们按照文初提到的考试规则,进行了平均分的计算,考虑到单次测试的偶发性(比如将多选题拆解为单选题,进一步测试两个“翻车”的模型,最终都给出了正确答案),可以说各个推理模型并未拉开太大的差距,并没有陷入同质化,而是各有所长。


o1模型胜在推理速度和推理正确率;QwQ-32B-preview的表现中规中矩;deepseek深度思考在数学计算和编程方面表现优秀;Kimi视觉思考版“自我反思”能力强,在发散问题上的逻辑自洽性最佳;GLM-Zero在数学计算、编程和推理上的综合表现不输o1,可以说是目前国内最好的推理模型。

不过,Open AI已经发布了o3模型,整体性能比o1提升了20%,国内的几个推理模型仍然有很大的提升空间。其中智谱已经公开表态将持续优化迭代强化学习技术,并将推出正式版的GLM-Zero,将深度思考的能力从数理逻辑扩展到更多更通用的技术。

写在最后

正如OpenAI的介绍o1模型的博客文章里所提到的:“我们通往AGI的路上,已经没有任何阻碍。”

推理模型不仅能够模仿人类思维,还能跨越知识领域,将信息整合并生成新的知识,这正是AGI实现通用性的基础。

相较于我们的“单题测试“,推理模型在产业中落地的可能更大。比如在金融、医疗、法律等决策过程常涉及多变量权衡的领域,推理模型可以分析大量数据、找出相关性,并提供优化的解决方案。

以医疗场景为例,基于推理的诊断模型可以帮助医生快速排查可能病因并建议治疗方案,从而提高诊断效率;再比如智谱在AutoGLM上示范的人机协作场景,推理模型能够更好地理解人类的意图、预测需求、并主动提出建议,将进一步提升Agent的能力,帮助用户解决更多类型的问题。

可以预见,2024年是大模型落地应用的元年,在推理模型的赋能下,2025年将是AI进一步提质增效的一年。


主理人 | 张贺飞(Alter)


前媒体人、公关,现专职科技自媒体


钛媒体、36kr、创业邦、福布斯中国等专栏作者


转载、商务、开白以及读者交流,请联系个人微信「imhefei」

Alter聊科技 探究产业兴衰,专注商业解读。
评论
  • 2层PCB设计时候回路的寄生电感计算方式。由两个平面构成电流路径的回路电感,取决于每个平面路径的局部自感和它们之间的局部互感。平面越宽,电流分布就越扩散开,平面的局部自感就越小,从而回路电感也就越小。平面越长,局部自感就越大,从而回路电感也就越大。平面间距越小,平面之间的互感就越大,从而回路电感也就越小。当该区域为正方形,即长度等于宽度时,无论边长是多少,长和宽之比始终等于1。令人惊奇的是,一对平面上的边长为100mil的正方形区域和边长为1in的正方形区域的回路电感相同。平面对上的任一正方形区
    tao180539_524066311 2025-01-02 13:51 54浏览
  • 从无到有:智能手机的早期探索无线电话装置的诞生:1902 年,美国人内森・斯塔布菲尔德在肯塔基州制成了第一个无线电话装置,这是人类对 “手机” 技术最早的探索。第一部移动手机问世:1938 年,美国贝尔实验室为美国军方制成了世界上第一部 “移动” 手机。民用手机的出现:1973 年 4 月 3 日,摩托罗拉工程师马丁・库珀在纽约曼哈顿街头手持世界上第一台民用手机摩托罗拉 DynaTAC 8000X 的原型机,给竞争对手 AT&T 公司的朋友打了一个电话。这款手机重 2 磅,通话时间仅能支持半小时
    Jeffreyzhang123 2025-01-02 16:41 106浏览
  •  在这个日新月异的科技时代,智能家居正以前所未有的速度融入我们的日常生活,从智能灯光到温控系统,从安防监控到语音助手,每一处细节都透露着科技的温度与智慧。而在这场智能化浪潮中,一个看似不起眼却至关重要的组件——晶体管光耦,正扮演着连接物理世界与数字世界的隐形桥梁角色,默默推动着智能家居行业的发展与革新。 晶体管光耦——智能家居的“神经递质”晶体管光耦,作为一种能够将电信号转换为光信号,再通过光信号控制另一侧电路开关的电子元器件,其独特的工作原理使得它在隔离传输、抗干扰及保护电
    晶台光耦 2025-01-02 16:19 72浏览
  • 国际标准IPC 标准:IPC-A-600:规定了印刷电路板制造过程中的质量要求和验收标准,涵盖材料、外观、尺寸、焊接、表面处理等方面。IPC-2221/2222:IPC-2221 提供了用于设计印刷电路板的一般原则和要求,IPC-2222 则针对高可靠性电子产品的设计提供了进一步的指导。IPC-6012:详细定义了刚性基板和柔性基板的要求,包括材料、工艺、尺寸、层次结构、特征等。IPC-4101:定义了印刷电路板的基板材料的物理和电气特性。IPC-7351:提供了元件封装的设计规范,包括封装尺寸
    Jeffreyzhang123 2025-01-02 16:50 109浏览
  • 【工程师故事】+半年的经历依然忧伤,带着焦虑和绝望  对于一个企业来说,赚钱才是第一位的,对于一个人来说,赚钱也是第一位的。因为企业要活下去,因为个人也要活下去。企业打不了倒闭。个人还是要吃饭的。企业倒闭了,打不了从头再来。个人失业了,面对的不仅是房贷车贷和教育,还有找工作的焦虑。企业说,一个公司倒闭了,说明不了什么,这是正常的一个现象。个人说,一个中年男人失业了,面对的压力太大了,焦虑会摧毁你的一切。企业说,是个公司倒闭了,也不是什么大的问题,只不过是这些公司经营有问题吧。
    curton 2025-01-02 23:08 105浏览
  • 前言近年来,随着汽车工业的快速发展,尤其是新能源汽车与智能汽车领域的崛起,汽车安全标准和认证要求日益严格,应用范围愈加广泛。ISO 26262和ISO 21448作为两个重要的汽车安全标准,它们在“系统安全”中扮演的角色各自不同,但又有一定交集。在智能网联汽车的高级辅助驾驶系统(ADAS)应用中,理解这两个标准的区别及其相互关系,对于保障车辆的安全性至关重要。ISO 26262:汽车功能安全的基石如图2.1所示,ISO 26262对“功能安全”的定义解释为:不存在由于电子/电气系统失效引起的危害
    广电计量 2025-01-02 17:18 105浏览
  • 起源与诞生:AI 技术的起源可以追溯到 20 世纪 40 年代,随着计算机技术的兴起,科学家们开始思考如何让机器具备类似人类的智能。1950 年,英国数学家艾伦・图灵提出了著名的 “图灵测试”,为 AI 技术的发展奠定了理论基础。1956 年,美国达特茅斯学院举行了一次人工智能研讨会,标志着 AI 作为一门独立学科的诞生。符号主义阶段(20 世纪 50 年代 - 70 年代):研究人员主要关注如何使用符号逻辑和推理规则来模拟人类思维,试图通过构建复杂的逻辑系统来解决各种问题。然而,由于这种方法的
    Jeffreyzhang123 2025-01-02 15:15 89浏览
  • 在科技飞速发展的今天,5G 通信技术无疑是最耀眼的明星之一。它如同一场数字革命的风暴,以其前所未有的速度、极低的延迟和强大的连接能力,为我们的生活、经济和社会带来了翻天覆地的变化,开启了一个万物互联的崭新时代。5G 技术的卓越特性5G,即第五代移动通信技术,相比其前辈们,有着诸多令人瞩目的特性。首先是超高速率。5G 网络的理论峰值下载速度可达 10Gbps,这意味着下载一部高清电影只需短短几秒钟,而 4G 网络可能需要几分钟甚至更长时间。这种高速率让高清视频流、云游戏等对带宽要求极高的应用变得流
    Jeffreyzhang123 2025-01-02 14:18 60浏览
  • 早期概念与探索阶段(19 世纪以前):在古代,人类就对自动机械充满了想象,如古希腊时期的希罗发明的自动门、水钟等自动装置,中国古代的指南车、木牛流马等,虽然这些装置不能称之为真正的机器人,但为后来机器人的发展奠定了思想基础。从概念走向实践阶段(19 世纪~20 世纪初):随着工业革命的到来,自动机概念开始与实际机械设计结合,出现了具有实际功能的自动机械,例如雅卡尔提花机等,可通过穿孔卡片控制编织图案,为后续可编程控制的机器人发展提供了灵感。现代机器人产业萌芽期(1920 年代~1950 年代):
    Jeffreyzhang123 2025-01-02 14:53 86浏览
  • 在科技飞速发展的今天,机器人已经逐渐深入到我们生活和工作的各个领域。从工业生产线上不知疲倦的机械臂,到探索未知环境的智能探测机器人,再到贴心陪伴的家用服务机器人,它们的身影无处不在。而在这些机器人的背后,C 语言作为一种强大且高效的编程语言,发挥着至关重要的作用。C 语言为何适合机器人编程C 语言诞生于 20 世纪 70 年代,凭借其简洁高效、可移植性强以及对硬件的直接操控能力,成为机器人编程领域的宠儿。机器人的运行环境往往对资源有着严格的限制,需要程序占用较少的内存和运行空间。C 语言具有出色
    Jeffreyzhang123 2025-01-02 16:26 104浏览
  • 常见通信标准无线通信标准蜂窝移动通信标准:如 2G(GSM)、3G(WCDMA、CDMA2000、TD - SCDMA)、4G(LTE)以及 5G 等。以 5G 为例,其具有高速率、低时延、大容量等特点,为智能交通、工业互联网和物联网等领域提供支持。无线局域网标准:主要是 IEEE802.11 标准,也就是我们常说的 Wi - Fi。例如 IEEE802.11ac 和 IEEE802.11ax(Wi-Fi 6)等标准,不断提升无线局域网的传输速度和稳定性。短距离无线通信标准:包括蓝牙(Bluet
    Jeffreyzhang123 2025-01-02 14:33 49浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦