GPT-4变笨实锤!3个月性能暴减1/10,代码生成大不如前,斯坦福最新研究引爆舆论

OpenCV学堂 2023-07-23 22:43



点击上方↑↑↑OpenCV学堂”关注我

来源:公众号 新智元 授权


【导读】GPT-4性能下降终于有了依据。

GPT-4变笨实锤了?

斯坦福、UC伯克利最新研究称,和3月相比,GPT-4在6月的性能直接暴降。

甚至,代码生成、问题回答大不如前。

论文地址:https://arxiv.org/pdf/2307.09009.pdf

比如问「这个数是质数吗」,GPT-4一步一步思考的成功率从97.6%降到2.4%。

GPT-4性能骤减早有端倪。有网友甚至把3小时25条额度一口气用完,也没有解决问题。

而这次,斯坦福研究一出瞬间引爆舆论,让所有人大吃一惊的是,GPT-4竟然性能下降1/10。

就连OpenAI站出来,表示对此关注,正积极调查大家分享的报告。

那么,这项斯坦福论文究竟说了什么?

安全了,但智商下线了


总的来说,GPT-4在3月和6月性能对比,主要在四个任务中有明显的下降。

- 解决数学问题
- 回答敏感问题
- 代码生成

- 视觉推理

求解数学问题,CoT失败了

在求解数学问题上,GPT-4准确率不仅下降,就连解题步骤都给省了。

为了判断GPT-4和GPT-3.5针对「给定整数是否为质数」的能力的偏差,研究团队用500个问题组成的数据集对模型进行了评估。

同时,研究还利用思想链帮助模型进行推理。

结果显示,3 月,GPT-4正确回答了其中的488个问题。而在6月,它只答对了12个问题。

GPT-4准确率从 97.6%直降到 2.4%!

相应地,GPT-3.5的准确率则有较大提升,从7.4%上升到86.8%。

此外,GPT-4 的响应变得更加紧凑:生成平均字符数从3月821.2降到6的3.8。另一方面,GPT-3.5 的响应长度增长了约 40%。

3月和6月版本之间的答案重叠度,都比较低。

那么,为什么会有这么大的差异?一种可能的解释是思维链效果的变化。

如上, 为了确定17077是否是质数,GPT-4 3月版很好地遵循了CoT指令,并将任务分解成4个步骤。

然而,这种思维链对于6月版并不起作用:没有生成任何解题步骤,只输出了「不是」。

在GPT-3.5中,在3月份解答中答案是错误的,6月更新后解决了这个问题。

这一有趣的现象表明,同样的提示方法,即使是这些被广泛采用的方法,如CoT,也可能由于LLM变化而导致显著不同的性能。

代码生成,更加冗长,难以执行

另外,GPT-4代码生成也变得更糟了。

研究团队从LeetCode中建立了一个包含50个简单问题的数据集,并测试了有多少GPT-4答案在不做任何修改的情况下运行。

结果,3月份的版本在52%的问题上取得了成功,但6月的模型,成功率下降到了10%。GPT-4 的冗长程度也增加了20%。

同时,GPT-3.5的下降幅度也很大,从22%降至2%。

此外,3月份,GPT-4和GPT-3.5都遵循用户指令,从而产生了直接可执行的生成。

然而,在6月份,他们在代码片段前后添加了额外的「引号」,导致代码无法执行。

回答敏感问题,更安全但缺乏理由

还有GPT-4回答问题变得更加小心谨慎了。

正是因为语言模型会带来社会偏见,输出有毒内容,产生幻觉,OpenAI对此做了大量的对齐工作。

结果可想而知,GPT-4真的被「打」听话了。

研究中,团队创建了一个包含100个LLM服务不应直接回答的敏感问题集,测试模型后,观察到这项任务的两个主要趋势。

首先,从3月(21%)到 6月(5%),GPT-4回答的敏感问题较少,而GPT-3.5回答的敏感问题较多(从 2%-8%)。

6月份,GPT-4的更新中可能会部署更强大的安全层,而 GPT-3.5 则变得不再保守。

另一个观察结果是,GPT-4 的生成长度(以字符数衡量)从600多个下降到140左右。

为什么生成字符长度发生变化?

除了回答更少的问题之外,这也是因为GPT-4变得更加简洁,并且在拒绝回答查询时提供的解释也更少。

如下,在无法回答用户问题时,GPT-4在3月生成了一整段原因来解释,6月版简单生成了「抱歉,我无法提供帮助」。

简之,废话变少了。

此外,研究人员通过利用「AIM攻击」还对模型进行了越狱攻击。

AIM攻击描述了一个假设的事件,并要求LLM服务充当未经过滤且不道德的聊天机器人。

如下表所示,当部署AIM攻击时,GPT-4和GPT-3.5的应答率都有大幅增加。

然而,它们的时间漂移有很大不同。对于GPT-4,AIM攻击在3月产生了78%的直接答案,但在6月仅产生了 31%。

对于GPT-3.5,两个版本之间只有4%的回答率差异。这表明GPT-4的更新比GPT-3.5更能抵御越狱攻击。

视觉推理,边际改进

最后,研究人员利用ARC数据集中467个样本来评估了GPT-4和GPT-3.5的视觉推理能力。

结果显示,对于GPT-4和GPT-3.5,从3月到6月,精确匹配率均提高了2%。响应长度大致不变。

虽然总体GPT-4随着时间的推移变得更好,但在如下的特定查询上却变得更糟。

它在3月给出了正确的答案,但在6月份给出的答案是错误的。

GPT-4能力下降这么多,事实真是如此吗?

普林斯顿教授实名反对


不过,这篇论文的内容还是值得好好推敲推敲的。

粗暴地总结为GPT-4变烂,就有些过于概括了。

文章地址:https://www.aisnakeoil.com/p/is-gpt-4-getting-worse-over-time

能力≠行为


首先,聊天机器人的一个重要概念是,能力和行为之间存在着很大的差异。

一个具有某种能力的模型,可能会或可能不会在回应特定提示时,显示出这种能力。

而让聊天机器人获得能力的预训练过程代价极高,对于最大的模型来说,可能需要数月的时间,因此永远不会重复。

另一方面,模型的行为也会受到后续微调的影响。相比起来,微调成本要低得多,而且会定期进行。

请注意,经过预训练的基础模型只是一个高级的自动完成工具——它不会与用户聊天,聊天行为是通过微调产生的。

微调的另一个重要目标是防止出现不良输出。换句话说,微调既能激发能力,也能抑制能力。

基于这些知识,我们就可以预料到,随着时间的推移,模型的能力会保持相对稳定,但它的行为却会有很大的变化。这与论文的发现完全一致。

没有能力下降的证据


论文作者在四项任务中,对GPT-3.5和GPT-4进行了测试。

OpenAI通过其API提供了模型在三月和六月的「快照」,因此论文中所比较的,也是这两个模型快照的行为。

具体来说,他们选择了数学问题(检查一个数字是否是质数)、回答敏感问题、代码生成和视觉推理,这四类问题进。其中,数学问题和代码生成这两项任务的性能有所下降。

在代码生成方面,他们提到的变化是较新的GPT-4在输出中添加了非代码文本。

出于某种原因,作者没有评估代码的正确性。而只是检查代码是否可直接执行,也就是说,它是否构成了一个完整、有效的程序。

所以,新模型试图更有帮助的做法反而对其不利。

不仅如此,他们评估数学问题的方式更是奇怪。

500道是/否问题,但正确答案始终是「是」


用作测试的数学问题,是「17077是质数吗」这样的形式。

然而,作者选的500个数字,都是质数!

事实证明,在大多数情况下,没有一个模型真正执行了检查数字是否有除数的算法——它们只是假装这么做了。

也就是说,他们开始推理,然后直接跳到了最后。

下面是作者数据中的一个回应片段(GPT-4的三月快照):

模型虽然正确地列出了所有需要检查的潜在因素,但没有实际检查它们!

这在论文展示的例子中也是显而易见的,但作者却忽略了这一点,并将其作为一项数学解题测试。

由于论文只在质数上进行了测试,为了补充这个评估,普林斯顿的研究人员用500个合数测试了模型。

事实证明,作者发现的大部分性能下降都可以归因于对评估数据的选择。

看起来变化的是:GPT-4的三月版本几乎总是猜测数字是质数,六月版本则总是猜测它是合数。对于GPT-3.5,这种行为正好相反。

因为作者只测试了质数,所以他们把这一现象解释为性能的下降。

实际上,如下图所示,四个模型都一样的糟糕——它们都是基于他们被校准的方式来猜测的。

简单来说就是,在微调过程中,有些模型可能接触到了更多涉及质数的数学问题,而其他的则是合数。

GPT-3.5的六月版本和GPT-4的三月版本几乎总是推断数字是质数,而另外两个模型则正好相反。

但是论文只测试了质数,因此得出结论:GPT-3.5的性能提高了,GPT-4的性能下降了。

简而言之,论文中的所有内容都与模型随时间变化而变化的行为相一致,且没有任何一项表明模型的能力出现了下降。

即使是行为变化,似乎也是作者评估中的特殊情况,目前还不清楚他们的发现能否推广到其他任务中。

为什么这篇论文会引发争议?


过去几个月,有不少人根据自己的使用经验,推测GPT-4的性能已经出现了下降。

当GPT-4的架构(据称)被泄露时,有一个广为流传的说法称,OpenAI为了节省计算时间和成本而降低了性能。

OpenAI方面对此矢口否认,但用户们并不买账。

因此,当这篇论文出来时,似乎证实了这些长期以来的猜测。

普林斯顿的研究人员表示,虽然无法确定传言是否属实,但可以肯定的是,这篇论文并没有提供相关证据。

在那些对性能下降持怀疑态度的人中,最受欢迎的假设是:当人们越来越多地使用ChatGPT时,就会更容易注意到它的局限性。

但,这里还有另一种可能。

在LLM API上很难构建可靠的产品


行为变化和能力退化对用户的影响非常相似。

用户往往有着特定的工作流程和提示策略,而这些策略对于他们自己的使用场景来说,非常有效。

鉴于LLM的非确定性,要发现这些策略并找到适合特定应用的工作流程,需要花费大量的精力。

因此,当模型的行为发生漂移时,这些工作流程就可能会失效。

对于受挫的ChatGPT用户来说,告知他们所需的能力仍然存在,但现在要用新的提示策略才能激发,显然是无济于事的。

而对于基于那些GPT API构建的应用程序来说,情况尤其如此。如果模型的行为发生变化,那么已经部署给用户的代码就很可能会出现问题。

为了缓解这一问题,OpenAI提供了模型快照,但只保留几个月,并要求应用开发人员进行定期更新。

正如普林斯顿的研究人员之前所提到的,这凸显了使用这些API进行可重复性研究,或者在其基础上构建可靠的产品是多么困难。

简而言之,新论文并未显示出GPT-4的能力退化。但这是一个很有价值的提醒:对LLM经常进行的微调可能会产生意想不到的影响,包括某些任务的显著行为变化。

最后,我们发现的陷阱揭示了,对语言模型进行定量评估是多么的困难。

作者介绍


Sayash Kapoor


Kapoor是普林斯顿大学信息技术政策中心的计算机科学博士候选人。他的研究重点集中在AI对社会的影响。

在此之前,Kapoor曾在Facebook、哥伦比亚大学和瑞士EPFL从事AI方面的学术研究,他曾获得ACM FAccT最佳论文奖和ACM CSCW影响力认可奖。

目前,Kapoor正在与Arvind Narayanan合著一本关于AI「蛇油」(Snake Oil)的书。这本书批判性地探讨了AI能做什么和不能做什么。

Arvind Narayanan

Narayanan是普林斯顿大学计算机科学教授,兼信息技术政策中心主任。

Narayanan的研究集中在数字技术,尤其是AI对社会的影响,和Kapoor是合作关系。

Arvind Narayanan是普林斯顿大学计算机科学教授和信息技术政策中心主任。

他曾与人合著过一本关于公平与机器学习的教科书,目前正在与Kapoor合著一本关于AI「蛇油」的书。

他领导了普林斯顿网络透明与问责项目,揭示公司如何收集和使用用户的个人信息。Narayanan的研究是最早表明机器学习如何反映文化成见的研究之一,他的博士研究表明了去身份化的根本局限性。

Narayanan曾获得过总统科学家和工程师早期职业奖 (PECASE),两次获得隐私增强技术奖 (Privacy Enhancing Technologies Award),三次获得决策者隐私论文奖 (Privacy Papers for Policy Makers Award)。

网友热议


英伟达科学家Jim Fan表示,我们中的许多从业人员都认为,GPT-4会随着时间的推移而退化。

但是,GPT-4为什么会退化,我们又能从中学到什么呢?以下是我的想法:

- 安全性与有用性的权衡

论文显示,GPT-4 Jun版本比Mar版本「更安全」,因为它更有可能拒绝敏感问题(回答率从21%降到5%)。

不幸的是,更高的安全性通常是以更低的实用性为代价的,这可能会导致认知能力的下降。我的猜测是(没有证据,只是推测),OpenAI从3月-6月花了大部分精力进行「脑叶切除术」,没有时间完全恢复其他重要的能力。

- 安全对齐使编码变得不必要地冗长

论文显示,GPT-4 Jun往往会混入无用的文本,即使提示明确指出「只生成代码,不包含任何其他文本」。

这意味着实践者现在需要手动对输出进行后处理才能执行。这在LLM软件栈中是个大麻烦。我认为这是安全对齐的副作用。

我们都见过GPT添加警告、免责声明(我不是<领域>专家,所以请咨询......)和反驳(话虽如此,但尊重他人很重要......),通常是在一个原本非常直接的答案上。如果整个「大脑」都被调整成这样,编码也会受到影响。

- 成本削减

没有人知道GPT-4 Jun是否与GPT-4 Mar是完全相同的MOE配置。有可能 (1) 参数量减少,(2) 专家数量减少,和/或 (3) 较简单的查询被路由到较小的专家,只有复杂的查询才保持原来的计算成本。

- 持续集成将是一个至关重要的LLM研发课题

人工智能领域几乎没有赶上一般软件领域认为理所当然的事情。即使是这篇研究论文,也没有对MMLU、Math 和 HumanEval等基准进行全面的回归测试。

它只研究了一个特定的质数检测问题。GPT-4在三角函数上回归了吗?其他推理任务呢?不同编程语言的代码质量以及自调试能力如何?

马库斯问道,从RLHF微调如何?

还有网友表示,没错,他们有可能在操纵模型,决定让哪个专家参与进来。削减成本总是一个好选择。

不幸的是,除非OpenAI解释发生了什么,否则我们无法知道。但正如你所说,他们否认质量变差了。

我也注意到了同样的情况。我目前的工作流是必应(虽然也是GPT,但有更多的数据和研究驱动)、GPT-4和Claude 2的组合,后者最近更优先。

在我看来,这就是开源模型会获胜的原因。

参考资料:
https://arxiv.org/abs/2307.09009
https://twitter.com/drjimfan/status/1681716564335394817?s=46&t=iBppoR0Tk6jtBDcof0HHgg

https://www.aisnakeoil.com/p/is-gpt-4-getting-worse-over-time

OpenCV学堂 专注计算机视觉开发技术分享,技术框架使用,包括OpenCV,Tensorflow,Pytorch教程与案例,相关算法详解,最新CV方向论文,硬核代码干货与代码案例详解!作者在CV工程化方面深度耕耘15年,感谢您的关注!
评论
  • 根据环洋市场咨询(Global Info Research)项目团队最新调研,预计2030年全球无人机锂电池产值达到2457百万美元,2024-2030年期间年复合增长率CAGR为9.6%。 无人机锂电池是无人机动力系统中存储并释放能量的部分。无人机使用的动力电池,大多数是锂聚合物电池,相较其他电池,锂聚合物电池具有较高的能量密度,较长寿命,同时也具有良好的放电特性和安全性。 全球无人机锂电池核心厂商有宁德新能源科技、欣旺达、鹏辉能源、深圳格瑞普和EaglePicher等,前五大厂商占有全球
    GIRtina 2025-01-07 11:02 127浏览
  •  在全球能源结构加速向清洁、可再生方向转型的今天,风力发电作为一种绿色能源,已成为各国新能源发展的重要组成部分。然而,风力发电系统在复杂的环境中长时间运行,对系统的安全性、稳定性和抗干扰能力提出了极高要求。光耦(光电耦合器)作为一种电气隔离与信号传输器件,凭借其优秀的隔离保护性能和信号传输能力,已成为风力发电系统中不可或缺的关键组件。 风力发电系统对隔离与控制的需求风力发电系统中,包括发电机、变流器、变压器和控制系统等多个部分,通常工作在高压、大功率的环境中。光耦在这里扮演了
    晶台光耦 2025-01-08 16:03 75浏览
  • 根据Global Info Research项目团队最新调研,预计2030年全球封闭式电机产值达到1425百万美元,2024-2030年期间年复合增长率CAGR为3.4%。 封闭式电机是一种电动机,其外壳设计为密闭结构,通常用于要求较高的防护等级的应用场合。封闭式电机可以有效防止外部灰尘、水分和其他污染物进入内部,从而保护电机的内部组件,延长其使用寿命。 环洋市场咨询机构出版的调研分析报告【全球封闭式电机行业总体规模、主要厂商及IPO上市调研报告,2025-2031】研究全球封闭式电机总体规
    GIRtina 2025-01-06 11:10 126浏览
  • 在智能家居领域中,Wi-Fi、蓝牙、Zigbee、Thread与Z-Wave等无线通信协议是构建短距物联局域网的关键手段,它们常在实际应用中交叉运用,以满足智能家居生态系统多样化的功能需求。然而,这些协议之间并未遵循统一的互通标准,缺乏直接的互操作性,在进行组网时需要引入额外的网关作为“翻译桥梁”,极大地增加了系统的复杂性。 同时,Apple HomeKit、SamSung SmartThings、Amazon Alexa、Google Home等主流智能家居平台为了提升市占率与消费者
    华普微HOPERF 2025-01-06 17:23 211浏览
  • 故障现象一辆2017款东风风神AX7车,搭载DFMA14T发动机,累计行驶里程约为13.7万km。该车冷起动后怠速运转正常,热机后怠速运转不稳,组合仪表上的发动机转速表指针上下轻微抖动。 故障诊断 用故障检测仪检测,发动机控制单元中无故障代码存储;读取发动机数据流,发现进气歧管绝对压力波动明显,有时能达到69 kPa,明显偏高,推断可能的原因有:进气系统漏气;进气歧管绝对压力传感器信号失真;发动机机械故障。首先从节气门处打烟雾,没有发现进气管周围有漏气的地方;接着拔下进气管上的两个真空
    虹科Pico汽车示波器 2025-01-08 16:51 89浏览
  • 大模型的赋能是指利用大型机器学习模型(如深度学习模型)来增强或改进各种应用和服务。这种技术在许多领域都显示出了巨大的潜力,包括但不限于以下几个方面: 1. 企业服务:大模型可以用于构建智能客服系统、知识库问答系统等,提升企业的服务质量和运营效率。 2. 教育服务:在教育领域,大模型被应用于个性化学习、智能辅导、作业批改等,帮助教师减轻工作负担,提高教学质量。 3. 工业智能化:大模型有助于解决工业领域的复杂性和不确定性问题,尽管在认知能力方面尚未完全具备专家级的复杂决策能力。 4. 消费
    丙丁先生 2025-01-07 09:25 122浏览
  • 彼得·德鲁克被誉为“现代管理学之父”,他的管理思想影响了无数企业和管理者。然而,关于他的书籍分类,一种流行的说法令人感到困惑:德鲁克一生写了39本书,其中15本是关于管理的,而其中“专门写工商企业或为企业管理者写的”只有两本——《为成果而管理》和《创新与企业家精神》。这样的表述广为流传,但深入探讨后却发现并不完全准确。让我们一起重新审视这一说法,解析其中的矛盾与根源,进而重新认识德鲁克的管理思想及其著作的真正价值。从《创新与企业家精神》看德鲁克的视角《创新与企业家精神》通常被认为是一本专为企业管
    优思学院 2025-01-06 12:03 161浏览
  • By Toradex 秦海1). 简介嵌入式平台设备基于Yocto Linux 在开发后期量产前期,为了安全以及提高启动速度等考虑,希望将 ARM 处理器平台的 Debug Console 输出关闭,本文就基于 NXP i.MX8MP ARM 处理器平台来演示相关流程。 本文所示例的平台来自于 Toradex Verdin i.MX8MP 嵌入式平台。  2. 准备a). Verdin i.MX8MP ARM核心版配合Dahlia载板并
    hai.qin_651820742 2025-01-07 14:52 113浏览
  • 「他明明跟我同梯进来,为什么就是升得比我快?」许多人都有这样的疑问:明明就战绩也不比隔壁同事差,升迁之路却比别人苦。其实,之间的差异就在于「领导力」。並非必须当管理者才需要「领导力」,而是散发领导力特质的人,才更容易被晓明。许多领导力和特质,都可以通过努力和学习获得,因此就算不是天生的领导者,也能成为一个具备领导魅力的人,进而被老板看见,向你伸出升迁的橘子枝。领导力是什么?领导力是一种能力或特质,甚至可以说是一种「影响力」。好的领导者通常具备影响和鼓励他人的能力,并导引他们朝着共同的目标和愿景前
    优思学院 2025-01-08 14:54 82浏览
  • 本文介绍编译Android13 ROOT权限固件的方法,触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。关闭selinux修改此文件("+"号为修改内容)device/rockchip/common/BoardConfig.mkBOARD_BOOT_HEADER_VERSION ?= 2BOARD_MKBOOTIMG_ARGS :=BOARD_PREBUILT_DTB
    Industio_触觉智能 2025-01-08 00:06 100浏览
  • 本文介绍Linux系统更换开机logo方法教程,通用RK3566、RK3568、RK3588、RK3576等开发板,触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。制作图片开机logo图片制作注意事项(1)图片必须为bmp格式;(2)图片大小不能大于4MB;(3)BMP位深最大是32,建议设置为8;(4)图片名称为logo.bmp和logo_kernel.bmp;开机
    Industio_触觉智能 2025-01-06 10:43 96浏览
  • 这篇内容主要讨论三个基本问题,硅电容是什么,为什么要使用硅电容,如何正确使用硅电容?1.  硅电容是什么首先我们需要了解电容是什么?物理学上电容的概念指的是给定电位差下自由电荷的储藏量,记为C,单位是F,指的是容纳电荷的能力,C=εS/d=ε0εrS/4πkd(真空)=Q/U。百度百科上电容器的概念指的是两个相互靠近的导体,中间夹一层不导电的绝缘介质。通过观察电容本身的定义公式中可以看到,在各个变量中比较能够改变的就是εr,S和d,也就是介质的介电常数,金属板有效相对面积以及距离。当前
    知白 2025-01-06 12:04 237浏览
  • 村田是目前全球量产硅电容的领先企业,其在2016年收购了法国IPDiA头部硅电容器公司,并于2023年6月宣布投资约100亿日元将硅电容产能提升两倍。以下内容主要来自村田官网信息整理,村田高密度硅电容器采用半导体MOS工艺开发,并使用3D结构来大幅增加电极表面,因此在给定的占位面积内增加了静电容量。村田的硅技术以嵌入非结晶基板的单片结构为基础(单层MIM和多层MIM—MIM是指金属 / 绝缘体/ 金属) 村田硅电容采用先进3D拓扑结构在100um内,使开发的有效静电容量面积相当于80个
    知白 2025-01-07 15:02 147浏览
  • 每日可见的315MHz和433MHz遥控模块,你能分清楚吗?众所周知,一套遥控设备主要由发射部分和接收部分组成,发射器可以将控制者的控制按键经过编码,调制到射频信号上面,然后经天线发射出无线信号。而接收器是将天线接收到的无线信号进行解码,从而得到与控制按键相对应的信号,然后再去控制相应的设备工作。当前,常见的遥控设备主要分为红外遥控与无线电遥控两大类,其主要区别为所采用的载波频率及其应用场景不一致。红外遥控设备所采用的射频信号频率一般为38kHz,通常应用在电视、投影仪等设备中;而无线电遥控设备
    华普微HOPERF 2025-01-06 15:29 172浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦