电子工程专辑讯 据麻省理工学院(MIT)计算机科学与人工智能实验室(CSAIL)的研究人员最近对大型语言模型(LLMs)如GPT-4和Claude进行研究,揭示了这些模型的推理能力常常被高估。
研究显示,当前流行的生成式人工智能(AI),如大型语言模型(LLMs),在处理任务时更多依赖于强大的记忆力,而非真正的推理能力。这些AI系统在熟悉的任务上表现出色,但在面对新挑战时,其表现则大打折扣。研究人员认为,这些AI系统更像是有超群记忆力的“鹦鹉”,而非具备真正推理能力的“智者”。一旦面对全新的挑战,需要真正的推理能力时,AI的优势便不再明显。因此,尽管这些AI在特定领域内可以达到甚至超越人类水平,但这更多的是一种“记忆力”的体现。
尽管像ChatGPT这样的LLMs,已经引起了广泛关注,但该项技术仍处于早期发展阶段,可能会在超出其舒适区时遇到问题。
CSAIL的研究人员发现,这些模型在熟悉任务上表现出色,但在虚拟场景中的表现却大幅下降,缺乏通用的算术能力。这些模型在面对音乐和棋类等任务时也表现不佳,无法适应变化的起始位置。研究人员指出,虽然这些发现有价值,但仍存在局限性,需要更多多样化的测试场景。
在心智理论任务中,由詹姆斯·W·A·斯特拉坎等人进行,并发表在《自然人类行为》杂志的一篇研究文章中,该研究比较两类LLMs(GPT和LLaMA2)与1907名人类参与者在一系列心智理论测试中的表现。据悉,这项研究由德国汉堡-埃彭多夫大学医学中心的研究团队及其合作者完成,他们反复测试了GPT和LLaMA2这两种大语言模型的心智理论能力,并将它们的表现与1907名人类参与者进行了对比。具体来说,这些测试包括识别错误信念、讽刺、失言、暗示和含有误导信息的奇怪故事等五项任务。该项研究发现,GPT-4在五种主要类型的任务中表现最佳,尤其是在识别间接要求、错误想法和误导方面,其表现可以达到甚至超越人类的平均水平。然而,LLaMA2的表现则相对逊色,在某些类型的题目上不如其他类型的LLMs或人类,但在一些其他类型的题目上却表现得更好。
研究还指出,尽管LLaMA2在某些特定任务上优于人类,例如在识别失礼行为方面,但总体而言,其表现仍不及人类。这表明,虽然这些大语言模型在某些心智理论任务上能够与人类相媲美或超越人类,但它们在复杂认知任务上的表现仍有待提高。
MIT CSAIL的研究团队计划在未来的工作中重点提高LLMs的可解释性和识别当前模型的失败模式。这对于推动人工智能技术的发展具有重要意义。该研究旨在为未来设计更具鲁棒性的LLMs提供信息,并拓宽其应用范围。
大型语言模型的内存消耗也是一个主要瓶颈,尤其是在部署时需要存储大量的键值对缓存(KV),以避免重新计算。KV cache,即键值对缓存(Key-Value Cache),是一种存储结构,用于快速访问数据。在计算机科学中,键值对是一种数据结构,其中每个键(Key)映射到一个值(Value)。 缓存是一种临时存储数据的方法,以便快速访问,减少对原始数据源的访问次数,提高系统性能。
这些KV缓存用于存储每个变换层在生成过程中的键和值,从而显著增加了GPU内存的使用量。尽管有研究提出了多种优化方法来减少内存消耗,如压缩KV缓存、动态KV缓存淘汰策略等,但这些都表明了记忆力在LLM中的重要性。
进一步的量化分析也显示,LLM能够准确地建模训练数据的统计特征,并且会记住大量训练数据,这与模型大小呈对数线性关系。这种记忆能力使得模型能够在特定任务上表现出色,但也限制了它们在新情境下的表现。
虽然大语言模型具备一定的推理能力,但它们在很大程度上仍然依赖于记忆力来完成任务。这种依赖性使得它们在处理熟悉任务时表现优异,但在面对未知情况时则显得力不从心。