在3月的英伟达GTC 2023会议中,英伟达创始人兼CEO黄仁勋与OpenAI联合创始人及首席科学家伊尔亚-苏茨克维(Ilya Sutskever)展开了一次“炉边谈话”。
黄仁勋和Sutskever均为AI领域举足轻重的人物,也是AlphaFounder的典型代表。黄仁勋的NVIDIA成为了AI领域的算力底座,几乎所有AI的计算都离不开NVIDIA的GPU,Sutskever在很早之前就与Krizhevsky、Hinton共同发表横空出世的关于AlexNet的论文,并且一手推动了GPT大模型和ChatGPT的出现。
来源:NVIDIA GTC 2023
黄仁勋表示:“AI 正迎来有史以来最辉煌的时刻。新的 AI 技术和迅速蔓延的应用正在改变科学和各行各业,并为成千上万的新公司开辟新的疆域。这将是我们迄今为止最重要的一次 GTC。”
黄仁勋与Ilya Sutskever的炉边谈话中,详细讨论了 GPT-4 及其前身,包括 ChatGPT。这种生成式人工智能模型虽然只有几个月的历史,但已经是历史上最受欢迎的计算机应用程序。他们的谈话涉及深度神经网络的功能、局限性和内部工作原理。
“与ChatGPT相比,GPT-4标志着“在许多方面都有相当大的改进”,Sutskever说,“在未来的某个版本中,用户可能会得到一个图表”来回应查询,指出新模型可以读取图像和文本。
神经网络与 GPT
“有一种误解,认为ChatGPT是一个大型语言模型,但有一个围绕它的系统,”黄仁勋说。
Sutskever表示,OpenAI使用两个级别的训练。
第一阶段的重点是准确预测序列中的下一个单词。在这里,“神经网络学习的是产生文本的过程的一些表示,这是世界的投影,”他说。
第二个“是我们向神经网络传达我们想要的东西的地方,包括护栏......因此,它变得更加可靠和精确,“他补充说。
AI大爆炸
虽然他今天处于现代人工智能的漩涡中心,但Sutskever也参与了它的创建。
2012年,他是第一批展示在海量数据集上训练的深度神经网络力量的人之一。在一次学术竞赛中,他与人工智能先驱Geoff Hinton和Alex Krizhevsky一起展示的AlexNet模型识别图像的速度比人类更快。
黄仁勋将他们的工作称为人工智能的大爆炸。
结果“以如此大的优势打破了记录,很明显这里存在不连续性,”黄仁勋说。
算力大爆发:增长一百万倍
这一突破的一部分来自团队使用 GPU 应用于其模型的并行处理。
“ImageNet 数据集和卷积神经网络非常适合 GPU,这使得训练前所未有的东西变得非常快,”Sutskever 说。
早期的工作在多伦多大学实验室的几个GeForce GTX 580 GPU上运行。如今,Microsoft Azure云服务中数以万计的最新NVIDIA A100和H100 Tensor Core GPU在ChatGPT等模型上进行训练和推理。
“在我们认识的10年里,你训练的模型已经增长了大约一百万倍,”黄仁勋说。“计算机科学界没有人会相信当时完成的计算会大一百万倍。
“我有一个非常强烈的信念,越大越好,OpenAI的目标是扩大规模,”Sutskever说。
AI的未来
当被问及GPT-4是否具有推理能力时,Sutskever表示该术语很难定义,并且该功能可能仍在地平线上。
“我们将继续看到那些让我们震惊的系统,它们能做什么,”他说。“前沿在于可靠性,达到我们可以信任它能做什么的地步,如果它不知道什么,它就会这么说,”他补充说。
“你的作品令人难以置信...真的很了不起,“黄仁勋在闭幕式上说,“这是博士之外对大型语言模型技术状态的最好的描述之一。”
附边炉谈话精华
下面是两人边炉谈话的精华整理。
黄仁勋:最近ChatGPT的热潮将人工智能又站在了世界的“风口浪尖”,OpenAI公司也受到行业的关注,你也成为了整个行业最为引入注目的年轻工程师、最为顶尖的科学家。我的第一个问题是,你最初关注和聚焦人工智能领域的出发点是什么?有想过会取得目前如此巨大的成功吗?
Sutskever:非常感谢对我的盛情邀请。人工智能通过不断的深度学习,给我们的世界带来了巨大的变化。对于我个人来说,其实主要是两方面:
首先,我关注在人工智能深度学习方面的初心,是我们人类对于各种问题,都有一定的直觉性的理解。对于人类意识的定义,以及我们人类的智力是如何完成这样的预判,这是我特别感兴趣的地方。
第二,在2002年到2003年期间,当时的我认为“学习”这件事,是只有人类才能完成的任务,计算机是无法做到的。所以我当时冒出一个想法:如果能够让计算机去不断学习,或许会带来人工智能行业的改变。
很幸运的是,当时我正在上大学,我研究的专业刚好是研究神经网络学习方向。神经网络是在AI方面的一个非常重要的进步,我们关注如何通过神经网络去研究深度学习,以及神经网络如何像人类的大脑那样工作,这样的逻辑如何反映在计算机的工作方式上。当时的我其实并不清楚研究这个领域会带来怎样的职业工作路径,只是觉得这会是一个长期而言比较有前景的行业。
黄仁勋:在您最开始接触神经网络研究方向时,那个时候的神经网络的规模是多大?
Sutskever:那个时候神经网络还没有讨论到规模的概念,只有几百个神经单元,甚至当时的我都没想过,居然能发展到现在如此之多的神经单元、以及如此多的CPU的单位。当时我们启动了一个数学实验室,基于经费预算有限,我们先开始只做了各种各样不同的实验,并收集了各种不同的问题去测试准确度。我们都从一点一滴很小的积累,去培训神经网络。这也是最开始实现的第一个生成式AI模式的雏形。
黄仁勋:早在2012年之前,你就在神经网络领域有所建树,你是在什么时间点开始觉得计算机视觉以及神经网络和人工智能是未来方向的?
Sutskever:在2012年之前大概两年左右,我逐渐意识到深度学习会获得很多关注,这不仅仅是我的直觉,其背后有一套非常扎实的理论基础。如果计算机的神经网络足够深、规模足够大,它就能够解决一些深层次的硬核内容问题,关键是需要神经网络兼备深度和规模,这意味着我们必须有足够大的数据库和算力。
我们在优化数据模型上付出很多努力,我们的一个同事基于“秒”做出了神经网络的反馈,用户可以不断培训神经网络,这能让神经网络的规模更大、获得更多数据。有的人觉得这样的数据集大到不可想象,如果当时的算力能够处理这么大的数据,那么一定能触发一场革命。
黄仁勋:我们第一次相遇的时候,也是我们对未来的展望真正有所交集的时候。你当时告诉我说,GPU会影响接下来几代人的生活,你的直觉认为GPU可能会对深度学习的培训有所帮助。能不能告诉我,你是在什么时候意识到这一点的?
Sutskever:我们在多伦多实验室中第一次尝试使用GPU培训深度学习的时候,并不清楚到底如何使用GPU、如何让GPU获得真正的关注。随着我们获得越来越多的数据集,我们也越来越清楚传统的模型会带来的优势。我们希望能够加速数据处理的过程,培训过去科学家从来没有培训过的内容。
黄仁勋:放在当下来看,当时你去硅谷到Open AI上班、担任Open AI的首席科学家,你认为最重要的工作时什么?我觉得Open AI在不同的时间点有不同的工作关注焦点,ChatGPT是“AI界的iPhone时刻”,你是如何达到这样的转变时刻的?
Sutskever:最开始我们也不太清楚如何开展整个项目,而且,我们现在所得出的结论,和当时使用的逻辑完全不同。用户现在已经有这么好用的ChatGPT工具,来帮助大家创造出非常好的艺术效果和文本效果。但在2015年、2016年的时候,我们还不敢想象能达到当下的程度。当时我们大部分同事来自谷歌的DeepMind,他们有从业经验,但相对而言思想比较狭窄、受到束缚,当时我们内部做了100多次不同的实验和对比。
那时我想出一个特别令自己激动的想法,就是让机器具备一种不受监督的学习能力,虽然今天我们认为这是理所当然的,你可以用自然语言模型培训所有内容。但在2016年,不受监督的学习能力仍旧是没有被解决的问题,也没有任何科学家有过相关的经验和洞见。我觉得“数据压缩”是技术上的瓶颈,这个词并不常见,但实际上ChatGPT确实压缩了我们的培训数据集。但最后我们还是找到了数学模型,通过不断培训让我们压缩数据,这其实是对数据集的挑战。这是令我感动特别激动的一个想法,这个想法在Open AI上获得了成果。
其实这样一些成果,可能并不会在机器学习之外深受欢迎,但是我想说的是,我工作取得的成果是培训了神经网络。
我们希望能够去培训神经网络预测下一个单词。我认为下一个神经元的单位会和我们的整个视觉神经网络密切相关的,这个很有趣,这个和我们验证的方法是一致的。它再次重新证明了,下一个字符的预测、下一个数据的预测能够帮助我们去发掘现有数据的逻辑,这个就是ChatGPT培训的逻辑。
黄仁勋:扩大数据规模是帮助我们提高AI能力的表现,更多的数据、更大的数据集能够帮助生成式AI获得更好的结果。你觉得GPT-1、GPT-2、GPT-3的演变过程,是否符合摩尔定律?
Sutskever:OpenAI的目标之一是解决扩大数据集的问题,但我们刚开始面临的问题,如何提升数据的高精准度,让模型能够实现精准预测非常重要。我们当时在做Open AI项目的时候,希望它能实时做一些策略性游戏,比如竞争性的体育游戏,它必须足够快、足够聪明,还要和其它队竞赛。作为一个AI模型,它其实不断重复这样一个基于人类反馈的强化学习过程。
黄仁勋:你是如何精准调控给予人类反馈的强化学习的?是不是有其它附属系统,给ChatGPT一定的知识背景来支持ChatGPT的表现?
Sutskever:我可以给大家解释一下,我们的工作原理是不断培训神经网络体系,让神经网络去预测下一个单词。基于过去我们收集的文本,ChatGPT不仅仅是表面上的自我学习,我们希望它能够在当下预测的单词和过去的单词之间达成一定的逻辑上的一致。过去的文本,其实是用于投射到接下来的单词的预测上。
从神经网络来看,它更像是根据世界的不同方面,根据人们的希望、梦想和动机得出一个结论。但我们的模型还没有达到预期的效果,比如我们从网上随便摘几个句子做前言,在此基础上,不需要做额外的培训就能让ChatGPT写出一篇符合逻辑的论文。我们不是简单地根据人类经验完成AI学习,而是要根据人类反馈进行强化学习。人类的反馈很重要,越多的反馈能使AI更可靠。
黄仁勋:你可以给AI指示,让AI做某些事情,但是你能不能让AI不做某些事情?比如说告诉AI界限在哪里?
Sutskever:可以的。我觉得第二个阶段的培训序列,就是和AI、神经网络去进行交流,我们对AI训练得越多,AI的精准度越高,就会越来越符合我们的意图。我们不断地提高AI的忠诚度和准确度,它就会变得越来越可靠,越来越精准,而且越来越符合人类社会的逻辑。
黄仁勋:ChatGPT在几个月之前就面世了,并且也是人类历史上增长最为迅速的软件和应用。很多人都会给出各种不同的解释,有人会说它是目前为止使用方式最简单的应用。比如说它的交互模式非常简单,它超越了所有人的预期。人们也不需要去学习如何使用ChatGPT,只要给ChatGPT下命令,提出各种不同的提示就可以。如果你的提示不够清楚的话,ChatGPT也会进一步把你的提示做得比较清晰,然后回顾并且问你是不是想要这个?这样一个深度学习的过程让我特别惊艳。
我们在几天之前看到了GPT-4的表现,它在很多领域的表现非常让人震惊,它能够通过SAT考试、律师协会的律师执业资格考试,而且能够达到很高的人类水平。我想问的就是,GPT-4有什么样的改善?并且你认为接下来它会帮助人们在哪些方面、领域有更多的改善?
Sutskever:GPT-4基于过去ChatGPT的性能,做了很多改善。我们对GPT-4的训练大概是从6-8个月之前开始的,GPT -4和之前版本GPT最重要的区别,就是GPT-4是基于更精确的精准度去预测下一个单词的,因为有更好的神经网络帮助预测。
比如说你自己在读一篇推理小说,小说中有各种不同的人物和情节,有密室、有谜团,你在读推理小说的过程中完全不清楚接下来会发生什么。通过小说不同的人物和情节,你预测凶手有几种可能性,GPT-4所做的内容就像一本推理小说一样。
黄仁勋:很多人都会说深度学习会带来推理,但是深度学习并不会带来学习。语言模型是如何学习到推理和逻辑的?有一些任务,ChatGPT和GPT-3不够擅长,而GPT-4更擅长。GPT-4现在还有什么样缺陷,可以在接下来的版本上更进一巩固吗?
Sutskever:现在的ChatGPT可以更精准地的定义逻辑和推理,通过更好的逻辑和推理在接下来的解密的过程中获得更好的答案。神经网络或许会面临一些挑战,比如让神经网络去打破固有的思维模式,这就意味着我们要思考神经网络到底可以走多远,简而言之,神经网络的潜力有多大。
我们认为GPT的推理确实还没有达到我们之前预期的水平,如果我们更进一步扩大数据库,保持过去的商业运转模型,它的推理的能力会进一步提高,我对这个比较有信心。
黄仁勋:还有一点特别有意思,就是你去问ChatGPT一个问题,它会基于过去的知识和经验告诉你这个问题的答案,这个也是基于它对过去知识和数据库的总结,以及基于对你的了解提供的答案,并且展现一定的逻辑性。我觉得ChatGPT有一种自然而然的属性,它能够不断去理解。
Sutskever:是的,神经网络确实有这些能力,但是有时候不太靠谱,这也是神经网络接下来面临的最大障碍。在很多情况下,神经网络会比较夸张、会出很多的错误,甚至出一些人类根本做不出来的错误。现在我们需要更多的研究来解决这些“不可靠性“。
现在GPT-4的模型已经被公开发布了,它其实没有追踪数据模型的能力,它的能力是基于文本去预测下一个单词,所以是有局限性的。我觉得有些人可能会让GPT-4去找出某些数据的来源,然后会对数据来源做更深入地调查。
总体而言,尽管GPT-4并不支持内部的数据收集,它肯定会在持续的数据深入挖掘之中变得更加精准。GPT-4已经能够从图片中进行学习,并且根据图片和内容的输入进行反馈。
黄仁勋:多模态学习如何加深GPT-4对于世界的理解?为什么多模态学习定义了GPT和OpenAI?
Sutskever:多模态非常有意思。
第一,多模态在视觉和图像识别上特别有用。因为整个世界是由图片形成的,人们也是视觉动物,动物也是视觉动物,人脑1/3的灰质都是用来处理图像的,GPT-4也能够去理解这些图像。
第二,通过图片或文字对世界的理解是一样的,这也是我们的一个论证。对于一个人而言,我们作为一个人可能一生之中只会说10亿个词。
黄仁勋:我脑海中闪过10亿个词的画面,居然有这么多词?
Sutskever:是的,我们可以计算一下人一生的时间有多久,以及一秒能处理多少词,如果再减去这个人生命中睡觉的时间,就能算出一生处理了多少单词。人和神经网络不同之处,就是有些过去对于文本而言的话,如果我们有一个十亿级的词汇无法理解的话,可以用万亿级的词汇来理解。我们对于世界的知识和信息,可以通过文本慢慢渗透给AI的神经网络。如你加上视觉图片等更多的元素,神经网络可以更精准地学习。
黄仁勋:对于文本和图片方面的深度学习,如果我们想要人工智能智能去理解其背后的逻辑,甚至夸张的说,是理解这个世界的基本原理——比如我们人类日常一句话的表达方式,比如说有一个词其实有两种含义,声音的高低变化,其实都代表着两种不同的语气。在说话的语言和语调方面,会不会对AI去理解文本有一定帮助呢?
Sutskever:是的,你说的这类场景非常重要。对于语音和语调,包括声音的大小和语气,都非常重要的信息来源。
黄仁勋:GPT-4在哪些内容上比GPT-3做出了更多的进步,可以举个例子吗?
Sutskever:比如说在一些数学竞赛上(像高中数学竞赛),很多问题是需要图表来解答的。GPT-3.5对于图表的解读做得特别差,而GPT-4只需要文本就可以解读,准确率有很哒的提升。
黄仁勋:你之前提到,AI能够生成各种不同的文本来去训练另外一个AI。比如说,在所有的语言之中一共有20万亿不同的语言计数单位去培训语言模型,那么这个语言模型的培训到底是什么样的?AI是否可生成出只属于AI的数据来去自我培训?这样的形式看起来是一个闭环的模型,就像我们人类通过自己不断地去学习外部的世界、通过自我反思、通过解决问题来去训练我们自己的大脑。你怎么看这样一个合成生成过程,以及AI的自我学习和自我培训呢?
Sutskever:我不会低估这个部分已经存在的数据,甚至我认为这里面存在的数据要比我们意识到的数据更多。
黄仁勋:是的,这也是我们在不断展望的未来中去思考的事情,相信总有一天,AI能够自己去生成内容、进行自我学习,并且可以自我改善。你是否可以总结一下我们现在处于什么样的发展阶段?以及在不远的将来,我们的生成式AI能够达到什么样的情况?对于大语言模型,它的未来是什么?
Sutskever:对我来说,预测未来是很困难的。我们能做的就是把这件事,持续做下去,我们将会让大家看到更多令人感到惊艳版本的系统。我们希望能够去提高数据的可靠度,让系统真正能够获得人们的信任。如果让生成式的AI去总结某一些文本,然后得出一个结论。目前AI在解读这个文本过程中,还没有完全去验证文本的真实性以及文本所说的信息的来源,这一点是很重要的。接下来我们对于未来的展望,就是让神经网络必须要意识到所有数据来源的真实性,让神经网络意识到用户每一步的需求。
黄仁勋:这种技术希望能够展现给人们更多的可靠性。我还有最后一个问题,你觉得第一次使用ChatGPT-4的时候,有哪些性能让你觉得是很令人惊艳和震惊的?
Sutskever:对比之前的ChatGPT版本,神经网络只会回答问题,有的时候也会误解问题,回答上很不理想。但是GPT-4基本没有再误解问题,会以更快的方式去难题,能够去处理复杂的艰难的任务,这个对我来说特别有意义。举例子来看,很多人意识到ChatGPT能够写诗,比如说它可以写押头韵的诗,也能够写押尾韵的诗。并且它能够去解释笑话,能明白这个笑话背后到底是什么样的意义。其实简而言之,就是它的可靠性更好了。
我在这个行业从业差不多二十多年了,让我认为“惊艳”的特点,就是它本身存在的意义,是可以给人类带来帮助的。它从最开始毫不起眼的工作领域慢慢成长,变得越来越强。同样的一个神经网络,通过两种不同的方式来培训,能够变得越来越强大。我也经常会发出疑问和感叹:这些神经网络是如何去成长如此之迅速的?我们是不是需要更多的培训?它是不是会像人脑一样不断成长?这让我感觉到它的伟大,或者说让人感到特别惊讶的方面。
黄仁勋:回想过去我们也认识很长的时间了,你将整个职业生涯都奉献给了这个事业,看到你在GPT和AI方面有所建树。今天跟你交流让我更清楚地了解了ChatGPT工作的逻辑,这是对于ChatGPT和OpenAI最为深入、最为艺术的一种解释。今天很高兴能够再次跟你交流,谢谢!