9月11日消息,AI大模型经历了波澜壮阔大发展的2023年。2024年以来,全球基础大模型的更新速度均出现放慢,相伴随的,行业中各种质疑声音也开始涌现。
“大模型之间的能力已经没有壁垒”、“还应该继续投入基础模型的研究”、“大模型是不是一场新的科技泡沫?”
近日,百度CEO李彦宏的一则内部讲话曝光。在这次与员工的交流中,李彦宏谈到了“三个大模型认知误区”,涵盖了大模型竞争、开源模型效率、智能体趋势等热点话题。可以说回答了当前大模型行业从业者的一些普遍问题,厘清了行业迷惘。
李彦宏认为,未来大模型的之间的差距可能会越来越大,大模型的天花板很高,大模型要不断快速迭代、更新和升级,需要能几年、十几年如一日地投入。同时,大模型应用需要不断满足用户需求,关注大模型成本的降低和效率的提升。大模型应用落地也将经历从辅助工具、到智能体、再到Al Worker的三个阶段。
事实上,Gartner最新发布的“2024年新兴技术成熟度曲线”中关于生成式人工智能(GenAI)技术的发展趋势也与李彦宏的大模型更要关注实际应用中的降本增效判断相契合。
Gartner “2024 年新兴技术成熟度曲线”中,生成式人工智能已处于越过“期望膨胀期”阶段。
当一个新技术处于“期望膨胀期”时,市场中会有很多的声音,并不代表着这项技术已经很成熟或部署普及率达到高峰,实际上它反映的更多是市场炒作的热度达到了高峰。但是,当一项技术越过期望膨胀期,实际上对于一项技术来说是一个好事。
2024年生成式人工智能(GenAI)已越过“期望膨胀期”,意味着不管是在供应端还是在需求侧都会更理性思考。只有真正经历了理性的思考和市场的重新洗牌之后,这项技术才真正开始进入到稳步的爬升期。
那么,一起来看看李彦宏这场内部讲话中关于大模型、生成式AI的详细观点,如下:
误区一:大模型之间的能力已经不存在壁垒?
“每次新模型发布,都要和GPT-4o做比较,说我的得分已经跟它差不多了,甚至某些单项上得分已经超过它了。” 李彦宏明确表示:“但这并不表明和最先进的模型就没有差距了。”
李彦宏说“从榜单或者测试集上看,你觉得能力已经很接近了,但到实际应用中还是有明显差距的。”
这背后,有大模型公司刷榜似乎已经成为“潜规则”的原因。为了让为了让自家模型得高分,这里面很多厂商会刷榜,有的会让数据标注员把评测题做一遍,有的会让GPT-4做一遍再把答案喂给自家模型,相当于让模型“刷题”考高分,但在实际应用场景中,就出现高分低能。
李彦宏指出,模型之间的差距是多维度的。很多公司或者用户对于模型能力的评价是片面的,往往只看基础能力的对比数据,这就导致了对于单一榜单的过度迷恋。行业往往更关注理解、生成、逻辑、记忆等能力的差距,但却忽视了成本、推理速度等维度。有些模型虽能达到同样效果,但成本高、推理速度慢,还是不如先进模型。
“模型天花板很高,你今天做到的跟你实际想要做到的、跟理想状态还差得非常远,所以模型还需要不断快速地去迭代、去更新、去升级。”李彦宏表示, 如果大模型公司不能持续投入和满足用户需求,很快就会被拉开差距。“哪怕你能保证永远领先竞争对手6个月,那就赢了,你的市场份额可能是70%,而对手可能仅为20%甚至10%的份额。”
“在实际使用过程当中,我不允许我们的技术人员去打榜,真正衡量文心大模型能力的是,你在具体应用场景当中到底有没有能够满足用户的需求,有没有能够产生价值的增益,这是我们真正在乎的。”李彦宏强调。
误区二:开源缩小闭源模型的差距,
闭源大模型没有优势?
“一个模型除了能力之外还要看效率,效率上开源模型是不行的。”李彦宏再次强调了他一贯的观点。“大模型时代算力是决定大模型成败的一个关键因素”。
他详细解释道:在大模型时代之前,大家习惯了开源意味着免费、意味着成本低。比如买一个电脑装开源操作系统Linux,因为已经有了电脑,所以使用Linux是免费的。由于Linux是开源的,所有程序员都可以看到代码,哪儿做的不好我可以去更新,更新了再check in,大家众人拾柴火焰高,你在巨人的肩膀上可以不断地进步。
但这些在大模型时代不成立,大模型推理是很贵的,开源模型也不会送算力,还得自己买设备,怎么能够让算力高效地被利用?开源模型解决不了这个问题。
“闭源模型准确讲应该叫商业模型,是无数用户分摊研发成本、分摊推理用的机器资源和GPU,GPU的使用效率是最高的,百度文心大模型3.5、4.0的GPU使用率都达到了90%多。”
因此,李彦宏认为,在教学科研等领域,要想搞清楚大模型的工作原理,开源模型是有价值的;但在商业领域,当追求的是效率、效果和最低成本时,开源模型是没有优势的。
误区三:AI应用难以落地,
找不到商业化路径?
对于这个问题,李彦宏明确指出了大模型应用发展的几个必经阶段:
首先,是对人进行辅助,即Copilot阶段。大模型产出的“结果”需要人把最后一道关、确定它的效果是OK的,各方面都不错才会让它出去;
接着,是Agent智能体阶段。李彦宏表示,外界对于Agent有各种各样不同的定义,最主要是它有了一定的自主性,具备自主使用工具、反思、自我进化等能力;
再往下就是Al Worker阶段。能够像人一样做各种各样的脑力和体力劳动,各方面的工作都可以独立完成。
基于这样的判断,百度提出了“智能体是大模型最重要的发展方向”。
不过,李彦宏也强调,“这是一个非共识。到今天为止智能体还不是共识,像百度这样把智能体作为大模型最重要的战略、最重要的发展方向的公司并不多。”
今年百度Create大会上百度发了三个产品,AgentBuilder、AppBuilder、ModelBuilder,其中AgentBuilder和AppBuilder都是帮助开发者用来快速构建智能体的工具。
“为什么我们这么强调智能体?因为智能体的门槛确实很低,我们去年说要卷应用、大家都去做应用,其实很多人还是说不知道该怎么做,不知道这个方向能不能做出来,我到底要用到什么能力才能够在这个场景下产生价值,这里面有无数不确定性,大家不知道怎么从模型变成应用。”李彦宏表示,但是智能体提供了一个非常直接、非常高效、非常简单的方式,在模型之上构建智能体是相当方便的。
从某种意义上来是,对于开发者而言,“构建各种智能体”可以说是一种超低成本的构建大模型应用的试错方式:开发出来用户喜欢就成功了,用户不喜欢也没损失。
李彦宏表示,这也是为什么今天每周都有上万个新的智能体在文心平台上被创造出来。
今年7月,百度宣布在文心智能体平台AgentBuilder上免费开放文心大模型4.0,开发者在文心智能体平台上制作智能体时,可灵活选择文心大模型3.5或4.0版本。公开数据显示,在百度文心智能体平台AgentBuilder上,已有20 万开发者、6.3 万企业入驻。
除了方便开发者构建智能体外,还需要能帮开发者“测试”这个智能体是不是用户需要的、是不是成功的。
因此,李彦宏称:“智能体方面我们已经看到了趋势,也有比较好的先决条件,除了模型本身的能力比较强大之外,我们也有很好的分发通路。百度的APP,尤其是百度搜索一天有好几亿人在用,用户的需求主动向我们表达了,哪一个智能体能更好地去回答他这些问题,去满足他这些需求,这是一个自然匹配的过程,所以我们是最能够帮助这些开发者分发他们智能体的。”
根据百度2024年Q2季度财报数据,目前,在百度开发智能体的商户已达1.6万家,覆盖教育、法律和B2B等行业。智能体在百度生态的分发量正在快速上升,7月日均分发次数超800万,为5月的两倍,最常用的智能体包括内容创作、性格测试、日程规划等类型。用户、开发者、服务商、商户均为智能体生态的重要参与方。