在北京市科学技术委员会、中关村科技园区管理委员会的指导和组织下,由北京信息科技发展中心、北京爱分析科技有限公司等单位编写完成《北京市人工智能大模型行业应用分析报告》,展现北京市大模型相关技术产品在各领域各行业的应用发展态势,并提出有关建议,为未来决策提供参考。今日先行发布报告的“企业应用大模型的特征和挑战”部分,以供企业用户前瞻。注:长按扫描下图二维码或点击文末左下角“阅读原文”,可下载完整版《北京市人工智能大模型行业应用分析报告》。
应用特征1:由浅入深,大模型穿越边缘场景,向核心场景挺进2023年,大模型落地集中于边缘场景。大模型兴起于2023年初,经过近一年的高速发展,其在政务、金融、产业升级等各个领域均有落地应用。大模型在政务领域,以政务问答、文件生成等场景为主;在金融领域,以智能客服、售前助理等场景为主;在产业升级领域,以知识问答、代码补全等场景为主;在医疗领域,以医疗文书生成、智能医药问答等场景为主;在文化教育领域,以内容润色、内容纠错等场景为主;在智慧城市领域,以公共安全监测、城市运行报告生成等场景为主。但上述场景大多为所属领域的边缘场景,不涉及生产、运营的核心环节,也不面向公众或外部客户使用,仅面向内部员工使用。2024年,大模型逐步向核心场景挺进。得益于大模型在边缘场景价值的成功验证及其技术演进,大模型在深耕边缘场景的同时开始向核心区挺进。在场景价值验证方面,多数需求方认可大模型价值,将计划追加投入。例如某运营商在2023年研发客服大模型并试点上线,由数万名员工内测试用,该运营商计划2024年开始在集团范围内加快规模化商用推广。大模型技术演进主要指检索增强生成(RAG)、智能体(AI Agent)和多模态,他们对扩大大模型应用范围有明显作用。检索增强生成技术是指大模型在回答问题时,会先从大量的文档中检索出相关信息,然后将这些检索出的信息作为提问的上下文构建提示词,大模型再基于提示词进行归纳总结,生成答案,检索增强生成技术主要用于解决大模型幻觉问题。智能体技术则可以实现大模型应用的能力升级,例如,类似ChatGPT的大模型应用仅能起辅助作用,而智能体技术可以赋予大模型感知、规划、记忆和使用工具的能力,实现独当一面。多模态技术使得交互模态不局限于单一的文本模态,而是扩展至文本、图片、音频、视频等多种模态,可显著提升大模型应用的产品功能和交互体验,推动大模型应用从可用向好用转变。应用特征2:守正创新,央国企拥抱新技术,加快大模型在产业升级、金融等领域的落地步伐大模型在各个领域均有落地应用,其中在产业升级和金融领域的落地步伐最快。2023年公开招投标统计数据显示,产业升级相关大模型项目招标金额最多,占比高达32.5%,金融占比紧随其后,占比为28.2%。图2:2023年各领域大模型公开招标金额占比
央国企需求旺盛,引领大模型在两大领域快速落地。央国企守正创新,有较强意愿自上而下推进大模型应用。同时,央国企通常具有较强的数据基础设施、算力投入和AI应用基础,为大模型成功落地提供先决条件。在央国企引领下,大模型在产业升级和金融领域快速落地。应用特征3:百花齐放,大模型应用搭建难度下降,“动态行业大数据”成为落地新关键大模型基础能力提升、开发工具逐渐完善,为培育大模型应用提供肥沃土壤。大模型持续迭代,语义理解、上下文长度、多模态等能力愈发完善,有利于开发上层应用。同时,随着行业发展,大模型生态也在逐渐成熟,各类便捷的AI开发工具陆续推出,应用开发难度显著下降。例如百度于2024年推出的智能体开发工具AgentBuilder、AI原生应用开发工具AppBuilder、各种尺寸的模型定制工具ModelBuilder,可以帮助不具备代码编程能力的人员完成大模型应用开发。动态行业数据成为大模型落地新关键。基础大模型一般是基于广泛的公开文献与网络信息来训练的,属于“泛行业”,没有特定行业属性,导致基于其搭建的上层应用在专业和细分领域难以提供高价值服务。因此,打造行业大模型成为需求方和技术企业的共同关注点。具体而言,“动态行业大数据”是打造行业大模型的核心,其是指为保证行业大模型的持久生命力,技术企业应具备动态更新行业大数据的能力,而非只掌握一批“静态数据”。拥有“动态行业大数据”的技术企业更容易获得需求方青睐。图3:大模型应用搭建难度下降,“动态行业大数据”成为落地关键应用特征4:量体裁衣,需求方情况各异,在采购、部署大模型时特色鲜明需求方IT能力越强,越倾向采购基础大模型,反之则倾向采购大模型应用。需求方IT能力差异显著,这会直接影响他们的采购行为。强IT能力的需求方倾向能力建设,较弱IT能力需求方倾向应用建设。聚焦大模型,强IT能力的需求方通常倾向采购基础大模型,通过自行微调来开发各类上层应用。IT能力稍弱的需求方通常倾向采购“企业大模型”,即由技术企业基于需求方数据对基础大模型进行微调。IT能力更弱的需求方通常倾向采购大模型应用,实现“开箱即用”,由技术企业对基础大模型进行调整和封装,需求方无需关心。需求方IT能力越强,越具备在智算中心私有化部署大模型的条件,反之则更依赖大模型一体机和公有云部署。强IT能力需求方通常已自建智算中心,其具备高端GPU资源,支持大模型的训练和推理工作。IT能力稍弱的需求方通常采用大模型一体机,其仍为私有化部署模式,由技术企业对大模型、应用、算力资源进行整合,形成端到端解决方案,便于大模型在需求方快速落地。IT能力更弱的需求方通常倾向公有云部署,此种方式更省心且初始投入较低,有利于需求方低成本快速试错。应用特征5:保驾护航,大模型安全逐渐受到重视,为可持续发展提供保障大模型训练及应用通常涉及四类参与主体,均存在安全需求。大模型开发及应用全流程通常涉及数据提供方、大模型应用使用方、基础大模型提供方、大模型应用提供方四类参与主体。它们在合作过程中需要解决信任及隐私安全保护问题。数据提供方面临数据使用过程中的各种不安全因素;大模型应用使用方担心在使用过程中泄露核心业务数据,该担心并非空穴来风,例如2023年三星设备解决方案部门因使用ChatGPT导致半导体设备测量、良品率/缺陷、内部会议内容等相关信息被上传到ChatGPT服务器中,造成广泛负面舆论;基础大模型提供方面临模型产权被窃取风险,特别是对于初创企业而言,基础模型是公司的核心资产;大模型应用提供方面临微调参数成果泄露风险。大模型安全逐渐受到重视,为可持续发展提供保障。在大模型行业发展初期,各参与方聚焦大模型、算力等方面,对安全性重视程度不足。随着行业发展逐渐深入,各参与方的安全呼声越来越高。反映到技术企业端,已有一批企业推出大模型安全类产品,为可持续发展提供保障。
大模型被认为是建立在充沛算力之上的“暴力美学”,随着大模型兴起,市场上算力需求剧增。不论是公共算力还是企业自建算力,尚无法完全满足大模型企业对于智能算力的需求。随着大模型应用地更深更广,算力紧张情况预计仍将延续。特别是大模型在训练环节需要大型算力集群,但市场上存在较多分散算力,难以用于大模型训练,加剧了算力紧张情况。应用挑战2:知识产权、数据隐私与大模型应用之间的最佳平衡点仍在探索中知识产权保护与大模型应用之间的法律平衡点仍在探索中。大模型训练涉及的数据可能包括一些版权保护的作品,从知识产权保护的角度而言,可能需要禁止使用,避免生成侵权回答。但是,这些作品数量众多、来源各异、权属不同,若采用事先授权许可的方式,这一过程漫长、复杂且几乎无法落地操作。一是技术企业需要精准地将受保护的作品从海量数据中进行分离、提取;二是技术企业需要找到每一部版权作品对应的权利人与之协商授权,并支付价格不一的授权费用。数据隐私保护与大模型应用之间的技术平衡点仍在探索中。对于数据隐私保护和大模型效率之间存在着一个两难的矛盾——既要最大限度地保护数据隐私,又要最大限度地发挥模型的效果。在政务、医疗和金融领域,该矛盾尤为突出。通过开发可信的框架,从而在数据隐私保护、模型效果和训练效率之间取得一种平衡,是业内的重点讨论方向,但仍在探索中。应用挑战3:大模型幻觉问题有所改善,但距离规模落地尚有差距大模型幻觉问题是影响行业大模型在部分领域落地应用的关键。政务、金融、医疗等领域对大模型输出内容的专业性、准确性有较高要求,对不准确回答的容忍度较低。例如在政务领域,面向公众的政务问答一旦生成错误的答案,将给工作人员带来额外的解释成本。当前缺乏“根治”幻觉的方法,大模型规模化落地受阻。尽管当前较多大模型技术企业采取引入提示词工程或外挂知识库等方式进行内容校准,在一定程度上可以缓解大模型幻觉问题。但是,这种方式一定程度上限制了大模型的通用泛化能力,难以从根本上解决幻觉问题。应用挑战4:部分大模型应用处于“可用阶段”,需求方和技术企业协同发力让“可用”迈向“好用”需求方在输出内容的专业性、准确性等方面要求较高,特别是在政务、教育、医疗等领域,尤为明显。当前大模型落地的各类应用大多处于可用阶段。这也导致需求方主要让内部员工使用大模型应用,而不对外服务。虽然现阶段大模型应用不能完全符合需求方实际业务要求,但需求方已经从早期试点过程中看到了大模型价值和可持续优化的潜力。因此,多数需求方有意愿携手技术企业继续深耕大模型应用,推动其从可用迈向好用,让大模型的价值在员工群体和客户群体中得到“全量释放”。应用挑战5:部分领域积极响应监管需要,对大模型落地提出特殊要求金融、医疗、教育等领域在政策、数据隐私、伦理安全等方面有较高监管需要,需求方和技术企业积极响应,在凝练场景、开放数据、模型训练等过程中考虑监管因素,在项目交付时考虑所属领域可能存在的特殊要求。例如部分需求方为了保证数据不出域,可能要求技术企业采用驻场微调的方式。注:点击左下角“阅读原文”,下载完整版《北京市人工智能大模型行业应用分析报告》。