Agent数字员工释放业务潜能，解锁企业生产力

原创爱分析ifenxi 2024-08-16 12:04

TOLG 技术采用超紧凑的海鸥翼式引脚设计 超低功耗CW32L083系列

Agent 在现阶段是广受企业用户关注的方向，数字员工作为解放企业生产困境的重要路径，同样具有高价值，今天主要探究 Agent 技术在数字员工领域的落地实践。分享主要分为三个层面，1、数字员工的演进迭代，2、技术迭代过程中的技术困境与解决方法，3、Agent 数字员工的实际应用场景。

分享嘉宾｜陈伟 浙江实在智能科技有限公司解决方案中心总经理、咨询专家，Certified CMMI Associate（CMA）认证评估师

内容已做精简，如需获取专家完整版视频实录和课件，请扫码领取。

从RPA到Agent，数字员工再进阶

在计算机系统中工作的软件机器人定义为数字员工。过去三四十年，企业构建了非常多信息系统，信息在系统内部传递很高效，但由人参与了信息处理后，效率就会变低。简单的数据工作，人为操作系统，会出现不可控因素，包括个人因素、条件不合适、时间冲突等。数字员工不同场景里具有非常高的价值，用自动化、智能化的技术和方法将信息、数据产出价值，这也是数字化的核心目标。

数字员工在人机协同的业务互动上，成效显著，可自动化执行流程任务或者智能化分析业务问题，同时通过实时人机互动协作完成特定任务。企业在前期的系统建设过程中，存在烟囱系统现象，如果要对这部分系统进行重构，重新开发 API 接口，成本非常高，且接口会随时根据业务需求改变。数字员工在这方面也能发挥非常好的效果，不需要数据接口，完全拟人化进行数据采集，利用集成 AI 能力对数据进行智能分析，最终可贴合数据同步目标，把数据传递到其他系统、接口，生成各类报表，最终的让内部数据通过数字员工的协同，及时、有效、快速地运转，更好地为企业做数字化赋能。

实在智能在前期做了 RPA 流程自动化机器人软件，此软件能操作计算机系统里的主要动作，包括点击鼠标、键盘输入、打开 Excel 等。把人操作计算机的标准动作沉淀为动作组件。业务只需要把组件，像搭积木一样拖到流程中的编辑界面，然后一步步按照操作的目标排列起来，这样就编排出了自动执行的数字员工。大模型从前年开始爆火，其中生成能力非常典型， RPA 流程自动化程序过程其实是内容生产过程，把动作组件按照顺序排列起来。该过程若加入大模型来辅助效果如何？我们把生成流程的所有组件提交给大模型进行训练，同时把实际业务处理知识一起交给大模型，就可以衍生出 RPA Agent ，只需告诉它任务目标，大模型就可以根据自己的理解，把任务目标拆解成若干个操作动作，实现工作流的产生。且利用原本的 RPA 组件生成的接口，把规划好的动作变成 RPA 可执行动作，最终由 RPA 引擎按照大模型生成流程自动化执行，最终完成了生成式自动化。相当于给 RPA 赋予了自主思考、理解任务、规划任务、执行任务的 Agent 智能体。

实在智能在这过程中有三个目标的转变。

第一阶段，RPA 始终是个代码工具，相对来说存在使用门槛。

第二阶段，将 AI 能力加入到 RPA ，通过智能推荐的算法，当鼠标移动到操作对象上后，会智能推荐下一步操作，通过点选用进行流程编辑。相当于可根据推荐的内容做选择，快速进行流程开发，门槛自然就降低了。业务人员不需要有程序开发基础，就能快速利用这套工具开发自动化的数字员工。

在第三阶段，有了大模型的能力加持后，数字员工工具变得人人可用，可通过语言描述命令的方式，让大模型自动生成 RPA 流程进行执行。

Agent在自动化领域的落地困境与解决方案

现在大模型的应用落地还是困扰所有大模型服务厂商的重要问题，对于困难与解决方法也做了相应的思考。

1、基座模型的不可控性。其中包含两方面，模型的参数体量越来越大，通用能力非常强，但通用能力强并不意味着在某专业领域的实力就一定强。所以实在智能对优秀模型进行测试，发现把一段话转化为执行的若干动作，并不能达到理想的效果。与在流程的垂直场景里做过微调训练的模型相比，这些大模型毫无优势。另一方面，底座能力强的模型，成本相对较高，参数体量越大的大模型，所依赖的算力资源、训练资源都非常高。普通企业，很难有这么高的算力储备。同时国央企业类用户，对信息安全的保护程度非常高，不太可能调用开源大模型的 SaaS 的接口，会造成成本困境。实在智能专门选择了 13B 体量的模型，针对流程的垂直领域做针对性训练。

首先要给模型构建对流程的基础认知，因为每个人对流程的认知都不一致，要给大模型构建流程认知，让大模型把工作指令理解为操作计算机若干个步骤，是复杂的。对 13B 模型进行了指令微调，让它更好地理解人的指令，并且把指令关联到是拆解成动作上，同时通过泛化的流程学习，以及以往服务客户的操作流程，提前给到大模型，让它够理解日常工作中的流程，大模型可根据记忆当中的流程知识，编写计算机指令流。同时为大模型构建了操作计算机指令组件的动作库，大模型需要充分理解，并且根据业务需求灵活组合使用。

13B 模型，能够达到相对可用的效果，同时成本相对可控，大概显存达到 30G 的算力就能驱动起 13B 模型。模型训练成本也不高，也支持部署到企业用户的私有化环境甚至是自己电脑中。

2、多模态问题，需要让大模型理解界面的相关信息，并且找到流程所需要操作的元素对象来进行操作。大模型本身以及多模态大模型，在对桌面尤其是应用工具的动态识别上效果不那么明显。

有些操作对象，比如说网页，可以通过网页结构、标签、句柄、代码层次等方式进行控制。而常用的企业微信、钉钉这类封装得非常好的应用，没有办法获取到内部控件来控制接口能力，必须用到视觉能力，像人眼一样识别桌面进行控制。

这部分的解决办法涉及到计算机视觉，能像人一样识别当前操作对象的窗口，分析其中有哪些可控元素，把桌面的当前情况进行标注，把最有用的信息以文字方式传输给大模型，大模型在生成流程中拿到视觉模型对当前界面的分析结果。以上图为例，输入企微消息流程，需要找到企微的输入框，大模型首先抓取企微窗口，找到企微里所有输入框，发现当前界面有搜索、聊天两个输入框，这时会做进一步的补充，把相应标签带给视觉模型，传递给大模型。或前期标注训练过，大模型就能知道输入框的位置参数，调用输入内容组件，把目标参数输入，就能对输入框进行控制。

小的视觉模型不依赖网络环境，在 CPU 的环境里面就能跑。所以能快速有效地把窗口元素中的对象快速分析识别出来，结合视觉多模态能力，就能让数字员工动态识别当前桌面，并且一步步完成桌面软件操作。

3、不可避免的幻觉现象，我们将大模型定义为在抽象空间做创作的能力，无可避免地会因为创作习惯凑出完全不正确的答案。此问题困扰了很多。有个基于大模型的应用架构，叫做 RAG 检索增强生成，检索增强生成可以给大模型挂载标准可用的多元知识库，让大模型在生成时，不需要记忆搜出的无用消息组合成答案。大模型可根据任务指令，在标准知识库里面寻找最有用、最精准的答案，再把答案组合成最终想要的结果。实在智能预先对市面上常见软件中的场景，让垂直领域的流程大模型做预训练和学习，就可以让大模型在真实环境中去建立对软件与场景的基础认知和理解。例如，把用友、金蝶财务系统，通过人工辅助的方式训练给大模型，教它业务操作流程，当大模型掌握了这两个财务系统后，就会像财务人员一样，稍微研究一下新的系统也能快速使用。当 Agent 有了一定的流程泛化能力，当面对没有学习过的应用软件时，也能发挥出价值作用。以上是做 Agent 过程中的方向性的探索。

最终可将 Agent 作为超级运用入口，背后可挂载很多流程知识、数据知识、各行专业知识。通过对话方式及更简单的交互方式，使智能体跟业务人员实现有效的、迅捷的人机互动。未来更多能力也会在训练当中变成 Agent 挂载的知识，让 Agent 结合业务需求动态地规划并完成任务。

实际落地案例

Agent 在具体场景中的操作。首先是数据查询与下载场景，Agent 成了对话窗口，只需通过一句话把业务描述出来，大模型就能将业务拆解成若干个可执行流程，通过人员确认流程生成对与否，就可以指令大模型执行。执行过程中有个蓝色扫描过程，用了智能屏幕语义理解模型，让大模型理解当前界面的信息，把最有效、有用的元素发给大模型，让它作为操作元素对象的入参，找当前要操作的元素对象并进行执行。其中所有流程步骤，都可以用对话方式实现业务执行，效率较高。且执行完毕后，可以在知识库里构建起标准任务，第一次要交互 9 - 10 次，但再次提问时，同样的场景直接一次性地调用知识库里的组件，完成动作生成，直接执行任务。这样执行效率高、交互次数少，对后端算力的占用减少、成本较低。

Agent 在专业领域最先落地的实际应用是客服场景，传统客服没有人工来帮忙办理业务，运营商基于人力成本的考量，确实没有办法让更多的人工响应问题。那我们可把这项任务交给 Agent 数字员工，做客服知识库问答流程，以及根据知识问答结果衍生到业务系统里办理工单的场景。那么办理工单业务可全部交给 Agent 做。所有问题都可以用大模型问，问好所有信息后，就可以操作运营商的工单系统，把要解决的问题录入为一条工单，当工单系统在内部流转，处理人员收到信息后，能够为用户处理业务。同理，线上的金融业务、电商客户的订单调整，完全可以把对话及业务系统的处理交由 Agent 操作。

案例一：某大型物流公司中的典型 Agent 场景，供应链上下游的客户实际产生费用做对账结账，该场景动作简单，但需进行动态规划。当上游给过对账单后，再按照既定模板发送到下游。上下游数千家客户，表单都不一致，原本用人把一个模板转换成另一个模板发给终端用户，这个过程能不能用 RPA 来做？因为 RPA 特别适合重复工作，虽然客户多，但每个月都有对账需求，内部流程相对固定。作为服务方，无法强制要求客户用既定表单格式，就发现上下游数千家客户间的报表转换的映射关系有数万种，开发 RPA 的成本非常高，显著超出预算。当时做业务分析时，会发现这是非常适合 Agent 的场景，在做表格转换时，抽象出发现处理 Excel 的动作就几个，无非是使用这几个动作的次序、方式、输入入参的不同。

我们对 Agent 做训练，令其掌握处理表格的能力，将动作固化为 RPA 业务组件，有标准的入参和调用方式，当大模型规划任务时，只需告诉它两个表头，就可以自动规划出映射关系。先把确定要搬运的列搬过去，把空白内容通过公式填充援引过来，根据实际最终报表的分析要求，做排序筛选成若干张表。将所有动作通过语言描述出来。通过一次性的训练，能完成未来所有新增客户的数据表转换工作。而且原本需要开发工程师进行流程开发，现在业务老师将两个不同格式的模板传给大模型，它就能理解数据搬运转换。这是一个非常典型的动作简单，需要大模型动态规划的任务。

案例二：券商公司结合了训练的行业大模型。典型的客服场景，金融对服务有较高要求，例如不允许为客户推荐理财产品等特殊法律要求，再加上多服务高净值用户，所以服务要求非常严苛且人力成本非常高。实在智能把专业的金融知识以及相关规范，通过外挂知识库作为 Agent 的外挂执行标准，可实现更优质的客服对话问答，可能比人工客服回答的质量更高，因为模型掌握的知识更全面，还可以把优质回答模板沉淀为经验。训练好的模型一经上线就能达到专家水平，而传统客服，从入职到高级客服，会经历半年到一年的培训周期，所以客服这个运用专业知识解决问题的典型场景，在人的专业能力有短板时，Agent 就能发挥很大的作用。

案例三：国内某跨境美妆电商，早期国内还没出现跨境概念时，一家电商会选择在市面上所有的电商销售渠道上开店。案例中的企业有 30 多个线上渠道，需要对门店做动态数据抓取、汇总、生成 BI 分析报表。原本做 BI 工具时取数是固定的，提前会配置的取数以及目标表，每期看的表就是固定的，但根据业务的实时变化，领导对不同数据类型的关注程度也会发生变化。当把数据重构 BI 报表时，周期非常长。

若转换角度，让 Agent 掌握两件事，1、通过预训练和学习采集电商平台里的各类数据，根据即时的、个性化的需求采集平台内对应数据。2、为 Agent 灌输数据分析知识，当达到入参标准时按需生成图，就可以根据及时的数据分析要求，例如“海内外 60 多家店铺目前的成本情况”， Agent 立马通过自主的动态取数，按照需求生成分析报表，灵活快速生成即时性、个性化的分析报表，重构整个 BI 工程，成为完全实时协同的企业数据分析大脑，可随时询问企业方方面面的数据。这背后也需要管理平台对问数及取数的权限限制，这是结合平台化工具来对知识库及数据知识做权限管理。

最终实现了取数宝产品，在 AI 智能应用里可直接调用，把主流平台数据的取数方式集成到 Agent 能力中，第三方应用平台也可以调用取数能力实现及时的数据分析。

案例四：现在客服里做了非常多的对话类客服数字人，但替代效果不佳，原本基于小模型能力的智能客服，经常出现答非所问、不理解问题、不理解情绪，且部分业务还需人工办理。我们在给省级运营商公司提供服务，每年 9 月份大批量大学新生在校园内开户，但由于每个人对套餐的使用习惯不同，会选择改套餐。这个时间段集中非常多套餐变更需求，这也是需动态规划的场景，因为套餐修改的界面，会联动前一个菜单的选择。

我们发现一个套餐，选择不同的流量、话费、短信数量，背后所有的操作完全无逻辑，如果按照原来的计划性工作，把它开发成固定的流程，光套餐办理一项业务就要开发数千个流程场景。我们发现大模型可及时响应客户需求，可根据当前的页面状态交互执行任务，例如话费通话时长页面，大模型可询问客户理想时长，Agent 可按照客户需求直接操作。根据客户每一步的需求做互动执行。原本该业务需要招将近 100 多名临时人员做业务支撑，场景上线后实现 Agent 完全取代人工完成订单修改工作。