从数据资产到模型资产,大模型的发展,正在加速企业构建AI中台,旨在让更多 AI 的能力能够被构建出来、能够被管理起来、能够面向业务开放起来,打通从数据到模型到最后决策的全链路。
本文将从为什么建AI中台、如何建AI中台、企业AI中台建设案例三个方面进行展开分享。分享嘉宾|殷自强 和鲸科技联合创始人,执行总裁兼首席产品官内容已做精简,如需获取专家完整版视频实录和课件,请扫码领取。
01
数据变成企业资产是大家的共识,但现在我们发现模型已经成为影响企业竞争力的一个重要资产。越来越多的企业需要面临很多的复杂决策,这些决策不是拍脑袋做的,需要依赖一些决策模型,所以这些模型会越发重要,成为企业当中的一个重要资产。以前的模型相对较简单,可能通过一些回归或者简单的方法,就能够做出来。但现在随着 AI 的发展,模型的复杂度在逐渐递增,且更新的速度也很快,所以如何针对业务,更好地管理模型,将会是企业的核心竞争力。除此之外,如果单独有模型,不能构成最终的价值闭环,最终都要服务于业务。在与一些企业交流时,发现 AI 模型在实际业务当中,其实是“神秘的黑盒”。许多算法团队,经常是“拿着锤子找钉子”,并不知道模型在业务当中会有什么用。站在业务的视角,大家会经历心理学上的一个名词,“从愚昧山峰”到“绝望之谷”。因为大家对于 AI 是充满幻想的,认为有了 AI 就可以解决任何问题,对于 AI 有很高的预期。但直接跟算法团队交流的时候,可能会遇到很多的问题,比如业务问题对应了哪些历史业务数据,哪些业务数据是清洗标注过代表增长的,这时会感觉, AI 好像花瓶一样,需要人工才有对应的智能,听到这样的评价,就会陷入到绝望之谷。不论在算法团队,还是在业务团队,如果很难形成协同上的认知,就不能形成相应的共识,也没有办法在真正意义上,将 AI 落地到一些比较重要的业务场景当中。从另外一个视角,有一些企业 AI 的模型跑起来了,但这样的模型更多是由算法驱动或者技术驱动做的,经常会遇到一个问题:业务定个新的 KPI,模型可能就会失效。比如一开始是针对现在的业务受众做的,但在新的季度,某个业务需要换一些受众画像与方向,就会发现之前的预测模型完全失效了。大家的目标没有在前期拉齐,这个面向未来的模型,就没有办法给大家带来对应的泛化性结果。如果没有建立起一个能连接各个团队的 AI 中台,就会带来这样的问题。在大模型的发展过程中,如何看待大模型和 AI 中台的关系?许多企业不应该去考虑如何训练大模型,而是如何去利用大模型。随着大模型的发展,尤其像AI agent 相关技术的提出,用好大模型需要考虑企业有多少的 know how未来可以更好的模型化、工具化被大模型调用,这些才是企业真正的经验与知识。所以说现在用 AI 中台可以更好地整合内部已有的模型,把一些好的决策,好的方法模型化、工具化之后,随着AI大面积发展,整个企业可以更好地智能化运行。什么是AI中台?初期AI中台主要专注模型的全生命周期管理,受众更多是面向算法团队。上图是基于 ModelOps 的一条流程,它所定义的是从模型开发到部署的全生命周期管理。现在 AI 算法从 1.0 - 2.0 方向发展,AI 中台本身也一样,不是单纯管理一个开发流程,能够发挥多少 AI 中台的能力,决定于有多少业务团队能够使用AI。所以建立整个 AI 中台的目标,在于有多少 AI 的能力能够被构建出来、能够被管理起来、能够面向业务开放起来,打通从数据到模型到最后决策的全链路。
当前在讨论 AI 中台的时候,更多的是关注业务如何去使用的视角,那如何去建?会遇到哪些问题?因为企业内部决策链路复杂,算法团队、数据团队、IT团队、业务团队的视角不同,要去平衡的是企业内部最核心的各个团队当中的声音。我们需要让 AI 发挥作用,就要去思考还有哪些模型需要去被管理起来?它的受众有哪一些?企业未来有多少人能够去用它?如何评估平台的ROI?首先建 AI 中台其实是一把手工程,作为企业一号位的人员,需要与高管团队讨论,如何建立围绕数据跟模型的企业竞争力。当只有这样的事情在企业内部去确认的时候,这家公司的 AI 中台才有可能建立得起来,因为AI 中台会变成公司的战略、公司的文化、公司竞争力去构建,各个团队才有可能去思考 AI 跟业务的关系。这是我们发现很重要的一个前提,需要把它当做一把手工程去建立。在建 AI 中台的时候,作为一家企业,哪些模型资产需要被考虑?我们将其中模型分成三大类,第一大类认为它可能不是 AI 模型,而是公司非常重要的、数据驱动的核心业务模型,因为这些模型是能够拉动所有业务的毛细血管。这样的模型盘点一般是由业务团队牵头,考虑模型如何被管理跟调用起来。第二类传统意义上的 AI 模型,更多是一些预测类模型或者分类模型,这种模型逐步变得复杂,业务人员没有办法去构建,需要算法团队专人负责,所以从算法团队的视角,需要考虑管理哪些传统AI预测类模型。第三类大模型,对于这类模型,需要从不断去学习和利用的视角去管理,哪些大模型未来可以怎么去使用。对企业的模型进行相关盘点之后,才能知道 AI 中台该去管理哪些模型。接着应该梳理工作流,首先把人群分画像,对于业务人员平时会怎么去用数据?算法团队怎么去构建模型?构建出来之后跟基础设施、业务团队要怎么去交互?过程中哪些用户、工作环节需要被利用到?还要考虑有对应的能力提升平台,帮助能力不足的员工不断成长。这些都是需要在内部做核心路径的梳理。经历完前面的介绍,会发现这是一个非常庞大的架构,并且对于企业是很重要的事情。如果想要快速把事情做成,是很困难的。最好的做 AI 中台的方式,就是基于敏捷做构建。其中最重要的点就是设计 MVP 的场景,半自动地跑通基于 AI 中台的价值闭环。在场景设计中,首先考虑的是“M-Minimum”最小化,尽量减少与一些历史技术栈或复杂业务耦合,侧重快速跑通它本身的能力,为内部建立信心,后面再考虑调整数据端的基础设施,找到最小化的场景。最后考虑关于 “V-Vlable” 价值点,它需要足够典型,这件事情跑通之后能够给其他人展现出的价值是什么?开始去建 AI 中台的时候,要去找MVP,给内部有信心去推广平台。跑通 MVP 之后,并非代表 AI 中台就建成了,后面需要去推广整个平台在整个企业当中的利用。在平台推广过程当中的决定性因素是人,有多少人愿意去接受新事物。
有个很好的概念——“公民数据科学家”,定义为能够使用高级方法去解决实际业务的人。最后我们会发现 AI 中台能够创造多少的价值,取决于企业当中有多少“公民数据科学家”,有多少在业务中懂得 AI具体用处,能够参与到模型流程当中的人。所以应该把平台的建设跟人才的培养相结合,才是整个平台最终能够达到多元的重要因素。
基于挑战任务的实践是企业 AI 应用人才培养的有效途径,将企业中遇到的某些重要的问题,判断它通过 AI 可能会解决,将问题抛出来,希望企业中的人能够一起参与进来,比如用 Python 或者简单模型去建立,这时大家会有更好的驱动力去学习。把这些问题解决时,大家的参与感是非常强的,因为是基于真实问题、真实场景,能够感受到在掌握某个知识的之后,是可以起到真实价值的。
企业在推进这件事情的过程中,很自然就将 AI 中台推广出去了,因为大家处理相关任务时,就会利用在 AI 中台上所集成的某些数据、某部分模型的能力作为脚手架接着往下走。所以我们发现这是在内部做人才培养非常好的方式方法。
他们医学的业务某种程度上是传统的治病救人,医院之前也积累了对应的医疗数据,人工智能对他们来说是新的方法新的能力。如何去构建这样的能力?首先医院内部数据很多,并且在前期做了很多的探索,分析数据的过程中慢慢发现有许多的问题。第一点,医院相关分析人员需要在了解医学的基础上,还能够了解 AI 模型的相关方法,对应人才的内部培养周期很长,所以当一个人掌握了相关信息之后,另外一个人想要参与进来进行相关课题的合作的时候,又得重新开始做数据采集、环境搭建,重复从 0 到 1 的去做很多的事情,所以效率很低。第二点,讨论模型最后能产生多大价值的时候,其实都是需要看临床医生能不能提出好的问题,能不能应用到一些好的临床研究当中。临床医生作为业务人员,早期很难参与进来,所以他们希望有一个平台,能够看到已经有哪些模型哪些方法应用在哪些相关项目的哪些流程,这样这批人才能够在自己的研究中更深入地参与到模型的构建。第三点,医院作为一个组织,自身很难能够完成所有模型构建的相关工作,希望利用合作伙伴,包括合作高校、其他的合作医院、药企一起在一个平台当中去贡献、去优化相关的模型。所以根据上述视角,他们便有了建设AI 中台的必要性。首先他们成立了医学人工智能研究中心,在有对应中心的情况下,就有对应的组织实体进行自上而下地推进,先解决平台应该谁来建的问题。其次在医疗中有很多的场景,需要考虑在哪些场景先做尝试,所以在内部盘点了不同的应用场景后,找到并明确的 MVP场景叫做可穿戴设备分析引擎。选择这个场景的原因是相关积累较为成熟,遇到的问题也更加典型,就可以更快梳理出架构,而且可穿戴设备的非结构化数据更需要采用高级方法做数据挖掘,没有办法通过人工或简单工具做数据洞察。然后进行场景的“引擎化”设计,引擎化的目标是将可穿戴设备分析中的不同流程承接到平台之后,未来产生新的问题或新的方法都应该只是引擎的一部分,不需要进行重复劳作,所以形成了一个明确定位。第一步,客户花了很多时间做整个流程具象化,包括会分成几个流程,每个流程有相关点,在这些点里面可能会用到什么样的模型,将对应的模型盘点跟分类,找出复用度最高可以完全标准化的环节。第二步,盘点哪些模型需要业务人员参与进行微调,比如需要临床医生再判断选择哪些参数,把它当做一种高通用型模型。第三步,通过模板化,进行沉淀,重新对模型进行分门别类。右图就是在实际的研究当中,利用之前梳理出来的模块,在新的研究中就可以非常快速的开展,只需要调整里面某些特定参数或简单增加几个步骤,就可以完成一次新的分析,这就是通过引擎化设计所带来的效果。平台建设也会遇到不同的挑战,最大的挑战会是,在一个场景验证成功后,如何让别人知道AI 平台怎么用?怎么让其他的临床医生也愿意参与这样一个全新的东西?这时内部要去设计相关事情,我们一起把整个 AI 中台的推广分成“起承转合”四个环节,MVP只是一开始的工作,叫做“起”,是让工作上平台,打通人跟数据、环境的问题。若想让它发挥效应的话叫“承“,承载出之前已有的一些协作,将第一个环节所产生的结果、之前的协作流程、相关的协同人员再引入进来,会变成第二批的参与受众,这时就把以前课题组内的研究变成一个跨部门的研究,很容易形成跨部门的效果。第三块才能够往上”转“,这时形成对应的管理流程,很容易让决策人更好地感知到一些点,而且由于跑通了一些跨部门实践,这时在其他业务、其他的应用场景当中,希望用已经跑通的实践去完成,可以用一些管理的方法。最后再把对应的成果,比较好的整合呈现,这是他们在思考的一个路径。除此之外,他们希望能够在内部培养更多可以使用 AI 中台的人。在做关于人才盘点时,把内部做 AI 人才划分,具体有关键人才——掌握AI方法的人、高潜力人才——有办法在业务当中参与模型设计的人、数字化用户——最后享受相关场景的一些人,做对应的划分,再根据不同的研究方向、不同的应用场景,进行领域场景的分类。开展内部基于挑战性问题的训练营设计,将内部人才的培养与整个平台的建设合在一起去完成。现在从内部设备分析引擎,上升到整个真实世界数据研究,形成医疗体系的研究范式跟方法。以上就是本次的分享内容,如获取专家完整版视频实录和课件可扫码领取。⩓
现任公司执行总裁兼首席产品官,统筹公司产品战略规划与市场策略设计,专注于 AI 中台产品与企业级协同流程的持续性产品创新,领导了多个行业头部客户的 AI 工程化项目落地,对人工智能在企业数字化转型的应用场景有独到的见解与丰富的经验积累。注:点击左下角“阅读原文”,领取专家完整版视频实录和分享课件。