在银行数字化转型进入深水区的当下,保障业务的连续稳定运营,并在出现异常时,确保快速定位根因,及时恢复业务运行,降低损失是IT运维业务的重点目标。但是随着新技术、新业务的不断涌现,银行运维系统繁多,运维数据量大且结构复杂,运维数据烟囱效应明显,导致出现问题后,根因定位缓慢,业务稳定性难以保证。在此背景下,为了实现高可用性,运维数据平台化治理已经成为当务之急。华夏银行截至2023年6月,已经实现了资产规模超过4万亿元的目标,在数字化转型方面,华夏银行紧扣“一流智慧生态银行”的转型目标。2023年从七大重点工程扩容至十大工程,共涉及123项重点任务。神盾工程作为七大重点工程之一,以强化智慧运行与安全管理项目群作为目标,提高安全运营能力。在此期间,华夏银行与擎创科技分别作为甲乙方牵头单位,共同推动《金融机构信息系统运维数据治理能力成熟度评估规范》的制订工作,并以华夏银行信息系统为样本,对银行运维数据的治理方法和平台搭建技术等开展了合作研究。在此背景下,擎创科技搭建了运维数据治理平台,依托智能大数据处理和分析能力,通过建立数据治理体系、建设数据治理平台、提供数据应用价值,从而提供更有效、更高效的数据管理手段和治理方法。运维数据管理:运维数据管理不规范,运维数据无生命周期管理标准,存储取用对数据安全造成影响。现状:现阶段银行对于运维数据没有统一的管理规范,各部门数据使用权限定义模糊,数据生命周期管理混乱。问题:缺乏统一的运维数据管理规范,导致在数据取用后,存储位置、存储时间、何时删除、何时归总以及数据被用于何处等方面都没有明确的定义。同时,运维类数据中某些信息对于安全管理具有高度敏感性,例如日志类数据可能包含大量敏感信息。运维数据生命周期管理混乱对安全性提出了极大挑战。运维数据标准:运维数据标准不统一,数据取用链条长且沟通消耗时间长,导致取用效率低。现状:运维数据的含义属性、业务规则等标准不统一,数据取用时沟通成本高,重复性治理工作较多。问题:由于缺乏统一的运维数据标准,在获取相关数据时,很难明确描述数据的具体内容,数据口径无法统一。这导致了大量的人员沟通、协调以及开发工作,从而使得整个流程变得缓慢且繁琐。数据资产状况:银行业务系统庞杂,运维数据孤岛效应明显,运维数据资产状况模糊。现状:随着银行业务系统日趋复杂,节点调用链关系也随之变得复杂,网状的关联结构带来了大量的复杂数据。同时,随着银行系统全面上云,分布式云计算,云原生架构逐步开始应用,银行内新老运维产品并行使用,且云上、云下架构并行,致使运维系统复杂程度逐渐上升,运维工作的历史包袱严重影响运维效率。问题:在银行硬件设施及软件系统不断增加、升级的背景下,随着运维数据量不断攀升、数据种类日趋多样化以及数据变更愈发频繁,加之现阶段各运维产品数据需要独立处理,且数据之间未建立有效链接。致使数据孤岛效应明显,运维数据的基础质量不清晰,分布状况不明确,关联影响模糊,大幅增加了运维工作的复杂性。为解决上述痛点,各银行急需从根源,转变运维数据的管理与使用模式,从被动的运维数据取用模式,向主动且规范的运维数据管理方式演进,最终实现高效的智能运维分析。运维数据管理与标准:为了统一运维数据的管理与应用,首先需要与运维数据相关方共同制定数据治理体系,满足数据取用需求。对于数据平台项目,首要任务并非直接处理数据,而是先建立健全的数据治理体系,包括数据管理规范与数据治理标准。只有在基础工作完成后,才能持续推进数据平台建设工作。在此过程中,首先,需确保涉及的相关人员明确目标,统一需求。在组织层面,应优先建立数据管理组织与制度,成立专门的管理组织,明确其管理职责和范围,并制定数据管理规范与数据治理标准。随后,通过明确的数据治理过程规范,实现数据质量、数据安全、数据生命周期、数据服务的管理能力。通过统一数据标准化规范,实现数据标准的对齐,包括标准指标体系,元、主数据模型、数据标签体系等。最终保证数据取用过程标准化,满足各方数据取用需求。数据资产状况:为了实现运维数据资产的全面盘点,银行需要从数据源头出发,建立完整的指标体系将运维数据进行关联。数据资产盘点需要从数据采集源头入手,通过统一采控底座实现数据的统一纳管,打破数据孤岛,拉通运维全域数据。原先,各个业务的运维数据源由各自分别维护,采集完成度无法监控,采集指标参差不齐。例如哪些设备需要监控哪些指标这类常规问题,无法给出全面标准的答案。为了打造运维数据平台基座,银行需要通过标准化指标体系,将指标采集完成程度,指标相关描述,指标采集粒度,指标阈值设定等进行标准化设定,从源头保证运维数据采集完成,且采集数据质量高度可用。在此过程中,加入指标映射,统一建立数据对象,将运维数据进行关联,并将原来的300多个指标优化至100个。实现运维数据资产盘点,为运维数据取用奠定可靠基座。标准指标体系按照数据分类、指标分类分层划分如下图所示。在华夏银行与擎创科技的合作案例中,整体项目落地实施分为四大阶段,战略规划阶段、治用并举阶段、场景丰富阶段、智能创新阶段。首先,在战略规划阶段,通过与运维领导层,一线员工的深度沟通,输出统一的数据治理体系。明确数据管理方,生产方,消费方,保证在数据管理规范与数据治理标准达成一致。由于运维数据涉及取用方横跨价值链,为捋清各方应用要求,保证数据治理体系高度可用,擎创科技用了3个月的时间进行需求梳理。从运维数据管理方出发,明确数据权限控制与数据取用各方角色,随后与数据生产方、消费方进行多方访谈,明确数据生命周期管理需求(包括生产,存储,解析,消费,销毁等)、数据等级、数据口径标准、存储周期等细节。最初版本输出了近20万字的数据治理体系。最后经过多方调研,精简至几万字。其次,在治用并举阶段,以点破面,从结构化数据入手,首先形成示范效应,再通过治用并举,拓展场景。在华夏银行案例中,擎创科技通过运维数据应用场景调研,最终决定以人行运维数据上报这一紧急应用场景做为抓手,推进落地。在这一场景中,大量运维数据需要在90秒内进行上传。当时银行在此面临两大问题,首先,数据源多、业务逻辑和处理流程复杂,导致海量数据处理过程复杂,处理效率较低。其次,算力不足导致上传无法满足时延要求。在此背景下,为保证项目示范效果,需要先将数据治理一体化平台结构搭建起来,满足人行数据上报时间窗口标准,在组织内部做出效果。随后,进行治用并举,即保证已治理场景稳定应用的同时,从业务数据,性能数据入手,逐渐加入新的数据应用场景,快速提供较为典型的,或者紧急应用的场景,如交易量数据,成功率,响应时间,与银联或支付宝等平台结算等应用场景。未来,运维数据平台将在丰富场景的同时,引入算法,实现智能运维。通过逐步接入半结构化数据以及非结构化数据,运维数据平台将进一步丰富应用场景。如接入流程管理数据、告警平台数据、自动化执行数据等。同时,进行智能化探索,引入人工智能进行运维数据分析,比如进行数据自动打标,分辨数据表征,如周期性、峰值等。在疫情期间,该项目用时近一年完成,目前仍在下一阶段建设中。现阶段,数据标准化中心实现了标准元数据、主数据、数据源、指标体系等核心标准化能力。其中指标体系从原来的300个缩减至100个,剔除了大量类似、冗余的指标,数据的标准化大幅提高了数据开发效率。同时,该平台的数据处理中台具备高效编排复杂解析任务的处理能力,将数据服务开发流程从天级缩短至小时级。处理能力特性包括:流批一体、在线任务编排、在线任务调试、可视化管道任务编排等。在数据应用方面,为方便一线运维人员的数据取用,增加使用效率,数据应用中心提供了大量开箱可用的数据处理算子,实现了数据服务场景的管理,数据服务场景整体上可以归纳为数据治理、运维分析、运维决策三类场景。提供了灵活且自助式的应用场景定制能力。
在落地过程中,擎创科技总结了该运维数据平台的关键成功要素。即从数据治理制度规范入手,以统一数据标准为基石,结合客户需求,以点破面,形成示范效应,最后横向拓展场景,纵向深挖智能运维能力,实现智能运维。
第一,制度先行:运维数据治理成功的前提是要有管理规范,使运维数据在采集,储存,分析,管理,应用过程中有规则可依。将治理的理念贯穿于整个平台和数据的全生命周期中,形成一套完整的管理规范。第二,标准统一:数据标准统一是治理成功的基础。数据对象和指标的标准化将直接影响最终的数据应用、数据洞察效果。数据标准不统一的运维数据平台,不仅无法达到降本增效的目标,还会影响智能运维平台的最终效果,影响系统平稳运营。第三,以点破面:实施阶段,需要结合客户需求,以紧急且重要的使用场景为突破点,首先搭建运维数据平台框架,推广使用效果,让相关方了解使用效果,为后续配合工作搭建基础。第四,治用并举:运维数据平台的落地过程中,需要治用并举。即按照场景优先级加入运维数据平台,新场景开发与已开发场景使用并行。在试点场景落地后,根据数据的重要程度、应用频率及数据价值的高低,对运维数据应用场景的重要性以及紧急性进行排序。按照场景优先等级进行逐个落地推广。