IT运维是企业信息化建设中不可或缺的一环,其作用在于确保系统稳定性、提高效率和降低成本,对企业的业务生产和服务质量有着至关重要的影响。随着企业数字化转型加速推进,以及信创转型大规模铺开,企业IT架构复杂度日益上升,直接引发了对自身运维体系的更高要求。与此同时,在政策、需求及供给端的多重因素驱动下,IT运维产业也迎来了前所未有的重大发展机遇,具体如下:多重政策影响,企业IT架构复杂度日益提升,运维体系亟待升级。近年来,多项相关行业政策陆续发布,企业数字化和信创化转型逐渐深入。尤其是在以银行为首的金融领域,在《金融科技发展规划》等指导意见下,IT架构国产替换以及数字化升级日益频繁,导致IT环境复杂度大幅提升,企业急需更高质量的运维体系满足自身使用要求。因此,借助人工智能、大数据等先进技术手段,打造智能化、自动化的运维体系成为了企业保障自身数字化转型和国产化升级改造顺利落地的必然选择。业绩增长持续承压,企业运维体系降本增效势在必行。企业市场竞争逐步加剧,传统运维体系效率低且成本高的弊端日益显著。在业绩增长持续承压的情况下,依托FinOps、CMP等核心技术手段,实现对企业IT运维资源投入情况的全面监控以及合理再分配,从而助力企业降本增效目的的达成,已经势在必行。新兴技术高速发展,企业IT运维覆盖场景进一步延伸。随着人工智能、5G、大数据及物联网等新兴技术的高速发展,企业进行运维体系的智能化升级转型拥有了更多选择,同时也能够向更多场景进行延伸。在远程运维、可观测性等多种先进技术应用加持下,企业IT运维覆盖范围得到了全面提升,同时也为后续经营体系的整体优化升级创造了可行条件。云原生逐渐普及,企业运维环境复杂度也随之上升,运维数据也呈指数级增长,传统运维方式已难以适应云原生场景。因此,面临海量、杂乱的运维数据和动态复杂的运维环境,如何进行高效、个性化运维,从而提升企业业务能力,是企业不得不思考的问题。此时,可观测性平台凭借其与云原生环境的高契合度、强大的智能化能力和上通下达的中台能力,成为企业解决上述问题的不二之选。这一背景下,爱分析经过深入调研,遴选出具备成熟解决方案和落地能力的厂商,供企业在做可观测性平台厂商选型时提供参考。在该市场下,爱分析重点选取了可观测性平台厂商爱数进行能力评估。市场定义:可观测性平台指的是,基于云原生架构打造,支持多云环境部署使用,具备多维度数据(指标、链路、日志等)统一采集存储、统一数据监测告警、多维数据关联分析及多种AIOps能力的运维平台软件。其核心作用在于,一方面,能够通过对应用请求调用链进行追踪和拓扑分析,解决在云原生环境下,业务应用端与基础设施端之间的调用链不清晰的问题,提升企业问题定位效率;另一方面,能够通过帮助企业搭建标准化的运维数据池,并结合统一可视化数据监控告警以及多种AIOps能力,在使企业运维能力全面提质增效的同时,深挖数据价值,赋能运营决策。甲方终端用户:金融、大型央国企、运营商、泛互联网等企业IT运维部门、决策部门、管理层甲方核心需求:随着企业数字化转型的全面深入,IT架构复杂度也大幅上升,为保障系统的平稳运行,大多企业基于大量基础监控工具搭建了运维体系。这一工具体系虽在一定程度上可以提升企业运维能力,但在企业IT架构逐步向云原生化转型的趋势下,其应用请求调用链不清晰、运维数据割裂、智能化水平较低以及缺乏数据分析洞察能力等弊端逐渐显露。因此,可观测性平台凭借能够帮助企业对全量运维数据进行归集、监控及分析等核心能力,逐渐成为企业提升整体运维能力的有效手段之一。具体而言,企业对于可观测性平台核心需求主要集中在以下几方面:图2:甲方企业对可观测性平台需求示意图
- 需要能够对全量数据进行统一采集、治理和存储。企业IT架构较为复杂,各层级IT设施所产生的运维数据类型也有着较大差异,如日志数据、指标数据、链路数据等。然而,传统运维监控体系普遍缺乏完善的统一数据采集、治理和存储能力,导致不同类型运维数据间割裂现象严重,数据价值难以有效发挥,对于运维效率的提升也形成了较大阻碍。同时,传统数据采集工具,如APM等,底层资源消耗较大,并且容易对业务运行产生影响。因此,是否具备完善的数据采集、治理和存储能力,是当前企业对于可观测性平台的核心关注点。
- 需要具备统一的可视化监控告警能力。随着企业IT系统复杂度进一步上升,为保障系统的整体平稳运行,大多企业会选择部署不同的监控工具,有针对性的对服务器、网络、云基础设施、核心业务系统等进行运维监控和告警。但由于各监控工具相互独立,企业无法进行统一监测和告警,整体使用效果大打折扣。因此,是否具备统一的可视化监测和告警能力,也是企业对于可观测性平台的重要需求之一。
- 需要具备精准的异常定位能力。云原生体系下,分布式和微服务架构使得企业IT架构复杂度上升,企业IT运维异常问题定位能力受影响较大。底层资源的容器化,使得上层应用与基础设施间的调用链变得不清晰,进而严重影响了运维体系的排障效率。因此,具备精准的异常定位能力,也成为了企业对于可观测性平台的核心要求之一。
- 需要能支持在不同的云环境下使用。经过长年数字化转型积累,大型企业普遍建立了私有云、公有云、混合云等多种基础云平台。同时,信创政策下,部分企业已开始了信创云的搭建。因此,能够支持在不同云环境中使用,也是企业对于可观测性平台的一大核心需求。
除此之外,部分企业对于可观测性平台还具备以下期望需求:- 需要具备完善智能化运维功能。企业传统的运维体系,大多依靠人工进行包含告警分析、根因分析、故障修复等运维工作。随着业务系统数量的不断增加,这一方法太过依赖运维人员经验的局限性也愈加明显,导致运维效率难以有效提升,同时运维成本也持续处于较高水平。因此,建立更加智能化的运维工具体系,提升整体运维效率是目前企业的主要关注点。
- 需要能够兼容和纳管原有监控体系。部分企业经过多年的发展,已经部署了多种监控工具,包括APM、NPM等,整体监控体系运行较为稳定,且已经投入了较多成本。因此,此类企业在部署可观测平台时,会要求平台能够兼容和纳管原有监控工具体系。
- 需要具备优质的海量数据实时处理能力。对于部分数字化水平领先的企业来说,云原生应用场景已经覆盖较广,导致所产生的指标、日志、链路、流量等运维数据可达几十万,甚至上百万级别。因此,此类企业更加关注可观测性平台是否具备海量数据实时处理和存储能力。
厂商能力要求:基于上述甲方核心需求,可观测性平台厂商需满足以下核心能力要求:- 在数据的统一采集、治理和存储方面。厂商所提供产品需要能够对服务器、网络、数据库、上层应用等全栈IT架构所产生的链路、日志、指标、流量等数据进行低功耗、零侵扰、统一的自动实时采集。同时,还需能够对所采集数据进行统一的治理和存储,帮助企业搭建标准化的运维数据资源池,为后续监控告警以及多维度数据分析应用提供充足支撑,助力整体运维效率的提升。
- 在统一的可视化监控告警能力方面。首先,厂商所提供可观测性平台产品需能够对标准化的运维数据资源池进行统一的实时监控,并具备可视化看板功能,可以实时展现各IT设施的运行状态。使企业无需再部署多个监控工具,显著降低资源消耗和成本;其次,当IT设施发生异常后,该平台能够实时产生告警信息,并自动将告警信息发送给企业运维人员,帮助企业实现异常问题及时发现和快速处置,进而有效保障业务连续性。
- 在异常问题的精准定位方面。厂商所提供产品需具备全链路追踪、空间地图定位等多种核心能力。该平台能够通过对应用请求调用链的追踪和拓扑分析,帮助企业用户有效解决在云原生环境下,业务应用端与基础设施端之间调用链不清晰的问题,从而实现问题的精准定位,赋能后续运维工作的快速开展。
- 在支持不同云环境下使用方面。厂商所提供产品需要能够支持在企业原有私有云、公有云及混合云等不同类型云平台上使用,企业无需进行额外的架构改造或大量定制化开发,即可快速产生业务收益,并保障系统的平稳运行;同时,还需能够完全兼容基于国产基础设施所搭建的信创云平台,满足国产云平台对于可观测性的能力要求,助力企业用户在国产替换浪潮大规模推进下,建立全面自主可控的IT架构。
针对部分甲方企业的期望需求,厂商还需具备以下可选能力:- 在完善的智能运维功能方面。厂商所提供可观测性平台,需具备包括告警分析、根因分析、趋势预测以及自动化故障处置等在内的多种智能运维功能。企业用户通过部署应用该平台,能够通过对运维数据进行多个维度的实时分析,帮助企业快速找出异常问题产生的根本原因,并结合自动化故障处置能力,降低人工干预的成本。同时,能够建立起从故障发现、故障告警、故障分析、到故障处置的全流程自动化和智能化的运维体系,进而实现运维效率的大幅提升。
- 在对企业原有监控体系兼容纳管方面。厂商所提供可观测性平台需具备丰富的API接口和统一的管理能力,一方面,能够支持企业原有监控工具的快速接入,帮助企业进一步发挥原有监控工具的能力和价值;另一方面,还需能够支持与第三方智能运维平台兼容使用,帮助企业进一步增强和巩固自身运维能力。
- 在海量数据实时处理方面。针对部分数字化水平领先的甲方企业进阶需求,厂商所提供产品需具备高性能的海量数据实时处理能力,从技术架构和性能上符合海量数据处理使用需求,并能够针对企业用户所产生数十万和数百万级别的运维数据进行全量采集、治理、存储和分析,有效保障云原生大规模应用下的企业系统稳定性。
入选标准说明:
2. 2022年Q1至2023年Q1可观测性平台付费客户数量≥5个;3. 2022年Q1至2023年Q1可观测性平台合同收入≥2000万元。厂商介绍:上海爱数信息技术股份有限公司(简称“爱数”)成立于2006年,是领先的全域数据能力服务商。旗下以AnyBackup、AnyShare、AnyRobot、AnyDATA、AnyFarbic等产品全面覆盖结构化数据、非结构化数据、机器数据、知识图谱数据等全域数据,为客户提供整合、治理、洞察与保护的全域数据能力,助力实现数据驱动型组织。依托自身强大的大数据基础设施,爱数已服务超40个国家、地区的27000+客户。
产品服务介绍:AnyRobot Eyes 5是爱数面向云原生时代企业IT运维、业务运营、开发测试、安全合规等场景需求所推出的可观测性平台。该平台基于机器数据湖、数据虚拟化等核心技术所打造,具备从多维机器数据统一采集、治理、到汇总管理的完善数据基础底座能力,能够帮助企业整合机器数据孤岛,进一步发挥运维数据效能。同时,依托该平台所具备的多种实时分析、机器学习、低代码等智能化技术积累,能够帮助企业通过采集并关联多种机器数据,高效实现微服务调用链路分析、云原生应用性能分析、系统故障根因定位、应用度量分析、合规性审计等场景,全面提升云原生应用的可维护性、可靠性、可运营性。为用户提供日志合规可观测性、灾备可观测性、AnyShare可观测性、云基础设施可观测性、云原生应用可观测性和核心业务可观测性场景,帮助用户加速业务交付、降低运营成本、提升用户体验、实现高效排障,提升数字化效能。厂商评估: 综合来看,AnyRobot Eyes 5可观测性平台在智能化技术积累、数据虚拟化技术、数据基础底座、场景化能力以及解决方案能力五方面具备显著优势:- 深厚的智能化技术积累,为企业搭建端到端闭环运维体系提供助力。爱数专注于人工智能领域研发积累多年,其AnyRobot Eyes 5具备行业领先的实时分析、机器学习等智能化技术能力。基于其完善的智能化技术底座,AnyRobot Eyes 5可为企业在监控告警阶段,提供智能降噪、智能告警分析、实时告警通知等多种智能化功能,帮助企业实现告警信息的完全自动化处置,全面提升运维响应效率。同时,在故障分析阶段,该平台还具备多维数据关联分析、确定性根因分析、趋势预测分析等多维数据分析能力,能够自动化建立数据关联关系,并支持通过告警信息直接跳转到服务的调用链以及对应的日志。企业通过使用该平台,能够将服务调用关系、服务的异常抛错信息、以及前后的业务操作逻辑等关键信息“白盒化“展示,从而大幅提升在复杂IT环境中异常问题定位和根因分析能力,快速搭建起从问题衡量、问题预防、问题发现、问题定位到问题解决的端到端闭环智能化运维体系,真正实现运维能力的提质增效。
图3:某海关AnyRobot Eyes 5使用效果示意图
例如,在某海关项目中,针对该海关由于金关工程一二期建设,所导致的运维数据量大规模上升以及IT架构复杂度越来越高,从而引发IT运维效率低的问题。通过爱数AnyRobot Eyes 5可观测性平台的整体部署应用,基于该平台所具备的创新全息观测架构,以及智能告警分析、根因定位分析、趋势预测分析等多维数据分析功能,帮助该海关构建起了面向应用、平台、基础设施、用户体验的全栈式一体化观测和智能运维体系,实现了整体运维效率和服务水平的显著提升。- 先进的数据虚拟化技术,进一步提升企业数据资源利用效能。AnyRobot Eyes 5具备先进的数据虚拟化技术,一方面,可根据用户需求决定是否集中存储全量数据,支持在多云环境中,将采集的日志、监控指标和链路等数据直接就地存储,并通过数据连接在需要时读取和计算相应数据。通过该平台的应用,企业无需将数据进行统一汇聚和存储,即可实现多云数据联合搜索及分析,有效避免数据搬迁,并进一步节省了数据存储成本。另一方面,基于数据虚拟化技术,企业还可将一份原始数据虚拟为多份逻辑数据集,实现不同角色、不同权限用户的数据视图隔离,有效满足各业务部门个性化的数据访问需求,并更好的保障业务合规性。
- 完善的数据基础底座,全面优化从数据采集到管理的全流程体系。首先,在数据采集方面,AnyRobot Eyes 5具备爱数独特的SuperAgent技术,可以实现采集任务统一管理,采集过程安全可靠,采集状态实时监控。实现指标、链路、日志、元数据等分散在不同IT设施内的多维机器数据进行统一采集和汇总,有效避免了传统运维体系下,需要多次调用Zabbix等单点工具进行重复数据采集和汇总工作所导致的底层资源消耗过大的问题。
图4:爱数AnyRobot Eyes 5数据底座能力示意图
其次,在数据清洗和治理方面,AnyRobot Eyes 5内置了十几种解析规则和上百种的解析模板,可以将全栈IT设施产生的海量不同类型机器数据进行统一标准化清洗和治理,为后续运维数据的统一存储和管理奠定基础。同时,结合其完善的数据脱敏技术,能够将身份证号、银行卡号、手机号等个人、企业隐私数据在数据清洗和治理过程中进行实时脱敏处理,进一步保障业务流程的合规性。最后,在数据存储和管理方面,依托AnyRobot Eyes 5所具备的先进机器数据湖创新架构,以及日志留存合规管理、热温冷分层管理等核心能力,使企业能够在满足《网络安全法》日志留存要求的前提下,将不同运维数据按照使用频率进行分层储存,并将使用频率不高的数据转存到NAS中,最高节省80%的数据存储空间,有效提升了关键数据搜索查询效率的同时,大幅降低海量数据存储成本。此外,AnyRobot Eyes 5还支持通过标准的协议和接口,把告警事件、原始数据和分析后的数据,跟第三方平台进行对接,例如把告警信息推送给统一事件中心,把分析后数据推送给企业运营中心。既能减少重复建设,又可以让数据价值流动起来。图5:某城商行AnyRobot Eyes 5使用效果示意图
例如,在某城商行项目中,通过AnyRobot Eyes 5的整体部署应用,依托于该平台所具备的海量数据统一采集汇聚、数据分层存储等核心功能,帮助该行建立了标准化的运维数据资源池,并为后续多维数据关联分析应用提供了坚实的数据基础底座。同时,结合数据关联分析、根因定位分析、故障自愈等多维故障分析和处置能力。帮助该行构建起了信创云环境下,高效、安全、合规的日志管理与运维数据关联分析体系,实现了真正的“云下采集汇聚,云上查询监控”的显著效果。有效解决了该行传统运维模式下,海量日志数据无法合规保存、应用和设备运行风险难以及时发现等问题。自工具部署以来,该行运维效率得到全面提升的同时,数据存储成本节省了30%以上,业务排障效率提高80%。- 行业领先的场景化能力,赋能企业业务体系实现全面提质增效。区别于普通可观测性平台只关注于运维场景下的使用效果,AnyRobot Eyes 5致力于为研发、运维、业务、运营、安全等更丰富场景带来价值。借助其内置的先进低代码技术,企业各业务部门可以根据需要对观测场景的业务流程进行编排,并采用可视化方式构建分析流程和数据处理管道,从而生成可复用的观测模型及场景化模板。同时,结合业务全景图、仪表盘等多种可视化手段,帮助企业构建容量预测、成本分析、KPI分析等多维度业务分析应用,赋能全业务流场景可观测效果的达成。
- 丰富的行业解决方案,加速企业IT运维体系重塑升级进程。作为大数据领域的领先厂商,爱数对于现阶段企业数据应用方面的核心需求与痛点有着充足的认知。除能为企业提供单一的AnyRobot Eyes 5外,还能联合旗下AnyBackup、AnyShare等产品为企业输出完整的联合解决方案。例如,灾备可观测性方案,通过RTO/RPO分析、备份窗口合理性评估、灾备状态定期巡检和多灾备品牌统一监控,帮助用户增强灾难恢复能力,提高灾备系统的可运维性。AnyShare 可观测性方案,提供运营、安全和运维分析,帮助企业释放数据资产价值,及时响应数据安全风险,并能快速定位系统故障。从全流程的角度对企业数据应用体系进行重塑,助力数据价值的深挖。爱数政务云体系化数据灾备与可观测性解决方案,联合AnyRobot Eyes5和AnyBackup所打造。该方案基于AnyBackup所具备的灾难恢复演练、应用级灾备、快速恢复等核心功能,以及AnyRobot Eyes 5的多种可观测性和智能运维能力,能够帮助政府机构建立起涵盖事前预防、事中应急、事后溯源的完善运维体系,进而对业务连续性的有效保障提供支撑。
典型客户:
兰州银行、上海大数据中心、北京大学、金龙客车、镜湖医院等