01
研究范围定义
云原生逐渐普及,企业运维环境复杂度也随之上升,运维数据也呈指数级增长,传统运维方式已难以适应云原生场景。因此,面临海量、杂乱的运维数据和动态复杂的运维环境,如何进行高效、个性化运维,从而提升企业业务能力,是企业不得不思考的问题。此时,可观测性平台凭借其与云原生环境的高契合度、强大的智能化能力和上通下达的中台能力,成为企业解决上述问题的不二之选。
这一背景下,通过深入调研,爱分析遴选出具备成熟解决方案和落地能力的厂商,供企业在做可观测性平台厂商选型时提供参考。同时,在该市场下,爱分析重点选取了可观测性平台厂商乘云数字进行能力评估。
02
可观测性平台市场分析
市场定义:
甲方核心需求:
随着企业数字化转型的全面深入,IT架构复杂度也大幅上升,为保障系统的平稳运行,大多企业基于大量基础监控工具搭建了运维体系。这一工具体系虽在一定程度上可以提升企业运维能力,但在企业IT架构逐步向云原生化转型的趋势下,其应用请求调用链不清晰、运维数据割裂、智能化水平较低以及缺乏数据分析洞察能力等弊端逐渐显露。因此,可观测性平台凭借能够帮助企业对全量运维数据进行归集、监控及分析等核心能力,逐渐成为企业提升整体运维能力的有效手段之一。具体而言,企业对于可观测性平台核心需求主要集中在以下几方面:
需要能够对全量数据进行统一采集、治理和存储。企业IT架构较为复杂,各层级IT设施所产生的运维数据类型也有着较大差异,如日志数据、指标数据、链路数据等。然而,传统运维监控体系普遍缺乏完善的统一数据采集、治理和存储能力,导致不同类型运维数据间割裂现象严重,数据价值难以有效发挥,对于运维效率的提升也形成了较大阻碍。同时,传统数据采集工具,如APM等,底层资源消耗较大,并且容易对业务运行产生影响。因此,是否具备完善的数据采集、治理和存储能力,是当前企业对于可观测性平台的核心关注点。
需要具备统一的可视化监控告警能力。随着企业IT系统复杂度进一步上升,为保障系统的整体平稳运行,大多企业会选择部署不同的监控工具,有针对性的对服务器、网络、云基础设施、核心业务系统等进行运维监控和告警。但由于各监控工具相互独立,企业无法进行统一监测和告警,整体使用效果大打折扣。因此,是否具备统一的可视化监测和告警能力,也是企业对于可观测性平台的重要需求之一。
需要具备精准的异常定位能力。云原生体系下,分布式和微服务架构使得企业IT架构复杂度上升,企业IT运维异常问题定位能力受影响较大。底层资源的容器化,使得上层应用与基础设施间的调用链变得不清晰,进而严重影响了运维体系的排障效率。因此,具备精准的异常定位能力,也成为了企业对于可观测性平台的核心要求之一。
需要能支持在不同的云环境下使用。经过长年数字化转型积累,大型企业普遍建立了私有云、公有云、混合云等多种基础云平台。同时,信创政策下,部分企业已开始了信创云的搭建。因此,能够支持在不同云环境中使用,也是企业对于可观测性平台的一大核心需求。
除此之外,部分企业对于可观测性平台还具备以下期望需求:
需要具备完善智能化运维功能。企业传统的运维体系,大多依靠人工进行包含告警分析、根因分析、故障修复等运维工作。随着业务系统数量的不断增加,这一方法太过依赖运维人员经验的局限性也愈加明显,导致运维效率难以有效提升,同时运维成本也持续处于较高水平。因此,建立更加智能化的运维工具体系,提升整体运维效率是目前企业的主要关注点。
需要能够兼容和纳管原有监控体系。部分企业经过多年的发展,已经部署了多种监控工具,包括APM、NPM等,整体监控体系运行较为稳定,且已经投入了较多成本。因此,此类企业在部署可观测平台时,会要求平台能够兼容和纳管原有监控工具体系。
需要具备优质的海量数据实时处理能力。对于部分数字化水平领先的企业来说,云原生应用场景已经覆盖较广,导致所产生的指标、日志、链路、流量等运维数据可达几十万,甚至上百万级别。因此,此类企业更加关注可观测性平台是否具备海量数据实时处理和存储能力。
厂商能力要求
基于上述甲方核心需求,可观测性平台厂商需满足以下核心能力要求:
在数据的统一采集、治理和存储方面。厂商所提供产品需要能够对服务器、网络、数据库、上层应用等全栈IT架构所产生的链路、日志、指标、流量等数据进行低功耗、零侵扰、统一的自动实时采集。同时,还需能够对所采集数据进行统一的治理和存储,帮助企业搭建标准化的运维数据资源池,为后续监控告警以及多维度数据分析应用提供充足支撑,助力整体运维效率的提升。
在统一的可视化监控告警能力方面。首先,厂商所提供可观测性平台产品需能够对标准化的运维数据资源池进行统一的实时监控,并具备可视化看板功能,可以实时展现各IT设施的运行状态。使企业无需再部署多个监控工具,显著降低资源消耗和成本;其次,当IT设施发生异常后,该平台能够实时产生告警信息,并自动将告警信息发送给企业运维人员,帮助企业实现异常问题及时发现和快速处置,进而有效保障业务连续性。
在异常问题的精准定位方面。厂商所提供产品需具备全链路追踪、空间地图定位等多种核心能力。该平台能够通过对应用请求调用链的追踪和拓扑分析,帮助企业用户有效解决在云原生环境下,业务应用端与基础设施端之间调用链不清晰的问题,从而实现问题的精准定位,赋能后续运维工作的快速开展。
在支持不同云环境下使用方面。厂商所提供产品需要能够支持在企业原有私有云、公有云及混合云等不同类型云平台上使用,企业无需进行额外的架构改造或大量定制化开发,即可快速产生业务收益,并保障系统的平稳运行;同时,还需能够完全兼容基于国产基础设施所搭建的信创云平台,满足国产云平台对于可观测性的能力要求,助力企业用户在国产替换浪潮大规模推进下,建立全面自主可控的IT架构。
针对部分甲方企业的期望需求,厂商还需具备以下可选能力:
在完善的智能运维功能方面。厂商所提供可观测性平台,需具备包括告警分析、根因分析、趋势预测以及自动化故障处置等在内的多种智能运维功能。企业用户通过部署应用该平台,能够通过对运维数据进行多个维度的实时分析,帮助企业快速找出异常问题产生的根本原因,并结合自动化故障处置能力,降低人工干预的成本。同时,能够建立起从故障发现、故障告警、故障分析、到故障处置的全流程自动化和智能化的运维体系,进而实现运维效率的大幅提升。
在对企业原有监控体系兼容纳管方面。厂商所提供可观测性平台需具备丰富的API接口和统一的管理能力,一方面,能够支持企业原有监控工具的快速接入,帮助企业进一步发挥原有监控工具的能力和价值;另一方面,还需能够支持与第三方智能运维平台兼容使用,帮助企业进一步增强和巩固自身运维能力。
在海量数据实时处理方面。针对部分数字化水平领先的甲方企业进阶需求,厂商所提供产品需具备高性能的海量数据实时处理能力,从技术架构和性能上符合海量数据处理使用需求,并能够针对企业用户所产生数十万和数百万级别的运维数据进行全量采集、治理、存储和分析,有效保障云原生大规模应用下的企业系统稳定性。
入选标准说明:
1. 符合市场定义中的厂商必备能力要求;
2. 2022年Q1至2023年Q1可观测性平台付费客户数量≥5个;
3. 2022年Q1至2023年Q1可观测性平台合同收入≥2000万元。
03
厂商评估
厂商介绍:
产品服务介绍:
厂商评估:
综合来看,乘云DataBuff可观测性平台在产品设计理念、监控告警能力、故障定位能力、智能运维能力、以及系统兼容能力五方面具备显著优势:
先进的”All-In-One”设计理念,赋能企业运维数据价值深挖。乘云是国内少有的专注于可观测性领域核心技术研发的IT运维厂商之一。其DataBuff可观测性平台基于先进的“All-In-One”一体化设计理念打造,具备“OneAgent一体化数据探针”、“OneCenter一体化数据平台“等多个专利技术。
图:数据处理流程图
一方面,依托“OneAgent一体化探针”超智能采数及超高性能的专利架构设计,使得该平台在数据采集方面具备低消耗、非侵入、多数据类型等独特优势,无需多次调用Zabbix等单点工具,即可帮助企业以最低成本快速实现对全栈IT设施所产生的“观测五件套”数据的自动实时统一采集;
另一方面,结合“OneCenter一体化平台“所具备的统一数据治理能力,帮助企业搭建全流程自动化的实时运维数据观测体系,以及标准化的运维数据资源池,有效解决企业数据割裂的问题,为后续多种智能运维功能提供高保真的数据质量支撑。
全栈式、自动化能力,显著实现降本增效的目标。首先,乘云DataBuff可观测性平台具备高效的全栈式监控能力,企业通过部署一个探针、一个平台,即可实现对从主机、进程、网络、云设施、容器、中间件、到上层应用的全栈式的数据与关系探索能力,并围绕高质量的观测与诊断分析目标、构建精简的数据体系,有效摆脱原有多套工具并行的使用模式。
其次,该平台具备持续自动化的能力。监测复杂环境离不开自动化,DataBuff通过对数据处理流程的每一个环节实现自动化升级,以达到更快的部署、更快的观测、更快的发现异常、更快的定位问题、更快的处置问题、更快的故障自愈。自动化和智能化是转变团队工作方式的根本所在,二者可以迅速、高效地实现企业级的可观测能力提升。
图:某城市商业银行DataBuff使用效果示意图
例如,在某城市商业银行项目中,业务系统逐渐容器化、微服务化,原有搭积木模式不再适用。通过部署DataBuff,基于该平台所具备的一体化技术,以及灵活的第三方数据摄取能力,帮助该行构建起了一套面向全栈的统一可观测底座。通过该方案,有效解决行内长期存在的部门墙鸿沟问题,充分覆盖行内大量的监控盲区、空白地带,并避免了大量的端点工具叠加带来的资源浪费。该方案替代传统搭积木模式,真正达到了降本增效的目标,为企业减少90%左右的工具成本支出、90%左右的资源成本支出、50%左右的人力成本支出、MTTD/MTTR效率显著提升。
“无干扰全链路追踪”+“空间地图”双重手段,解决云原生环境下IT运维核心难点。乘云深耕于云原生领域多年,对于企业在容器化、微服务化等技术架构下的运维核心痛点有着充分认知。一般在存储指标、调用链、日志及用户体验数据时,并不会保存那些将它们衔接在一起的重要背景信息。依托乘云自主研发的“SmartTrace无干扰全链路追踪”和“SmartMesh空间地图“两大核心技术,使企业能够在不对业务应用造成影响的前提下,自动化、实时性的构建整体系统的全层级空间地图,将拓扑节点与观测五件套关联融合、一键跳转,真正实现故障分析与影响面分析的按图索骥,问题排查与定位时间提升10倍以上,为后故障快速修复奠定可行条件。
图:某国家电网省电力公司DataBuff使用效果示意图
例如,在某省电力公司项目中,基于DataBuff平台所具备的空间地图测绘能力,帮助电力公司构建了一张实时、动态、客观的空间地图,实现了业务系统的白盒化观测,有效解决了电力公司业务系统“上云不可见”的难题,有效弥补了现有工具只采集数据、不采集关系的技术短板。自平台部署以来,该行在微服务关系透视、数据关联上大幅提升效率,真正实现了故障分析的按图索骥。
行业领先的“内生AIOps“引擎,助力企业IT运维能力全面提质增效。乘云DataBuff可观测性平台内置了行业首创的”内生AIOps引擎“,能够为企业用户提供包括智能降噪、智能告警分析、多维数据关联分析、确定性根因分析、趋势预测分析以及自动化故障处置等多种智能运维核心能力。通过该平台的全面部署应用,将可观测从数据采集升级到提供答案,使企业可以快速搭建从问题发现、问题分析、问题处置到问题预测的闭环智能运维体系,实现整体运维能力的提质增效。
图:某股份制银行DataBuff使用效果示意图
例如,在某国有股份制银行项目中,通过乘云DataBuff可观测性平台的整体部署应用,基于该平台所具备的一体化观测,以及先进的“内生AIOps引擎“,帮助该行构建起了面向应用、平台、基础设施、用户体验的全栈式一体化观测和智能运维体系,实现了整体运维效率的显著提升。有效解决该行每逢交易高峰期关键系统频发故障,但问题处理效率低下的问题。自平台部署以来,该行问题故障处置时间从原近一个小时,大幅下降至10分钟,业务连续性得到了有效保障。
灵活多样的系统兼容能力,保障在复杂IT环境下的长久使用。乘云DataBuff可观测性平台具备优秀的开放融合产品特性,一方面,能够全面支持在企业原有私有云、公有云及混合云环境下的快速部署使用,大幅降低产品部署和系统改造成本;另一方面,其DataBuff产品已全面兼容当前主流国产服务器、操作系统、数据库、信创云等底层基础设施,并取得了互信认证,可支持在不同架构的国产IT基础环境中使用,有效保障企业IT国产化替换过程中的平稳过渡;此外,乘云DataBuff可观测性平台还具备丰富的API接口,能够支持与企业原有监控工具的快速对接,以及与第三方智能运维平台的兼容使用,进一步增强企业整体运维能力,加速数字化转型进程。
典型客户:
中国银行、华夏银行、中国太平保险、天翼支付、上海期货交易所、国家电网、南方电网、吉利集团、中国联通、中国电信、中国移动等
04
入选证书
注:点击左下角“阅读原文”,了解更多内容。