权威指南:什么是 AIOps?

智能计算芯世界 2021-11-11 00:00



过去的工具已无力应对当今变幻不定的 IT 局势。基础架构模型在持续快速改革,因此管理也应采用动态的流程和技术。

商业环境正从静态且可预测的物理系统(定义这个领域数十年)转变为可动态更改和重新配置的软件定义资源环境。此外,随着网络基础设施的不断发展,基于旧模型的软件系统要投入越来越多的精力来保持有效性,但仍会越来越落后。

在这场 IT 运维 (ITOps) 变革的影响下,数字化业务转型力量迫使传统 IT 管理技术走上改变之路。因此,现有 ITOps 流程和程序以及 IT 生态系统的管理结构发生了重大变化。

《AIOps智能运维技术合集》

1、AIOPS在携程的探索与实践.pdf

2、HPC+AI融合计算.pdf

3、基于机器学习的智能运维.pdf 

4、人工智能在运维中的实践.pdf 

5、容器下的AIOps架构实践.pdf 

6、数据驱动的智能运维.pdf 

7、为AIOps的普及而重生的基础监控.pdf 

8、由AIOps提供支持的自动化运营和更新.pdf

9、中国 IT 基础架构运维市场研究报告.pdf



Gartner在 2017 年为 IT 运维或 AIOps 创造了术语人工智能,深入反映这些变革的精神核心。

AIOps 使用数据科学和机器学习技术助力 ITOps 团队实时了解影响所管理系统的性能或可用性的问题。

在过去的几年中,企业争先恐后地去了解这种新技术,并试图走在它前面,AIOps 市场类别呈爆炸式增长,同时 Gartner 领域的咨询数量呈指数级增长。

本权威指南讨论有关 AIOps 的一切须知信息,推动它诞生的市场和技术变革以及如何应对这些挑战。

AIOps 之路

首先必须了解数字转型及其如何推动产生 AIOps。

数字转型涵盖新技术的实施、云应用和快速变化。它要求人们将重心转移到开发人员和应用程序上,并加快创新步伐。它还要获取如下设施:

  • 物联网 (IOT) 设备

  • 新的数字用户-机器代理

  • 应用程序编程接口 (API)

所有这些新用户和新技术将传统的服务和性能管理工具和战略挤压到极限。

成功的数字转型离不开 AIOps,它赋能 IT 以大多数现代企业所需的速度运行。因此,AIOps 阐述了应对 ITOps 领域数字转型所需的范式转换。

何为 AIOps?

AIOps 是“IT 人工智能运维”的首字母缩写。它是 ITOps(IT 运维)的未来。它结合了人类和算法智能,全面监测公司和企业在日常运营中所依赖的 IT 系统的性能和状态。

它是一种高端多层技术平台,使用机器学习和分析技术分析采集自各种 ITOps 设备和工具的大数据,以此增强和自动执行 IT 流程,从而自动发现问题并实时响应问题。

AIOps 要求您将孤立的 IT 数据移动到大数据平台中的综合观测数据(例如,工作日志和监控系统)和互动数据(如工作单、活动或事故记录中的数据)。

然后,AIOps 根据组合的数据实施机器学习和分析。在此基础上,通过持续的深入洞察推动不断改进自动化实施。因此,您可以将 AIOps 视为核心 IT 功能的 CI/CD(持续集成和持续部署)。

AIOps 桥接了三个 IT 学科(自动化、服务管理和性能管理)以实现持续洞察和改进的目标。人们认识到,在新的加速和超大规模 IT 环境中,有一种利用机器学习和大数据的全新方法,可克服人力和传统工具限制的问题。

AIOps 工作原理

AIOps 使用组织内的现有数据源,包括日志事件、传统 IT 监控、网络性能异常等。从这些来源系统收集的数据运用数学模式进行处理,从而自动识别重大事件,无需费力的手工预筛选。

另一层算法可分析事件,并识别存在类似潜在问题症状的一群相关活动。算法过滤可大大降低 ITOps 团队必须处理的警报干扰,同时还可避免不同工作组的工作单冗余路由而产生的重复情况。

取而代之的是,您可以动态组建虚拟团队,并分派不同的专家跨部门或技术边界的问题。现有的事件管理和票务系统可运用 AIOps 的功能,直接集成到现有流程中。

AIOps 进一步提高了自动化程度。它能够触发工作流程,不管是否有人工干预。当前的 ChatOps 功能在诊断和补救措施的正常协作过程中,积极利用现有的自动化功能。

随着机器学习系统变得越来越精确和可靠,现在无需人工干预即可触发易于理解的常规操作,从而及时解决问题以免干扰用户的使用。

AIOps 的要素

以下是构成 AIOps 平台的技术。

  • 数据源。数据源广泛而多样化,来自于现有孤立的工具和各种 IT 类,包括事件、日志、指标、工作单、监控和作业数据等。
  • 大数据。包括允许实时处理的现代化大数据平台。例如,Elastic Stack、Hadoop 2.0 或部分 Apache 技术。
  • 规则和模式。AIOps 平台的规则应用和模式识别加强了杠杆作用,可发现上下文,同时发现数据的常态和规律。它们可能特定/不特定于某个域。
  • 机器学习。机器学习技术可根据新引入的数据和算法分析的输出结果自动创建新的算法或修改现有算法。
  • 域算法。利用 IT 域领域的专业知识智能解释规则和模式,并根据企业数据和期望的结果进行应用。域算法有利于组织机构实现 IT 特定的目标,例如关联非结构化数据、消除干扰、针对异常发出警报、找出可能的原因以及建立基准。
  • 自动化。利用机器学习和人工智能产生的结果,自动创建和应用对确定的问题和情况的响应。
  • 人工智能 (AI)。人工智能可适应环境中的未知和新事物。 

AIOps的要求和功能

所有 AIOps 平台都应为您的企业带来以下三项功能。

  1. 自动执行日常操作,例如用户请求或不重要的 IT 系统警报。例如,AIOps 可以帮助服务台系统处理和满足用户自动配置资源的请求。它们还可以评估警报并确定是否需要采取措施,因为支持性的数据和相关指标均在正常参数范围内。
  2. 识别严重问题的速度和准确性远优于人工。IT 人员可能会解决非关键系统上的已知恶意软件事件,但会忽略关键服务器上启动的异常下载或进程,因为他们没有关注或预料到这种威胁。AIOps 系统则以完全不同的方式解决这些情况。它们会优先处理关键系统上因行为不正常而疑似攻击或感染的事件,其次是运行防病毒软件处理已知的恶意软件事件。
  3. 简化数据中心团队之间的互动。AIOps 为所有职能 IT 部门提供相关数据和见解。如果缺少这些支持人工智能的操作,团队必须通过手动发送数据或召开现场会议来解析和共享信息。AIOps 应该从企业的大量资源指标中了解可向每个组显示的数据。

驱动 AIOps 的推动因素是什么?它需求背后的理由是什么?

人工智能 (AI) 的前景是承担起人类工作,但速度更快、结果更好、规模更大。AIOps 可解决数字转型的规模、复杂性和速度难题,让您实现 ITOps 的这个目标。这些挑战包括:

  1. ITOps 在手动管理基础架构上面临的困难
  2. 现代化 IT 环境包括移动、托管和非托管云、第三方服务以及 SaaS 集成等,因此基础架构这词几乎是不恰当的。显然,传统的管理业务复杂性的方法在当今动态弹性的环境中不再行得通。通过手动的人工监督来管理和跟踪这种复杂性开始举步维艰。当前的 ITOps 技术已经超出了手动管理范畴。
  3. ITOps 要保留越来越庞大的数据量
  4. 性能监控以超快速度生成越来越多的警报和事件。在移动应用程序、物联网设备、API 和数字或机器用户诞生后,服务工作单数量开始呈阶梯式增长。
  5. 以越来越快的速度解决基础设施问题的需求
  6. 在企业实施数字化运营后,IT 就变成了一项业务。技术“消费化”改变了各行各业用户的期望。当下 IT 事件的响应必须即时,尤其在问题影响到用户体验的时候。
  7. 开发人员享受更大的权力和影响力,但责任仍由 IT 部门承担
  8. 在开发运维部门,程序员承担了更多的应用程序级监视责任,但整个 IT 生态系统的健康以及基础架构、应用程序和服务之间的交互仍由核心 IT 承担责任。
  9. 从网络中心转移更多的计算能力
  10. 第三方服务和云基础架构的易于采用特征让业务部门能够构建自己的 IT 应用程序和解决方案。控制和预算正在迁移到 IT 部门的边缘。因此,企业现可从外部核心 IT 添加更多的计算能力。

AIOps 与当前工具集成

AIOps 与现有流程和工具相互集成,汇集了实用信息、功能和见解。企业当下使用不同区域和不同用途的监控工具。每个工具对特定部门、团队或公司都有价值,但其他相关方无法利用它的价值。

因此,AIOps 并没有运用费力的工具合理化举措,试图用一刀切解决方案强行解决个人独特需求,而是跨域、团队和工具打造无缝可见性,支持特定工具的大力发展。

同样,AIOps 还确保只创建真实可操作的事件,避免事件重复,减轻 IT 服务团队管理 (ITSM) 的工作量。IT 基础结架构库 (ITIL) 的顺序性质还决定了 AIOps 可解决和消除大量 ITSM 用户烦恼。

AIOps 还实现了自动化。它可集成编排和工作流程,直接以全自动或半自动形式呈现给操作员。IT 部门多年来开发了大型自动化解决方案库,因此他们必须确保只有达到正确的条件才能触发。AIOps 不仅可保证这一点,而且可将风险控制在最低水平,最大限度发挥现有自动化投资的价值。

谁在使用 AIOps?

  1. 复杂的大型企业非常依赖大数据和 IT
  2. 如今,汇集各种类型技术的大规模 IT 环境的公司终究逃脱不了规模和复杂性两个难题。如果您将这些问题与严重依赖 IT 的业务模型结合在一起,AIOps 肯定是公司成功的一个决定性要素。尽管这些类型的企业存在于各行各业,但他们都有一个共同特征:规模庞大和迅速变化。业务敏捷性的需求上升带动了 IT 敏捷性的需求上涨。
  3. 云计算
  4. 迁移入云本身也是困难重重。例如扩展,整个 IT 迁移入云不太现实,也不可取。您会发现糅合不同 IT 基础架构交付形式的混合模式难以管理。
    AIOps 可呈现所有类型基础架构的整体视图,帮助操作员了解来不及记录的关系变更,从而消除了运行混合云平台的大量风险。
  5.  开发运维团队
  6. 采用 DevOps 模型的公司,或者正在采用该模型的公司,可能会发现很难在参与工作的各方角色之间维持高度一致性。开发和操作系统直接整合到 AIOps 模型可减少诸多可能会发生的对接摩擦。
    您希望开发团队对 IT 环境的状态有更深入的了解。您还希望您的运营团队能够全面了解开发人员计划于何时以何种方式在生产环境中进行更改或部署。这个全面视图有助于确保项目整体成功推进,达到敏捷性和响应速度要求。
  7. 数字化转型
  8. 数字转型举措的定义很多,但是一个共同的因素是对敏捷性和速度的要求。尽管从技术上说,这是个业务要求,但 IT 必须以业务要求的速度运行才能避免成为瓶颈或实现更广泛的目标。AIOps 可消除大部分摩擦,有利于 IT 为大部分数字转型项目提供所需支持。

AIOps 的优势

正确实施的 AIOps 平台可减少 IT 员工在日常警报上所花费的时间和精力。在机器学习和算法的运用下,IT 员工可训练 AIOps 平台不断精进。它们可逐渐吸收知识以改进软件的行为和有效性。

AIOps 工具可持续监控状态,不眠不休。员工可则可集中精力处理严重的复杂问题,同时落实计划举措提高业务稳定性和绩效。

AIOps 系统在对各种数据源进行整理和归类过程中,可观察企业多个运行、资源和服务之间的因果关系。这些机器学习和分析功能促使系统执行根本原因分析,从而加快疑难杂症故障排除,快速实施补救措施。

AIOps 改善了 IT 组之间以及 IT 部门与其他业务部门之间的工作流任务和协作。团队可以使用定制的报告和控制板快速了解要求和任务。他们还可以对接其他工作组,但无需学习其他工作组要掌握的知识。

AIOps 消除了噪音和干扰,有助于 IT 人员集中应对重要问题,不会被无关紧要的警报打扰。

AIOps 有助于关联多个数据源之间的信息,不仅打破了信息之间的藩篱,而且能洞察从物理、虚拟到云整个 IT 环境的全部状况,包括网络、计算和存储。

它推动服务所有者和专家之间的无摩擦协作。这可极大加快诊断、分析和解决速度,从而最大限度减少对最终用户的干扰。

AIOps 的缺陷

尽管基本的 AIOps 技术相对成熟,但要创建和组合技术以投入实际生产,还有很长一段路要走。以下是它的一些缺点:

  • 它的有效性取决于您训练的算法以及它接收的数据。因此,终不能超出编程的限制。
  • 实施、管理和维护 AIOps 平台可能需要花费大量的精力和时间。
  • AIOps 系统依赖各种数据源以及数据保留、保护和存储。
  • AIOps 要求企业完全信任工具,这是部分企业不喜欢它的一个原因。这是因为,为了使 AIOps 工具能够自主采取行动,他们必须准确地跟踪目标环境中的变化,收集并保护相关数据,形成正确的结论,确定操作的优先级,最终采取适当的自动化措施。

在企业中实施 AIOps

没有放之四海而皆准的成功模式。不过,下文的通用指南可帮助您入门。

  • 立即掌握机器学习和人工智能的基础知识。

  • 确定企业中 IT 团队最耗时的任务。尤其注意自动化流程可取代的重复性任务。

  • 从小处着手,逐步向外扩展。查找 AIOps 可快速解决的最紧急问题。

  • 尽量丰富为系统馈送的数据类型。

  • 制定指标,帮助衡量 AIOps 投资的有效性。

AIOps 在现代化 IT 环境中的适用点

首次查看 AIOps 时,您可能不会立即想到它如何适合您现有的工具类别。原因是它不能替代当前的监视、编排、支持服务或日志管理工具。相反,它牵涉所有领域和工具,在所有领域和工具中集成和使用信息。它输出的信息还有助于了解每个工具的同步情况。

这些工具单独来说,一个个本身都是有价值的。不过,工具之间的隔断导致用户无法适时访问正确的信息。AIOps 灵活地将各种不全面视图整合成综合性视图,从而有助于 ITOps 团队了解整体情况。

尽管 AIOps 与 ITOps 有云泥之别,但它并不是大数据和机器学习的首次应用。当股票经纪人从手工交易转向机器交易时,他们也采用了类似的机械学习方法。社交媒体还长期在诸如 Google Maps、Yelp 和 Waze 之类的应用程序或 eBay 和 Amazon 之类的在线市场中使用机器学习和分析。

这些技术在要求实时响应不断变化的条件和用户定制需求的环境中,体现出了高度可靠性和广泛有效性。

与机器学习技术相比,人工智能在 AIOps 中的应用前景更大有可为。当前,简单的自动化或将自动化与机器学习结合就能解决您当下紧迫的用例。人工智能及其未来应用场景仍在演变,未来可期。无论如何,企业务必在当前存在的 ITOps 上打下坚实的 AIOps 基础,然后在此基础上开始实施人类行为建模。

ITOps 人员由于工作的保守性质,无法快速适应 AIOps 环境。他们的职责是确保业务照常运行,维持企业基础架构的稳定性。不过,随着 AIOps 广泛应用的新兴趋势抬头,越来越多的 ITOps 工作组不得不在短时间内适应新的 AIOps 技术和战略。

结论

这份权威的 AIOps 指南将帮助您确定它对于贵公司的适用性,以及何时整合该技术以及以何种方式使用。除此之外,建议您关注 AIOps 的最新发展态势。种种迹象表明,这项创新技术已蓄势待发。


下载链接:

《AIOps智能运维技术合集》

1、AIOPS在携程的探索与实践.pdf

2、HPC+AI融合计算.pdf

3、基于机器学习的智能运维.pdf 

4、人工智能在运维中的实践.pdf 

5、容器下的AIOps架构实践.pdf 

6、数据驱动的智能运维.pdf 

7、为AIOps的普及而重生的基础监控.pdf 

8、由AIOps提供支持的自动化运营和更新.pdf

9、中国 IT 基础架构运维市场研究报告.pdf


面向AIoT的RISC-V原生操作系统研究

深度报告:RISC-V异构IoT全新架构

ARM系列处理器应用技术完全手册

RISC-V芯片产业指令集架构研究
玄铁C910实现RISC-V用户自定义指令
CPU和GPU研究框架合集

本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。




免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。



电子书<服务器基础知识全解(终极版)>更新完毕,知识点深度讲解,提供182页完整版下载。

获取方式:点击“阅读原文”即可查看PPT可编辑版本和PDF阅读版本详情。



温馨提示:

请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。


智能计算芯世界 聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.
评论
  • 数字隔离芯片是现代电气工程师在进行电路设计时所必须考虑的一种电子元件,主要用于保护低压控制电路中敏感电子设备的稳定运行与操作人员的人身安全。其不仅能隔离两个或多个高低压回路之间的电气联系,还能防止漏电流、共模噪声与浪涌等干扰信号的传播,有效增强电路间信号传输的抗干扰能力,同时提升电子系统的电磁兼容性与通信稳定性。容耦隔离芯片的典型应用原理图值得一提的是,在电子电路中引入隔离措施会带来传输延迟、功耗增加、成本增加与尺寸增加等问题,而数字隔离芯片的目标就是尽可能消除这些不利影响,同时满足安全法规的要
    华普微HOPERF 2025-01-15 09:48 78浏览
  • ARMv8-A是ARM公司为满足新需求而重新设计的一个架构,是近20年来ARM架构变动最大的一次。以下是对ARMv8-A的详细介绍: 1. 背景介绍    ARM公司最初并未涉足PC市场,其产品主要针对功耗敏感的移动设备。     随着技术的发展和市场需求的变化,ARM开始扩展到企业设备、服务器等领域,这要求其架构能够支持更大的内存和更复杂的计算任务。 2. 架构特点    ARMv8-A引入了Execution State(执行状
    丙丁先生 2025-01-12 10:30 466浏览
  • PNT、GNSS、GPS均是卫星定位和导航相关领域中的常见缩写词,他们经常会被用到,且在很多情况下会被等同使用或替换使用。我们会把定位导航功能测试叫做PNT性能测试,也会叫做GNSS性能测试。我们会把定位导航终端叫做GNSS模块,也会叫做GPS模块。但是实际上他们之间是有一些重要的区别。伴随着技术发展与越发深入,我们有必要对这三个词汇做以清晰的区分。一、什么是GPS?GPS是Global Positioning System(全球定位系统)的缩写,它是美国建立的全球卫星定位导航系统,是GNSS概
    德思特测试测量 2025-01-13 15:42 491浏览
  •   在信号处理过程中,由于信号的时域截断会导致频谱扩展泄露现象。那么导致频谱泄露发生的根本原因是什么?又该采取什么样的改善方法。本文以ADC性能指标的测试场景为例,探讨了对ADC的输出结果进行非周期截断所带来的影响及问题总结。 两个点   为了更好的分析或处理信号,实际应用时需要从频域而非时域的角度观察原信号。但物理意义上只能直接获取信号的时域信息,为了得到信号的频域信息需要利用傅里叶变换这个工具计算出原信号的频谱函数。但对于计算机来说实现这种计算需要面对两个问题: 1.
    TIAN301 2025-01-14 14:15 108浏览
  • 随着数字化的不断推进,LED显示屏行业对4K、8K等超高清画质的需求日益提升。与此同时,Mini及Micro LED技术的日益成熟,推动了间距小于1.2 Pitch的Mini、Micro LED显示屏的快速发展。这类显示屏不仅画质卓越,而且尺寸适中,通常在110至1000英寸之间,非常适合应用于电影院、监控中心、大型会议、以及电影拍摄等多种室内场景。鉴于室内LED显示屏与用户距离较近,因此对于噪音控制、体积小型化、冗余备份能力及电气安全性的要求尤为严格。为满足这一市场需求,开关电源技术推出了专为
    晶台光耦 2025-01-13 10:42 498浏览
  • 新年伊始,又到了对去年做总结,对今年做展望的时刻 不知道你在2024年初立的Flag都实现了吗? 2025年对自己又有什么新的期待呢? 2024年注定是不平凡的一年, 一年里我测评了50余块开发板, 写出了很多科普文章, 从一个小小的工作室成长为科工公司。 展望2025年, 中国香河英茂科工, 会继续深耕于,具身机器人、飞行器、物联网等方面的研发, 我觉得,要向未来学习未来, 未来是什么? 是掌握在孩子们生活中的发现,和精历, 把最好的技术带给孩子,
    丙丁先生 2025-01-11 11:35 457浏览
  • 流量传感器是实现对燃气、废气、生活用水、污水、冷却液、石油等各种流体流量精准计量的关键手段。但随着工业自动化、数字化、智能化与低碳化进程的不断加速,采用传统机械式检测方式的流量传感器已不能满足当代流体计量行业对于测量精度、测量范围、使用寿命与维护成本等方面的精细需求。流量传感器的应用场景(部分)超声波流量传感器,是一种利用超声波技术测量流体流量的新型传感器,其主要通过发射超声波信号并接收反射回来的信号,根据超声波在流体中传播的时间、幅度或相位变化等参数,间接计算流体的流量,具有非侵入式测量、高精
    华普微HOPERF 2025-01-13 14:18 482浏览
  • 食物浪费已成为全球亟待解决的严峻挑战,并对环境和经济造成了重大影响。最新统计数据显示,全球高达三分之一的粮食在生产过程中损失或被无谓浪费,这不仅导致了资源消耗,还加剧了温室气体排放,并带来了巨大经济损失。全球领先的光学解决方案供应商艾迈斯欧司朗(SIX:AMS)近日宣布,艾迈斯欧司朗基于AS7341多光谱传感器开发的创新应用来解决食物浪费这一全球性难题。其多光谱传感解决方案为农业与食品行业带来深远变革,该技术通过精确判定最佳收获时机,提升质量控制水平,并在整个供应链中有效减少浪费。 在2024
    艾迈斯欧司朗 2025-01-14 18:45 59浏览
  • 根据Global Info Research(环洋市场咨询)项目团队最新调研,预计2030年全球无人机电池和电源产值达到2834百万美元,2024-2030年期间年复合增长率CAGR为10.1%。 无人机电池是为无人机提供动力并使其飞行的关键。无人机使用的电池类型因无人机的大小和型号而异。一些常见的无人机电池类型包括锂聚合物(LiPo)电池、锂离子电池和镍氢(NiMH)电池。锂聚合物电池是最常用的无人机电池类型,因为其能量密度高、设计轻巧。这些电池以输出功率大、飞行时间长而著称。不过,它们需要
    GIRtina 2025-01-13 10:49 182浏览
  • 01. 什么是过程能力分析?过程能力研究利用生产过程中初始一批产品的数据,预测制造过程是否能够稳定地生产符合规格的产品。可以把它想象成一种预测。通过历史数据的分析,推断未来是否可以依赖该工艺持续生产高质量产品。客户可能会要求将过程能力研究作为生产件批准程序 (PPAP) 的一部分。这是为了确保制造过程能够持续稳定地生产合格的产品。02. 基本概念在定义制造过程时,目标是确保生产的零件符合上下规格限 (USL 和 LSL)。过程能力衡量制造过程能多大程度上稳定地生产符合规格的产品。核心概念很简单:
    优思学院 2025-01-12 15:43 522浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦