Whatisobservability?|一文读懂什么是系统可观测性

Linux阅码场 2022-02-11 08:00

以下文章来源于观测云 

什么是可观测性?

可观测性是通过检查其输出来衡量系统内部状态的能⼒。如果仅使⽤来⾃输出的信息(即传感器数据)可以估计当前状态,则系统被认为是“可观测的”。虽然它似乎是最近的流⾏词,但该术语起源于⼏⼗年前的控制理论(它是关于描述和理解⾃我调节系统的)。然⽽,它越来越多地应⽤于提⾼分布式 IT 系统的性能。在这种情况下,可观测性使⽤三种类型的遥测数据⸺指标、⽇志和跟踪⸺来提供对分布式系统的深⼊可⻅性,并允许团队找到⼤量问题的根本原因并提⾼系统性能。


在过去⼏年中,企业以微服务、⽆服务器和容器技术的形式迅速采⽤了云原⽣基础设施服务,例如AWS。在这些分布式系统中追踪事件的起源需要在云上、本地或两者上运⾏的数千个进程。但是传统的监控技术和⼯具很难跟踪这些分布式架构中的许多通信路径和相互依赖关系。

可观测性使团队能够更有效地监控现代系统,并帮助他们找到并连接复杂链中的影响,并将其追溯到原因。此外,它还使系统管理员、IT 运营分析师和开发⼈员能够了解他们的整个架构。

在本文中我们将仔细研究可观测性:

l 它是什么

l  实施需要什么

l  您可以期望您的组织从中获得什么好处。

监控和可观测性有什么区别?

监控和可观测性是相互依赖的不同概念。

1

监控

是您为提高系统的可观测性而执行的操作

可观测性

是该系统的一个属性,如功能性或可测试性

2

具体⽽⾔,监控是随着时间的推移观察系统性能的⾏为。监控⼯具收集和分析系统数据,并将其转化为可操作的⻅解。从根本上说,应⽤程序性能监控 (APM) 等监控技术可以告诉您系统是启动还是关闭,或者应⽤程序性能是否存在问题。监控数据聚合和关联还可以帮助您对系统做出更⼤的推断。例如, 加载时间可以告诉开发⼈员有关⽹站或应⽤程序⽤户体验的⼀些信息。

另⼀⽅⾯,可观测性是衡量系统内部状态可以从其外部输出的知识推断出来的程度的度量。它使⽤监控产⽣的数据和⻅解来全⾯了解您的系统,包括其运⾏状况和性能。因此,系统的可观测性部分取决于您的监控指标对系统性能指标的解释程度。

另⼀个重要的区别是,监控要求您提前了解需要监控的重要事项。可观测性让您可以通过观察系统随时间推移的表现并询问相关问题来确定什么是重要的。

为什么可观测性很重要?

可观测性很重要,因为它可以让您更好地控制复杂系统。简单系统的活动部件较少,因此更易于管理。监控   CPU、内存、数据库和⽹络状况通常⾜以了解这些系统并对问题应⽤适当的修复。

分布式系统的互连部件数量要多得多,因此可能发⽣的故障数量和类型也更⾼。此外,分布式系统会不断更新,每次更改都可能导致新类型的故障。在分布式环境中,理解当前问题是⼀个巨⼤的挑战,主要是因为它⽐简单的系统产⽣更多的“未知未知”。由于监控需要“已知的未知数”,因此通常⽆法充分解决这些复杂环境中的问题。

可观测性更适合分布式系统的不可预测性,主要是因为它允许您在出现问题时询问有关系统⾏为的问题。“为什么X坏了?” 或者“现在是什么导致了延迟?” 是可观测性可以回答的⼀些问题。

什么是容器和微服务中的可观测性

容器和微服务中的可观测性暴露了⽣产中应⽤程序的状态,因此开发⼈员可以更好地识别和解决性能问题。

容器服务(例如 Docker、Kubernetes 等)和微服务解决了停机时间增加的⻛险以及与单体软件相关的其他问题,其中对单个代码库的任何更改都会影响整个应⽤程序及其依赖项。容器和微服务将应⽤程序分解为独⽴的服务,允许开发⼈员修改和重新部署特定服务⽽不是整个应⽤程序。

然⽽,基于容器的架构带来了新的挑战。相互依赖的微服务通常分散在多个主机上,随着基础设施的扩展,⽣产中微服务的数量也在增加。这使得开发⼈员很难知道当前在⽣产中运⾏的内容,从⽽导致更⻓的交付周期、停机时间和其他问题。

可观测性解决了这些挑战,提供了分布式系统的可⻅性,帮助开发⼈员更好地了解应⽤程序的性能和可⽤性。在发⽣故障时,它提供了快速查明和调试或修复问题所需的控制。

可观测性中使用的主要数据类是什么?他们是如何使用的?

可观测性中使用的主要数据类是:

日志

指标

跟踪

它们通常被称为“可观测性的三⼤⽀柱”


1

日志

⽇志是在特定时间发⽣的事件的⽂本记录,包括说明事件发⽣时间的时间戳和提供上下⽂的有效负载。⽇志有三种格式:纯⽂本、结构化和⼆进制。纯⽂本是最常⻅的,但结构化⽇志⸺包括额外的数据和元数据并且更容易查询⸺正变得越来越流⾏。当系统出现问题时,⽇志通常也是您⾸先查看的地⽅。

2

指标

指标是在⼀段时间内测量的数值,包括特定属性,例如时间戳、名称、KPI 和值。与⽇志不同,指标在默认情况下是结构化的,这使得查询和优化存储变得更加容易,让您能够将它们保留更⻓时间。

3

跟踪

跟踪表示请求通过分布式系统的端到端旅程。当请求通过主机系统时, 对其执⾏的每个操作(称为“跨度”)都使⽤与执⾏该操作的微服务相关的重要数据进⾏编码。通过查看跟踪,每个跟踪都包含⼀个或多个跨度,您可以通过分布式系统跟踪其进程并确定瓶颈或故障的原因。

使⽤这些数据类并不能保证可观测性,尤其是当您彼此独⽴地使⽤它们或为每个函数使⽤不同的⼯具时。相反,您将通过在单个解决⽅案中集成您的⽇志、指标和跟踪来实现可观测性的成功⽅法。当您这样做时,您不仅可以了解问题何时发⽣,还可以⽴即将注意⼒转移到了解这些问题发⽣的原因上。

如何实现可观测性?

为了实现可观测性,您需要对系统和应⽤程序进⾏适当的⼯具来收集适当的遥测数据。您可以通过构建⾃⼰的⼯具、使⽤开源软件或购买商业可观测性解决⽅案来制作可观测系统。

通常,实现可观测性涉及四个组件:

01

仪表

这些是测量⼯具,可从容器、服务、应⽤程序、主机和系统的任何其他组件收集遥测数据,从⽽实现整个基础架构的可⻅性。

02

数据关联

处理和关联从整个系统收集的遥测数据,从⽽创建上下⽂并为时间序列可视化启⽤⾃动化或⾃定义数据管理。

03

事件响应

这些⾃动化技术旨在根据随叫随到的时间表和技术技能将有关停电的数据提供给合适的⼈员和团队。

04

AIOps

机器学习模型⽤于⾃动聚合、关联事件数据并确定其优先级,使您能够过滤掉警报噪⾳,检测可能影响系统的问题并在发⽣事件时加速事件响应。



良好的可观测性工具的标准是什么?

⽆论您选择构建⾃⼰的解决⽅案还是使⽤开源或商业解决⽅案,所有可观测性⼯具都应该:

#

与当前⼯具集成

如果您的可观测性⼯具不适⽤于您当前的堆栈,您的可观测性⼯作将失败。确保它们⽀持您环境、容器平台、消息传递平台和任何其他关键软件中的框架和语⾔。

#

对⽤户友好

如果您的可观测性⼯具难以学习或使⽤,它们将不会被添加到⼯作流程中 - 阻⽌您的可观测性计划开始实施。

#

提供实时数据

您的可观测性⼯具应通过仪表板、报告和查询实时提供相关⻅解,以便团队能够了解问题、其影响以及解决⽅法。

#

支持现代事件处理技术

有效的可观测性⼯具应该能够从您的堆栈、技术和操作环境中收集所有相关信息;将有价值的信号从噪⾳中分离出来,并添加⾜够的上下⽂,以便团队可以解决它。

#

可视化聚合数据

可观测性⼯具应该以易于理解的格式呈现洞察⼒,例如仪表板、交互式摘要和⽤户可以快速理解的其他可视化。

#

提供上下⽂

当事件发⽣时,您的⼯具应提供⾜够的上下⽂,让您了解系统性能如何随时间变化、变化与系统中的其他变化有何关联、问题的范围以及受影响服务的任何相互依赖关系或组件。如果没有可观测性可以提供的上下⽂,事件响应就会瘫痪。

#

使用机器学习

您的⼯具应该包括⾃动化数据处理和管理的机器学习模型,以便您可以更快地检测和响应异常和其他安全事件。

#

提供业务价值

确保您根据对您的业务很重要的指标来评估您的可观测性⼯具,例如部署速度、系统稳定性和客户体验。

DeOps中的观测性有哪些好处?

可观测性允许 DevOps 开发⼈员在任何给定时间了解应⽤程序的内部状态, 并可以访问有关分布式⽣产环境中系统故障的更准确信息。⼀些主要好处包括:

#

更好的可⻅性

庞⼤的分布式系统通常使开发⼈员难以了解⽣产中的服务、应

⽤程序性能是否强⼤、谁拥有某个服务或系统在最近⼀次部署之前的样⼦。可观测性使他们能够实时了解⽣产系统,从⽽有助于消除这些障碍。

#

更好的警报

可观测性帮助开发⼈员更快地发现和修复问题,提供更深⼊的可

⻅性,使他们能够快速确定系统中发⽣了什么变化,调试或修复问题,并确定这些变化导致了什么问题(如果有的话)。

#

更好的工作流程

可观测性允许开发⼈员查看请求的端到端旅程,以及有关特定问题的相关上下⽂数据,从⽽简化应⽤程序的调查和调试过程,优化其性能。

#

减少会议时间

从历史上看,开发⼈员必须通过第三⽅公司和应⽤程序跟踪信息,以找出谁负责特定服务或在最近部署前⼏天或⼏周内系统的样⼦。通过有效的可观测性,这些信息很容易获得。

#

加快开发⼈员速度

可观测性使监控和故障排除更加⾼效,消除了开发⼈员的主要摩擦点。结果是提⾼了交付速度,让  DevOps  员⼯有更多时间提出创新想法来满⾜业务及其客户的需求。


可观测性在软件工程中有什么好处

与 DevOps ⼀样,可观测性通过提供对整个基础架构的洞察使软件⼯程师受益,使他们能够看到它如何因问题、部署新软件或扩展或缩减⽽发⽣变化。

谁从可观测性中受益?

个⼈开发⼈员和软件⼯程师从可观测性中受益,因为它提供了对整个架构的可⻅性,从第三⽅应⽤程序和服务到他们⾃⼰的。这不仅使他们能够更轻松地修复并最终预防问题,还促进对系统性能及其如何塑造更好的客户体验的更深⼊了解。开发⼈员和⼯程师都有更多的时间来制定有利于业务的战略计划。

团队也受益,因为可观测性提供了环境的共享视图,随着时间的推移提供了对其架构、健康和性能的更全⾯的了解。可观测性允许开发⼈员、操作员、⼯程师、分析师、项⽬经理和其他团队成员访问有关服务、客户和其他系统元素的相同⻅解。此外,可观测性可以创建更准确的事件后审查,因为所有各⽅都可以检查实时系统⾏为的书⾯记录,⽽不是将事件从孤⽴的单个来源拼凑起来。数据⸺⽽不是意⻅⸺将帮助您的团队了解事件发⽣的原因,以便他们能够 更好地预防和处理未来的事件。

然⽽,企业可能受益最⼤。可观测性让您可以在不影响系统稳定性的情况下更改应⽤程序和服务,为您提供⼯具来了解哪些⼯作有效,哪些⽆效,查明出现的任何问题并快速改进或解决这些问题。新功能与更少的停机时间相结合,转化为更快乐的客户和更强⼤的底线。

结语:深⼊了解您的基础架构

可观测性不仅仅是⼀个流⾏语⸺它是了解整个基础设施状态的⼀种重要且有⽤的⽅法。云、容器化、微服务和其他技术使系统⽐以往任何时候都更加复   杂。虽然这些⼯具的最终结果是积极的,但在这些系统内⼯作、故障排除和管理却充满了困难。更多的交互部分会导致更多种类的问题,当它们发⽣时,更难检测和修复。

幸运的是,这些分布式系统会产⽣⼤量遥测数据,如果您可以利⽤这些数据, 可以更清楚地了解它们的性能。有效的可观测性⼯具提供您捕获系统输出并将其上下⽂化并提供在现代分布式系统世界中蓬勃发展所需的洞察⼒所需的所有⼯具和分析能⼒。


原文链接

https://www.splunk.com/en_us/data-insider/what-is-observability.html

Linux阅码场 专业的Linux技术社区和Linux操作系统学习平台,内容涉及Linux内核,Linux内存管理,Linux进程管理,Linux文件系统和IO,Linux性能调优,Linux设备驱动以及Linux虚拟化和云计算等各方各面.
评论
  • 1月7日-10日,2025年国际消费电子产品展览会(CES 2025)盛大举行,广和通发布Fibocom AI Stack,赋智千行百业端侧应用。Fibocom AI Stack提供集高性能模组、AI工具链、高性能推理引擎、海量模型、支持与服务一体化的端侧AI解决方案,帮助智能设备快速实现AI能力商用。为适应不同端侧场景的应用,AI Stack具备海量端侧AI模型及行业端侧模型,基于不同等级算力的芯片平台或模组,Fibocom AI Stack可将TensorFlow、PyTorch、ONNX、
    物吾悟小通 2025-01-08 18:17 53浏览
  • 职场是人生的重要战场,既是谋生之地,也是实现个人价值的平台。然而,有些思维方式却会悄无声息地拖住你的后腿,让你原地踏步甚至退步。今天,我们就来聊聊职场中最忌讳的五种思维方式,看看自己有没有中招。1. 固步自封的思维在职场中,最可怕的事情莫过于自满于现状,拒绝学习和改变。世界在不断变化,行业的趋势、技术的革新都在要求我们与时俱进。如果你总觉得自己的方法最优,或者害怕尝试新事物,那就很容易被淘汰。与其等待机会找上门,不如主动出击,保持学习和探索的心态。加入优思学院,可以帮助你快速提升自己,与行业前沿
    优思学院 2025-01-09 15:48 53浏览
  • 在智能网联汽车中,各种通信技术如2G/3G/4G/5G、GNSS(全球导航卫星系统)、V2X(车联网通信)等在行业内被广泛使用。这些技术让汽车能够实现紧急呼叫、在线娱乐、导航等多种功能。EMC测试就是为了确保在复杂电磁环境下,汽车的通信系统仍然可以正常工作,保护驾乘者的安全。参考《QCT-基于LTE-V2X直连通信的车载信息交互系统技术要求及试验方法-1》标准10.5电磁兼容试验方法,下面将会从整车功能层面为大家解读V2X整车电磁兼容试验的过程。测试过程揭秘1. 设备准备为了进行电磁兼容试验,技
    北汇信息 2025-01-09 11:24 69浏览
  • 「他明明跟我同梯进来,为什么就是升得比我快?」许多人都有这样的疑问:明明就战绩也不比隔壁同事差,升迁之路却比别人苦。其实,之间的差异就在于「领导力」。並非必须当管理者才需要「领导力」,而是散发领导力特质的人,才更容易被晓明。许多领导力和特质,都可以通过努力和学习获得,因此就算不是天生的领导者,也能成为一个具备领导魅力的人,进而被老板看见,向你伸出升迁的橘子枝。领导力是什么?领导力是一种能力或特质,甚至可以说是一种「影响力」。好的领导者通常具备影响和鼓励他人的能力,并导引他们朝着共同的目标和愿景前
    优思学院 2025-01-08 14:54 93浏览
  • HDMI 2.2 规格将至,开启视听新境界2025年1月6日,HDMI Forum, Inc. 宣布即将发布HDMI规范2.2版本。新HDMI规范为规模庞大的 HDMI 生态系统带来更多选择,为创建、分发和体验理想的终端用户效果提供更先进的解决方案。新技术为电视、电影和游戏工作室等内容制作商在当前和未来提供更高质量的选择,同时实现多种分发平台。96Gbps的更高带宽和新一代 HDMI 固定比率速率传输(Fixed Rate Link)技术为各种设备应用提供更优质的音频和视频。终端用户显示器能以最
    百佳泰测试实验室 2025-01-09 17:33 60浏览
  • 故障现象一辆2017款东风风神AX7车,搭载DFMA14T发动机,累计行驶里程约为13.7万km。该车冷起动后怠速运转正常,热机后怠速运转不稳,组合仪表上的发动机转速表指针上下轻微抖动。 故障诊断 用故障检测仪检测,发动机控制单元中无故障代码存储;读取发动机数据流,发现进气歧管绝对压力波动明显,有时能达到69 kPa,明显偏高,推断可能的原因有:进气系统漏气;进气歧管绝对压力传感器信号失真;发动机机械故障。首先从节气门处打烟雾,没有发现进气管周围有漏气的地方;接着拔下进气管上的两个真空
    虹科Pico汽车示波器 2025-01-08 16:51 108浏览
  •  在全球能源结构加速向清洁、可再生方向转型的今天,风力发电作为一种绿色能源,已成为各国新能源发展的重要组成部分。然而,风力发电系统在复杂的环境中长时间运行,对系统的安全性、稳定性和抗干扰能力提出了极高要求。光耦(光电耦合器)作为一种电气隔离与信号传输器件,凭借其优秀的隔离保护性能和信号传输能力,已成为风力发电系统中不可或缺的关键组件。 风力发电系统对隔离与控制的需求风力发电系统中,包括发电机、变流器、变压器和控制系统等多个部分,通常工作在高压、大功率的环境中。光耦在这里扮演了
    晶台光耦 2025-01-08 16:03 84浏览
  • 根据环洋市场咨询(Global Info Research)项目团队最新调研,预计2030年全球中空长航时无人机产值达到9009百万美元,2024-2030年期间年复合增长率CAGR为8.0%。 环洋市场咨询机构出版了的【全球中空长航时无人机行业总体规模、主要厂商及IPO上市调研报告,2025-2031】研究全球中空长航时无人机总体规模,包括产量、产值、消费量、主要生产地区、主要生产商及市场份额,同时分析中空长航时无人机市场主要驱动因素、阻碍因素、市场机遇、挑战、新产品发布等。报告从中空长航时
    GIRtina 2025-01-09 10:35 60浏览
  • 在过去十年中,自动驾驶和高级驾驶辅助系统(AD/ADAS)软件与硬件的快速发展对多传感器数据采集的设计需求提出了更高的要求。然而,目前仍缺乏能够高质量集成多传感器数据采集的解决方案。康谋ADTF正是应运而生,它提供了一个广受认可和广泛引用的软件框架,包含模块化的标准化应用程序和工具,旨在为ADAS功能的开发提供一站式体验。一、ADTF的关键之处!无论是奥迪、大众、宝马还是梅赛德斯-奔驰:他们都依赖我们不断发展的ADTF来开发智能驾驶辅助解决方案,直至实现自动驾驶的目标。从新功能的最初构思到批量生
    康谋 2025-01-09 10:04 59浏览
  • 在当前人工智能(AI)与物联网(IoT)的快速发展趋势下,各行各业的数字转型与自动化进程正以惊人的速度持续进行。如今企业在设计与营运技术系统时所面临的挑战不仅是技术本身,更包含硬件设施、第三方软件及配件等复杂的外部因素。然而这些系统往往讲究更精密的设计与高稳定性,哪怕是任何一个小小的问题,都可能对整体业务运作造成严重影响。 POS应用环境与客户需求以本次分享的客户个案为例,该客户是一家全球领先的信息技术服务与数字解决方案提供商,遭遇到一个由他们所开发的POS机(Point of Sal
    百佳泰测试实验室 2025-01-09 17:35 59浏览
  • 一个真正的质量工程师(QE)必须将一件产品设计的“意图”与系统的可制造性、可服务性以及资源在现实中实现设计和产品的能力结合起来。所以,可以说,这确实是一种工程学科。我们常开玩笑说,质量工程师是工程领域里的「侦探」、「警察」或「律师」,守护神是"墨菲”,信奉的哲学就是「墨菲定律」。(注:墨菲定律是一种启发性原则,常被表述为:任何可能出错的事情最终都会出错。)做质量工程师的,有时会不受欢迎,也会被忽视,甚至可能遭遇主动或被动的阻碍,而一旦出了问题,责任往往就落在质量工程师的头上。虽然质量工程师并不负
    优思学院 2025-01-09 11:48 82浏览
  • 光伏逆变器是一种高效的能量转换设备,它能够将光伏太阳能板(PV)产生的不稳定的直流电压转换成与市电频率同步的交流电。这种转换后的电能不仅可以回馈至商用输电网络,还能供独立电网系统使用。光伏逆变器在商业光伏储能电站和家庭独立储能系统等应用领域中得到了广泛的应用。光耦合器,以其高速信号传输、出色的共模抑制比以及单向信号传输和光电隔离的特性,在光伏逆变器中扮演着至关重要的角色。它确保了系统的安全隔离、干扰的有效隔离以及通信信号的精准传输。光耦合器的使用不仅提高了系统的稳定性和安全性,而且由于其低功耗的
    晶台光耦 2025-01-09 09:58 43浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦