×
<在线客服<
描述
021-53098865


欢迎来到雅菲奥朗官网
欢迎来到雅菲奥朗官网

SRE可观测性和SLI学习笔记

时间 :2022-08-03 作者 :雅菲奥朗 分类 :SRE百科
为什么SRE可观测性很重要?关系到服务快速增长,动态架构,容器的负载,服务之间的依赖关系,关系到客户体验。SRE SLI是工程师为了和系统交流的量化数据。监控SLI能告诉我们SLO是否满足期望,它也能告诉我们error buget还剩多少。一般来说SLI会被认为是一个比率,好的事件数量除以所有的事件数量。

什么是Service Level Indicators(SLI) ?

1、SLI是工程师为了和系统交流的量化数据。
2、监控SLI能告诉我们SLO是否满足期望,它也能告诉我们error buget还剩多少。
3、一般来说SLI会被认为是一个比率,好的事件数量除以所有的事件数量。例如: 成功的HTTP请求数量/所有的HTTP请求数量(HTTP请求成功率)。


什么是监控 ?

  • Monitoring(监控)

系统监控是试用软件或者硬件去监控计算机系统资源和性能情况。

  • (Telemetry)遥测技术

遥测是一种高度自动化的通信过程,通过该过程可以进行测量并在远程或无法访问的点处收集其他数据,并将其传输到接收设备以进行监视。

  • (Application Performance Monitoring)应用性能管理

应用程序性能监视是监视和管理软件应用程序的性能和可用性。APM努力检测和诊断应用程序性能问题,以维持预期的服务水平。


监控又分为四个部分:

1、监控 - 工具举例: Nagios, Splunk, Prometheus
2、图形演示以及报表 - 工具举例: Granfana, Collectd
3、日志 - 工具举例: Logstash, Rsyslog, Collectd
4、告警 - 工具举例: Pager


Monitoring(监控) 和 Observability(可观测性):

  • 分布式,复杂的服务,无法预测的用户和可变的吞吐量在大规模运行着,这意味着有数百万种出错的可能

  • 但是我们无法预测到所有的出错的可能

  • 将服务的所有状态都输出到外部,使得我们能够推断服务的内部状态


为什么可观测性很重要?

  • 服务快速增长

  • 动态架构

  • 容器的负载

  • 服务之间的依赖关系

  • 关系到客户体验


可观测性应该包含如下内容:

  • 分布式跟踪

  • 事件日志

  • 内部性能数据

  • 应用仪器

  • 识别单个用户体验

  • 少而精的警告

  • SLO/SLi的客观测性

    对于告警,Google SRE的理念为只告警最重要的信息,这可以保证告警的有效性;如果你每天都能收到上百上千甚至上万条告警,那这样的告警是无效的.你也是不会看的。