×
<在线客服<
描述
021-53098865


欢迎来到雅菲奥朗官网
欢迎来到雅菲奥朗官网

SRE SLO和错误预算的学习笔记

时间 :2022-07-14 作者 :雅菲奥朗 分类 :SRE百科
SRE SLO是一个来衡量产品或者服务运营的目标,SRE SLO 和用户体验紧密相关,设置和衡量的SLO目标是SRE角色的关键工作,最为广泛使用的SLO目标是可用性,产品和服务可以具有多个SLO。

一、什么是Service Level Objective(SLO) ?

1、SLO 是一个来衡量产品或者服务运营的目标

2、SLO 和用户体验紧密相关

3、设置和衡量的SLO目标是SRE角色的关键工作

4、最为广泛使用的SLO目标是可用性

5、产品和服务可以具有多个SLO

总之: SLO是为了将用户体验做的更好


二、什么是错误预算 ?

由于SLO不可能是100%,那如果设置服务SLO为99.9%的时候,那剩下的0.1%就叫做错误预算。如果SLO没有达到99.9%,那SRE团队就需要额外工作来找到原因以及优化以及修复SLO。
例子:如果我们的服务在一个月内收到1,000,000个请求,则99.9%的可用性SLO会为我们提供该期间1,000个错误预算。


错误预算的好与坏:

坏处

好处

如果错误预算超过预算了,则意味着SRE团队需要加班来解决这些问题

另一方面来说,我们鼓励SRE每个月将错误预算使用完,例如打补丁或者架构调整等


如果SLO达不到要求,研发团队需要停止手头的开发工作,专注于优化改进SLO的事情,直到SLO达到要求。并且研发必须每天向SRE团队汇报每天的进展。


可用性和错误预算示例表:

可用性

错误预算(一个月)

99%

432分钟

99.9%

43.2分钟

99.99%

4.3分钟

99.999%

4秒