一、什么是?
很多人误以为SRE是传统运维,是IaC(基础架构即代码),是软件开发和运维开发,是CI/CD 自动化,是应用运维、网络运维、操作系统运维、云运维….
Google 对于SRE的定义如下:
1、SRE是一个学科
2、SRE是一种最佳实践
3、SRE是一类创新岗位
SRE:站点可靠性工程(Google负责7*24小时运维的VP命名);
1. SRE是学科:使用计算机和软件工程手段设计和研发大型、分布式计算机软件系统;
2. SRE关注:焦点是可靠性,包括架构设计、运维流程优化—> “足够可靠”;
3. SRE主要工作:运维分布式集群系统上的具体业务服务(Service);
SRE是一种职业:专注于软件系统生命周期管理的IT工程师;
二、SRE的新发展
(1)与统一文化、融合互补
(2)异军突起、方兴未艾
2.1 监控和可观测性
• 分布式、复杂的服务以不可预测的用户和可变吞吐量大规模运行,意味着有数百万种不同的方法出错
• 但是我们不能预测它们(监控神话)
• 刚需:将服务的所有输出外部化,使我们能够推断该服务的内部状态(可观测性)
2.2 举例说明:SLO, SLI& 可观测性
SLO 从用户的角度,帮助确定什么是重要的
• 例如,90%的用户应在一分钟内完成完整的付款交易
SLI 详细介绍了我们目前的表现
• 例如,98%的用户在一个月内在不到一分钟内完成付款交易
可观测性使用服务的正常状态
• 38秒是用户完成付款的“正常”时间,这时整体服务都健康
(3)引领平台工程、实现自助平台
三、SRE是新运维的奇点
什么是奇点?
奇点是一个物理学概念
1. 世界万物的起源是一致的
2.一切已知物理定律均在奇点失效
SRE是新运维奇点,在开发和运维之间引入和推动“奇点”。SRE本质上鼓励一种文化,即在应用程序及其生态系统之间,在开发与运维之间,在软件工程和系统工程之间,引入和推动奇点。 SRE的愿景是确保通过满足客户期望的可靠服务来交付业务价值。
四、体系
(1)SRE Foundation认证培训
SRE(Site Reliability Engineering)Foundation℠课程介绍了使组织能够可靠和经济地扩展关键服务的原则和实践。引入站点可靠性维度需要组织重新调整、对软件工程和自动化的关注以及采用一系列新的工作模式。
SRE Foundation课程强调了SRE的发展及其未来的方向,并为参与者提供了实践、方法和工具,让整个组织的人员都参与到可靠性和稳定性中,通过使用真实场景和案例故事证明了这一点。课程结束后,学员将有切实的收获,例如理解、设置和跟踪服务水平目标(SLO)。
(2) SRE Practitioner认证培训
SRE Practitioner课程介绍了一系列通过混合自动化、组织工作方式和业务协调来推进服务可靠性工程的实践。为专注于大规模服务可扩展性(scalability)和可靠性(reliability)的学友们量身定制。SRE Practitioner认证课程探讨了通过设计、自动化和闭环修复提高服务健康的敏捷性、跨职能协作和透明度的策略,以构建弹性。
本课程旨在为学员提供实践、方法和工具,通过使用真实场景和案例故事,让组织内参与可靠性的人员参与进来。课程结束后,学员将在返回办公室时获得切实的收获,例如实施符合其组织背景的 SRE 模型、在分布式系统中构建高级可观察性、通过设计建立弹性以及使用 SRE 实践进行有效的事件响应。本课程通过利用关键SRE资源,与SRE领域的思想领袖合作,并与接受SRE的组织合作,以提取现实生活中的最佳实践,旨在教授开始采用SRE所需的关键原则和实践。
(3)可观测性认证培训
可观测性(Observability)认证课程介绍了在组织内实现可观测性的方法。它探讨了通过可观测性关键要素:包括事件(Events)、指标(Metrics)、跟踪(Tracing)和上下文(Context),构建智能的异常检测、故障排除 、根因定位能力,实现全栈可观测性,提升组织的故障处理、业务洞察、跨职能协作能力。
本课程旨在为学员提供实践、方法和工具,通过使用真实场景和案例故事,让组织内参与可观测性的人员参与进来。课程结束后,学员将在返回办公室时获得切实的收获,例如实施符合其组织背景的可观测性模型、在分布式系统中构建可观测性、通过设计建立洞察以及使用可观测性实践进行有效的事件响应。本课程通过利用关键可观测性资源,与可观测性领域的思想领袖合作,并与接受可观测性的组织合作,以提取现实生活中的最佳实践,旨在教授开始采用可观测性所需的关键原则和实践。