×
<在线客服<
描述
021-53098865


欢迎来到雅菲奥朗官网
欢迎来到雅菲奥朗官网
描述
SRE Foundation培训  
雅菲奥朗SRE Foundation课程介绍了使组织能够可靠和经济地扩展关键服务的原则和实践。SRE Foundation培训是为那些关注大规模服务可用性的学员量身定制的课程。雅菲奥朗携手DevOps Institute推出SRE Foundation认证培训,成为国内首家SRE授权培训和考试机构。
相关课程
  • 课程详情
  • 【课程概览】

    工信部教考中心精心设计的《系统可靠性工程师》高级课程,聚焦站点可靠性工程(SRE)体系,深度融合可靠性与服务韧性理念,系统阐释现代数字基础设施可靠性建设的理论与最佳实践。本课程旨在帮助学员全面掌握SRE核心方法论,深入理解服务级别目标、可观测性、混沌工程等关键技术域,快速获得金融、运营商、云厂商等行业头部企业的实战要点与落地建议。通过本课程学习,学员能够建立量化驱动的可靠性思维,打造具备故障韧性、自愈能力与持续改进特性的技术平台,不断提升所维护系统的稳定性与业务连续性;以SRE作为"主动管理复杂系统风险"之道,构建从故障预防、快速响应到智能运维的完整能力闭环,切实降低事故损失,实现降本增效目标。

     

    【课程级别】高级


    【课程天数】2天


    【认证单位】工业和信息化部教育与考试中心


    【课程对象】

    ● 系统可靠性工程师(SRE)

    DevOps/自动化运维工程师

    ● 云平台(IaaS/PaaS/SaaS)运维负责人

    ● IT总监、IT经理、技术团队负责人

    ● 软件工程师、系统架构师、产品经理、Scrum Master

    ● 业务连续性/变革推动者、咨询顾问及工具厂商技术顾问

     

    【课程收益】

    完成本课程后,学员将能够:

    ● 在组织内建立量化驱动的SRE文化,运用六大原则指导系统可靠性工作,参考金融及云厂商最佳实践构建适合自身业务特点的SRE体系;

    ●  独立制定科学合理的SLI/SLO指标体系与错误预算政策,实现业务需求与技术实现的精准对齐,将SLO达成率提升至行业领先水平;

    ●  设计并实施统一监控与可观测性平台,整合Metric、Trace、Log等多维数据,运用Jaeger等工具实现故障分钟级定位与根因分析;

    ●  主导混沌工程常态化建设,策划并执行千级别演练场景,精准捕获高可用隐患,系统性提升系统反脆弱性与应急响应能力;

    ●  构建基于MTTx指标的故障管理体系,搭建ChatOps协同应急平台,实现P1事件自动回滚与专家蜂群式快速集结,大幅降低故障损失;

    ●  将AI/ML技术融入运维流程,通过日志分析、异常检测与智能算法实现预测性运维,结合大模型能力推动运维智能化转型;

    ●  推动SRE标准体系在组织落地,运用四步法完成现状评估、差距分析与认证准备,建立可持续改进的可靠性成熟度模型;

    ●  规划并建设全链路可观测性能力,分阶段实现数据互通、立体观测与智能洞察,为复杂分布式系统提供全景可观测视图。

    ●  获得职业资格认证,完成课程并通过考试的学员,将获得工信部教考中心颁发的《系统可靠性工程师(高级)》职业技术证书。

     

    【发证机构】

    工业和信息化部教育与考试中心(简称:工信部教考中心)是中国工业和信息化部下属的一个专门机构,主要负责组织实施工业和信息化领域的教育培训及资格考试工作。近年来,工信部教考中心在国家认证课程创新方面很多建树,例如之前主导的国家软考认证(即《计算机技术与软件专业技术资格(水平)考试认证》)得到了全国各行业的持续推广和广泛好评,成为软件教育方面的冠军认证。


    【课程内容】

    一、破冰之旅:自我介绍 & SRE基本概念

    二、 SRE原则与实践

    三、服务级别目标

    四、 监控与可观测性

    五、混沌工程

    六、构建安全和可靠的系统

    七、SRE和故障管理

    八、人工智能运维与DataOps

    九、SRE标准介绍

    十、SRE开源工具介绍与分析

    十一、全链路可观测性建设与案例分享


    【课程概览】

    工信部教考中心精心设计的《系统可靠性工程师》高级课程,聚焦站点可靠性工程(SRE)体系,深度融合可靠性与服务韧性理念,系统阐释现代数字基础设施可靠性建设的理论与最佳实践。本课程旨在帮助学员全面掌握SRE核心方法论,深入理解服务级别目标、可观测性、混沌工程等关键技术域,快速获得金融、运营商、云厂商等行业头部企业的实战要点与落地建议。通过本课程学习,学员能够建立量化驱动的可靠性思维,打造具备故障韧性、自愈能力与持续改进特性的技术平台,不断提升所维护系统的稳定性与业务连续性;以SRE作为"主动管理复杂系统风险"之道,构建从故障预防、快速响应到智能运维的完整能力闭环,切实降低事故损失,实现降本增效目标。

     

    【课程级别】高级


    【课程天数】2天


    【认证单位】工业和信息化部教育与考试中心


    【课程对象】

    ● 系统可靠性工程师(SRE)

    DevOps/自动化运维工程师

    ● 云平台(IaaS/PaaS/SaaS)运维负责人

    ● IT总监、IT经理、技术团队负责人

    ● 软件工程师、系统架构师、产品经理、Scrum Master

    ● 业务连续性/变革推动者、咨询顾问及工具厂商技术顾问

     

    【课程收益】

    完成本课程后,学员将能够:

    ● 在组织内建立量化驱动的SRE文化,运用六大原则指导系统可靠性工作,参考金融及云厂商最佳实践构建适合自身业务特点的SRE体系;

    ●  独立制定科学合理的SLI/SLO指标体系与错误预算政策,实现业务需求与技术实现的精准对齐,将SLO达成率提升至行业领先水平;

    ●  设计并实施统一监控与可观测性平台,整合Metric、Trace、Log等多维数据,运用Jaeger等工具实现故障分钟级定位与根因分析;

    ●  主导混沌工程常态化建设,策划并执行千级别演练场景,精准捕获高可用隐患,系统性提升系统反脆弱性与应急响应能力;

    ●  构建基于MTTx指标的故障管理体系,搭建ChatOps协同应急平台,实现P1事件自动回滚与专家蜂群式快速集结,大幅降低故障损失;

    ●  将AI/ML技术融入运维流程,通过日志分析、异常检测与智能算法实现预测性运维,结合大模型能力推动运维智能化转型;

    ●  推动SRE标准体系在组织落地,运用四步法完成现状评估、差距分析与认证准备,建立可持续改进的可靠性成熟度模型;

    ●  规划并建设全链路可观测性能力,分阶段实现数据互通、立体观测与智能洞察,为复杂分布式系统提供全景可观测视图。

    ●  获得职业资格认证,完成课程并通过考试的学员,将获得工信部教考中心颁发的《系统可靠性工程师(高级)》职业技术证书。

     

    【发证机构】

    工业和信息化部教育与考试中心(简称:工信部教考中心)是中国工业和信息化部下属的一个专门机构,主要负责组织实施工业和信息化领域的教育培训及资格考试工作。近年来,工信部教考中心在国家认证课程创新方面很多建树,例如之前主导的国家软考认证(即《计算机技术与软件专业技术资格(水平)考试认证》)得到了全国各行业的持续推广和广泛好评,成为软件教育方面的冠军认证。


    【课程内容】

    一、破冰之旅:自我介绍 & SRE基本概念

    二、 SRE原则与实践

    三、服务级别目标

    四、 监控与可观测性

    五、混沌工程

    六、构建安全和可靠的系统

    七、SRE和故障管理

    八、人工智能运维与DataOps

    九、SRE标准介绍

    十、SRE开源工具介绍与分析

    十一、全链路可观测性建设与案例分享


课程天数:2天
 
SRE介绍了通过自动化、工作方法和组织重组的混合措施来提高服务可靠性的一系列实践。雅菲奥朗SRE Foundation是为那些关注大规模服务可用性的学员量身定制的课程。国际开发运维考试协会DevOps Institute(DOI)总部位于美国佛罗里达州,旨在推动前沿运维技术最佳实践和标准的全球普及与应用,DOI足迹已遍布全球30余个国家。DevOps Institute致力于帮助企业IT加快产品交付速度和实现数字化转型。DevOps Institute的认证课程主要涵盖DevOps,SRE,IT服务管理,敏捷服务管理(CASM)、持续交付、持续集成,DevSecOps(安全DevOps)及DevOps实践培训等。雅菲奥朗携手DevOps Institute推出SRE Foundation认证培训,成为国内首家SRE授权培训和考试机构。

一、为什么要学习SRE?
传统运维模式(Dev/Ops分离的团队模式)冲突的焦点:
战略层面:
1、直接成本相对清晰。
2、间接成本差异较大(背景、技术能力、工具习惯、工作目标)。
初步演变为目标与方向上的分歧以及内部沟通严重问题,上升到部门之间的信任与尊重。
战术层面:
传统研发团队和运维团队分歧的焦点主要在软件新版本、新配置的变更的发布速度上。
执行层面:
1、开发团队宣称不再进行大规模的程序更新,改为功能开关调整、增量更新和补丁化(大变更→小变更)。为了绕开运维团队设立的各种流程,从而更快地上线新功能。
2、绕过运维团队设立的新服务/变更发布流程,新功能上线速度是加快了,但事件仍在重现,使得服务质量很差。
冲突解决之道:SRE
SRE模型的优势:
1)运维人数相对少;
2)开发团队和运维团队的冲突焦点消除;
3)促进产品部门水平提高,因为SRE团队和研发团队之间的成员可以自由流动。

二、SRE Foundation课程的学习内容
SRE(Site Reliability Engineering)Foundation℠课程介绍了使组织能够可靠和经济地扩展关键服务的原则和实践。引入站点可靠性维度需要组织重新调整、对软件工程和自动化的关注以及采用一系列新的工作模式。
SRE课程强调了SRE的发展及其未来的方向,并为参与者提供了实践、方法和工具,让整个组织的人员都参与到可靠性和稳定性中,通过使用真实场景和案例故事证明了这一点。课程结束后,学员将有切实的收获,例如理解、设置和跟踪服务水平目标(SLO)。
该课程是通过利用关键的SRE资源,与SRE领域的思想领袖接触,并与支持SRE的组织合作,以提取现实生活中的最佳实践而开发的,旨在教授开始采用SRE所必需的关键原则和实践。本课程使学习者能够顺利完成SRE基础认证考试。

三、SRE Foundation课程的学习目标
1、SRE基础课程的学习目标包括实际了解:
2、SRE的历史及其在谷歌的出现
3、SRE与DevOps和其他流行框架的相互关系
4、SRE背后的基本原则
5、服务水平目标(SLO)及其用户关注点
6、服务水平指标(SLI)和现代监控环境
7、错误预算和相关的错误预算政策
8、人力及其对组织生产力的影响
9、有助于消除琐事的实际步骤
10、可观察性,表明服务的健康状况
11、SRE工具、自动化技术和安全重要性
12、反脆弱性,我们对失效和失效测试的方法
13、引入SRE带来的组织影响

四、SRE Foundation课程的目标学员
DevOps从业人员
任何对现代IT领导和组织变革方法感兴趣的人
业务经理
商业利益相关者
顾问
IT主管
IT经理
IT团队领导
产品负责人
Scrum大师
软件工程师
现场可靠性工程师
系统集成商
工具供应商

五、SRE Foundation课程的教学模式
16小时的讲师指导培训
课堂练习和讨论
行业案例故事
作业练习

六、参加SRE Foundation课程的收获
SRE代表了对行业现存管理大型复杂服务的最佳实践的一个重要突破,由于Google目前的全球领先地位,SRE模式可以为广大企业提供深度模仿或借鉴。
对于企业客户而言,通过学习和掌握SRE课程,将带来以下收获:
1. 国际知名的DevOps Institute学院(DOI)推出的SRE认证课程代表了这个领域的最新知识体系,学习课程可以明显提高团队人员知识水平和创新能力;
2. 此次课程可以帮助现有的SRE团队将现有的SRE实践和国际理论标准结合,强化SRE实践能力;
3. 课程可以帮助团队掌握SRE四个关键价值(1.一套指导思想、2.一套方法论、3.一套激励方法、4.一个专业能力发展);
4. 学习后将安排认证考试,通过后可获得DOI的官方认证,可以大大提升团队信心;
5. 2020年是SRE课程为国内第一批,认证证书也将是国内首批发放,实施后将明显提升公司在SRE方面的社会公信力和公司品牌形象。

七、雅菲奥朗SRE课程,讲什么?
1. 互联网时代的IT运维精英能力分析
2. 如何成为稀缺高薪SRE人才
3. Google SRE起源与实践总结
4. SRE自动化实践
5. 服务水平目标和错误预算
6. 减少琐事(TOIL)
7. 监控和服务水平指标
8. SRE工具及自动化
9. 反脆弱性和从失败中学习
10. SRE框架和发展趋势

雅菲奥朗SRE Foundation认证培训