SRE大师系列访谈之一：SRE是谷歌的DevOps成功实践

时间：2022-09-14 作者：雅菲奥朗分类：SRE百科

SRE（Site Reliability Engineering）是最早由Google提出，又经由Google发展和完善的一个崭新运维理念。如今SRE已成为一个涵盖运维理念、思路、组织架构和具体实践的完整体系。推出SRE系列教程，由SRE经验丰富的技术大牛们为大家分享运维一线的独家干货，揭示SRE背后的秘密。SRE是Google发明的一个词语或者新定义的一个职业。

（Site Reliability Engineering）是最早由Google提出，又经由Google发展和完善的一个崭新运维理念。如今SRE已成为一个涵盖运维理念、思路、组织架构和具体实践的完整体系。推出SRE系列教程，由SRE经验丰富的技术大牛们为大家分享运维一线的独家干货，揭示SRE背后的秘密。

我们邀请了前Google SRE、《SRE：Google运维解密》的译者孙宇聪与大家进行了SRE系列分享。今天与大家分享的内容是关于最近我翻译的这本书，据说反响还不错，今天借这个机会聊一聊书中的内容，并与大家分享一下我回国两年多以来，Google经验在国内的一些思考和落地实践。

什么是SRE？

很多时候国内把的范围定得有点狭窄， DevOps这件事情在国外更多是整个行业内的一个趋势。DevOps是一种模式，主要是让IT相关的东西与商业结合得更紧密一些，迭代速度变得更快一些，所以它适用于各个行业。今天说的SRE，我认为也是在运维行业上的一部分。

概括来说，我认为《SRE：Google运维解密》这本书是一个文集。GoogleSRE全球一千多人，这个组织在公司里相对比较小众，但又是一个比较重要的部门，整个Google所有业务线的运维环境都由SRE来负责。SRE是一个非常分散的组织，每个业务线、每个部门其实都有自己的SRE小团队。这本书里共有一百多个作者联合写成，其中也包括我以前所在的团队，我们做过的一些Project也在书中也有提到，所以它是一本文集。我与原著的三个编辑聊天时，他们说成书最大的难处就是删减内容，当时征集来的内容大概有一千多页，最后删到了五百多页。这也是这本书比较有意思的一个花絮。

回到这本书的宗旨， SRE到底是什么？SRE是Google发明的一个词语或者新定义的一个职业。以前这个运维角色，大家叫运维，美国叫Operation。现在Google把这个职位扩展为SRE，就是用软件工程师的方法和手段，招了一些软件工程师来解决运维的难题，这是SRE的官方定义。

上一篇：SRE大师系列访谈之二：传统运维模式的弱点下一篇：Google SRE运维模式的解读