×
<在线客服<
描述
021-53098865


欢迎来到雅菲奥朗官网
欢迎来到雅菲奥朗官网

中国SRE社区:浙江移动SRE实践汇编

时间 :2023-01-19 作者 :雅菲奥朗 分类 :SRE百科
浙江移动的告警管理,智能告警管理,或监控管理,您认为到目前为止是不是已经基本上实现了自动化或者智能化?浙江移动从 18 年那个时候引入学习SRE,19 年启动做SRE,现在应该是四年了。这四年实践,你这样经过以后,你感觉目前SRE在我们 IT 的自动化和智能化发挥的作用是什么样的?以及你未来看,通过机器或者通过平台来取代原来对人的要求,不管体力的要求或者智力的要求方面,你觉得能发挥一个什么样的作用?浙江移动SRE团队规模如何?我们目前使用的主要技术栈有哪些?浙江移动内部,目前有参加哪些SRE培训?

Q1: 浙江移动的告警管理,智能告警管理,或监控管理,您认为到目前为止是不是已经基本上实现了自动化或者智能化?如果是,你们目前还有什么需要提高的地方?如果不是,您觉得是在哪一个阶段?


A1: 这个问题其实我是这样理解的。关于自动化和智能化,在我们的告警管理中,其实我们做自动化的目标是减少 oncall 工程师的工作量。我们其实用很多手段让它自动化,比如我们通过短信,通过微信机器人等等,这种手段能够去减少他的工作量,以及告警的一些自动处理的策略。

但是在我们实际运维工作中,这一部分的工作其实我们已经通过SRE 开展了多年,在减少琐事上取得了较好的成效,我们现在也在思考后续应该怎么做。在减少琐事以外,还有很多事情实际上也占用了大量的精力,比如非琐事的专家经验。因为专家经验是需要一定门槛的,不是所有的人都很容易上手。在这个过程中,我们其实就考虑了智能化的手段,也就是能够将专家经验提取出来,或者能够替换掉它。目前我们在这方面正在开展工作,我们也是设定了几个级别,参考自动驾驶从 L1 到L5,L4 实际上就已经达到了自动驾驶的程度了。 L5 是理想的自配置规则,这个比较难。我们目前基本上是从 L3 到 L4 的一个过渡阶段,在智能化的手段上。

 

Q2: 浙江移动从 18 年那个时候引入学习SRE,19 年启动做SRE,现在应该是四年了。这四年实践,你这样经过以后,你感觉目前SRE在我们 IT 的自动化和智能化发挥的作用是什么样的?以及你未来看,通过机器或者通过平台来取代原来对人的要求,不管体力的要求或者智力的要求方面,你觉得能发挥一个什么样的作用?


A2:首先,经过了多年的SRE实践,成效还是很显著的。我们现在很多平时日常的这种维护工作,像报表类、巡检类、核查类等等,都已经通过我们自动化手段解决了。这个也是会带来我们实际工作中的一个很大的助益。

在这个过程中,我们也遇到一些问题,主要还是面临人员转型的问题。这个人他原来的技能并不匹配,如何把人员转型,是我们这么多年来的另一个很重要的成果。目前我们浙江移动的SRE团队,省公司层面已经有 100 多个成员是具备了独立开发能力的,结合到地市公司,已经有 400 余人是具备这样的一个开发能力的。现在对于我们的一线的人员来说,很多的事情他可以自己通过自动化手段去解决掉了,不需要像以前占用他很大的精力,也不需要再去做问题上报,这都是我们引入 SRE 以后带来的一个工作方式上的改变。


Q3:您的岗位叫SRE 研发负责人,您的需求是面对业务的需求,还是面对运维的需求,还是我们都要去负责?您能说一下吗?


A3:我的第一个岗位是SRE 研发负责人,第二个岗位,马上跟在后面的是核心网络运维专家,其实这也反映了我们的这样一个岗位特征。我是来自通信行业的,在我们行业中,大多数从业者都是我们称为 CT 专业的人员,即CT专家。其实原生并不是做 IT 的人,但是随着公司的业务发展以及人员数字化转型的过程中,现在有了这样的一个需求。我们就需要把 CT 的技能逐渐地向 IT 的技能去做转换,最终成为 IT 和 CT 融合的一个复合型人才。

在公司层面,我们也提出这样一个战略,叫做人员数字化转型,它和企业高质量发展是并行的,可见战略重要的程度。这样我的岗位也就很好理解了,在数字化转型的过程中,是需要有一些人先走出去一步,引领大家一起往这个方向去努力。如何走出这一步,我们还是要结合具体的业务,因为最终还是要立足业务的发展和业务的维护。在这个过程中,需要人员对业务有一定的理解,还需要有很好的开发能力,同时对于 IT 架构也有一个很好的理解。这也就是我岗位的来源。

SRE是一个运维拥抱研发的理念,实际上我们立足于原专业,去拥抱一个新的能力,在这个过程中,引领整体通信行业的专家们去实现技能的转型,以及能力的提升。

 

Q4:浙江移动SRE团队规模如何?我们目前使用的主要技术栈有哪些?


A4:省公司目前是100多人,地级市目前有400多人,加起来已经500多人的SRE团队了。我们后端主要技术栈是Python, Python 生态应该说它是一个现在应用范围最广、适用性最强的。它应用支持的包,还有它的库函数都是比较丰富的。同时它的学习成本相对较低,也利于人员的上手。

同时,我们用到技术栈也有Java,因为有一些人员,他原来就有这种面向对象语言的开发能力,所以也有 Java 技术栈。在前端,有像 node.js、 v u e 、 js等等。前端实际上我们目前的人员是比较少的,大家更多的问题解决,其实依靠后端就可以了。前端我们是有针对性的单独培养了一些人去做这方面的工作。

接下来,还有一块是AI,也是我们现在比较重视的。AI我们用到的框架有包括 tensorflow,这是神经网络算法用到的标准开源框架,还有像Pandas、  Zeppelin 等技术栈。

Q5: 我们在 IT 领域,特别在互联网领域,其实现在目前的趋势来看,随着我们技术的演进,开源软件或者开源的组件,用的越来越多了。也没有任何一个单位,他会有精力去重新发明所有的轮子,这也是开源的核心思想。想了解,我们浙江移动在一个SRE建设和转型的过程当中,我们也做开发,做很多软件工程,做些设计等等。有没有用到一些开源的软件或者开源的组件? 目前的进展情况怎么样?


A5:开源实际上,我们用的还是非常多的。我可以举一个开发项目的例子,我们曾经开发过一个分布式数据库,最初采用的是 gbase,它是一个非开源的,是买来的。但是后来我们迁移到了greenplum。这个过程其实我们的成本是很高的,因为 g base 数据库属于 MySQL 体系的, gp是属于Postgresql 体系的,底层语言不同,需要很多的重新开发。但是我们最后还是决定做了迁移,其实也是当时讨论了很久,并且下了很大决心。有几个问题最终导致了我们这样做。

第一个,开源的数据库,它对复杂特性的支持更好。就拿上述两个 MPP数据库为例, SQL标准按年份有 92、99、08、11、16 等等。 MySQL 体系对于 SQL 标准的支持程度并不高,基本只支持到99及03的部分特性。但是PostgreSQL这样一个阵营,它是全部支持到03、08,还支持11、16的新特性,并且它对于复杂特性进行了性能优化。我们当时做的业务系统,它的逻辑是比较复杂的,需要采用很多 SQL 新标准中的特性函数,让代码的效率达到最优。在这个过程中,基于 MySQL 的gbase可以做简单查询统计,但是对于这种复杂操作的支持和性能优化不足,不能够完全满足我们的业务处理逻辑要求。

第二个,我们考虑了扩展性和兼容性。 我还以gp为例,它除了支持SQL 语言,它还支持调用 C/ Python 等外部语言去进行开发,这个就很好。但是 MySQL 阵营中只支持 SQL 语言的开发。我们的项目后续要采用AI 模块,为了更精准的实现 AI 赋能效果,我们需要调用 Python 和机器学习类库来实现。MySQL在机器学习上没有相关支持,不能满足更多新功能的升级需求。这也是我们最终下决心进行迁移的一个重要的依据。我们目前大多数项目都是基于开源来实现的,因为它从生态的丰富性上、从扩展性和兼容性来讲,都是具有很大的优势的。


Q6:浙江移动内部,我们有这么多平台,这么多的产品,这么多能力,未来会有向面向社会开源的想法吗?还是只在我们企业内部的开源?


A6:最底层的开源我们现在没有计划去动。我们在基础上会叠加一些带着业务特性的开源。比如说,我们现在在做的微信机器人的告警通知,是基于 chatbot架构,我们开发了一个Chatops平台,通过跟微信机器人的交互,运维人员就能够查询到大网所有的告警、指标等。在这方面我们已经形成了一个非常好的体系化的平台和阵营。浙江移动现在各个地市公司都创建了自己的机器人,像杭州的叫小滨,温州的叫小欧等等。类似这个机器人,我们已经有计划去做推广和应用的尝试。


Q7:浙江移动内部,目前有参加哪些SRE培训

Q7: 我们从2019年开始,加入了SRE书友会,跟着刘峰老师一起从读《Google SRE运维解密》一书开始进行学习,然后在2020年,我们参加了雅菲奥朗举办的SRE Foundation认证培训,并且全员获得了SRE Foundation的认证。在2022年,我们又继续参加了SRE高阶实战培训SRE Practitioner认证培训,并顺利通过SRE Practitioner考试,获得认证。我们一直坚持读书和学习,来增强SRE团队成员的综合能力。