1、SLI是工程师为了和系统交流的量化数据。
2、监控SLI能告诉我们SLO是否满足期望,它也能告诉我们error buget还剩多少。
3、一般来说SLI会被认为是一个比率,好的事件数量除以所有的事件数量。例如: 成功的HTTP请求数量/所有的HTTP请求数量(HTTP请求成功率)。
系统监控是试用软件或者硬件去监控计算机系统资源和性能情况。
遥测是一种高度自动化的通信过程,通过该过程可以进行测量并在远程或无法访问的点处收集其他数据,并将其传输到接收设备以进行监视。
应用程序性能监视是监视和管理软件应用程序的性能和可用性。APM努力检测和诊断应用程序性能问题,以维持预期的服务水平。
1、监控 - 工具举例: Nagios, Splunk, Prometheus
2、图形演示以及报表 - 工具举例: Granfana, Collectd
3、日志 - 工具举例: Logstash, Rsyslog, Collectd
4、告警 - 工具举例: Pager
分布式,复杂的服务,无法预测的用户和可变的吞吐量在大规模运行着,这意味着有数百万种出错的可能
但是我们无法预测到所有的出错的可能
将服务的所有状态都输出到外部,使得我们能够推断服务的内部状态
服务快速增长
动态架构
容器的负载
服务之间的依赖关系
关系到客户体验
分布式跟踪
事件日志
内部性能数据
应用仪器
识别单个用户体验
少而精的警告
SLO/SLi的客观测性
对于告警,Google 的理念为只告警最重要的信息,这可以保证告警的有效性;如果你每天都能收到上百上千甚至上万条告警,那这样的告警是无效的.你也是不会看的。