【分享】腾讯业务系统监控的修炼之路( 二 )


【分享】腾讯业务系统监控的修炼之路

文章插图
监控的目的
通过对上文的一些概念介绍,其实我们已经可以推导出应用监控告警的目的,就是持续优化业务服务质量,并建设质量体系 。同样织云监控也是为了打造质量体系的闭环路径 。
【分享】腾讯业务系统监控的修炼之路

文章插图

【分享】腾讯业务系统监控的修炼之路

文章插图
监控告警的产品属性
监控告警是一款数据类属性的产品,既然是数据类产品,那么在产品设计的时候一定要注意这样的路径闭环 数据生产→数据增值→数据消费,围绕着这样的路径我们就可以勾勒出很多的用户故事,用户故事就是针对具体的角色,会有什么具体的活动,这个活动所产生的价值 。
【分享】腾讯业务系统监控的修炼之路

文章插图
这里举个简单的例子,来说明数据生产与数据消费 。随着后面详细的讲述产品建设过程中会更加详细的阐述这个闭环的路径 。
数据生产:例如一台服务器上报的各种基本的 OS 指标数据,如 CPU 使用率,内存使用量等 。这就产生了若干待消费的原始数据,那么我们能用这些数据干什么呢?
数据消费:对这些上报的原始数据整理可以用作视图展示,例如图形化展示该服务在最近一个小时的 CPU 使用率 。又或者对这些原始数据设定阈值,当超过某个阈值的时候,就产生告警通知 。这些都是最直接的消费的场景 。
我们再延伸一步对于这些消费场景产生的告警数据,是否可以再进一步消费呢?答案是可以的,例如对若干承载 CPU 计算型业务的服务器所产生的cup使用率告警(生产)时间进行分析统计(消费),是不是可以基本推导出该业务的服务高峰期是大概在那个时间范围呢?
这里想说明的是多数原子数据并无单一的消费或者生产的属性,而是要取决于在具体的场景与所处的数据链条中的角色 。
并且监控告警的数据加上特定的流程(ITSM)也可以驱动监控告警+自动化的大的业务逻辑交互闭环,这个场景容我先卖个关子,后面的叙述会再次提及到这部分 。
监控体系
体系,泛指一定范围内或同类的事物按照一定的秩序和内部联系组合而成的整体,是不同系统组成的系统 。其实这个描述是有些抽象的,咱们用大白话套用监控体系来解读下 。
对于一个有一定体量的公司,需要一些不同的监控系统,通过系统与系统间的内部交互来组成一个大的整体,从而完成对不同场景下的监控需求即监控体系 。用我们内部来举例说,我们内部在现网上跑的监控系统也有快10套了,同样在构建体系时关键的部分也是要用动态的视角去看待这些系统所产生的数据,而不是每个系统都是一个孤立的数据孤岛 。下图是织云整体的监控体系 。
【分享】腾讯业务系统监控的修炼之路

文章插图
在织云监控告警产品建设过程中,我们融入了很多关于海量运维的监控思考与经验沉淀 。
【分享】腾讯业务系统监控的修炼之路

文章插图
这里的监控体系是和公司体量大小有直接关系的,但是一般来说在这个体系中,应该有三类监控系统是必备的 。
【分享】腾讯业务系统监控的修炼之路

文章插图
总结
【【分享】腾讯业务系统监控的修炼之路】通过上文的简单介绍,相信大家对监控告警会有个初步的宏观认识,随着后续文章的铺开,大家会逐步了解到一个企业级的监控产品是怎样从0到1演化而来的 。同时下篇文文章就会进入到实战阶段 。建设监控告警是一条持续且漫长的路也是蛮复杂的,坑也很多,但还是有一些基本的方法论和规律可以遵循的 。