上一篇主要概述了监控思路和客户体验监控,这篇侧重于基础设施监控。监控方法方面,可以细分为:
1. 服务/业务通断(可用性) 。2. 使用量3. 吞吐量4. 容量以上4类并非严格区分,仅用于参考,新应用/服务监控时会从这几方面考虑。基础设施可用性(通断)一般通过简单ping都可以发现,至于使用量和吞吐量,以及容量,那就属于过程监控了,基本上必须依赖专业的监控工具来做了。这里列举了些典型的监控指标:
主机监控:CPU使用率30%,内存使用率30%,磁盘读写1MBps,网络10Kbps,为什么机器就是慢?主流公云监控给的数据大众化了,基本上这些指标没有任何意义,对监控分析没有一毛钱帮助。使用率:CPU使用率(wait,sys,user),1分钟load值 ,内存使用率,swap使用。
吞吐量: 磁盘的iops(每秒读写次数),pbs(每秒读写量),时延等待;网卡的iops(每秒包数),pbs(出入带宽)
容量: 磁盘文件系统(/home目录,/目录,c盘d盘)总量,已使用量。
主机监控一般来说看1分钟load值基本能够确定机器负载是否高,load值是cpu、内存、磁盘、网络的综合体现,一般不能长时间超过物理CPU的核数,如2路8核服务器,合计16核,超线程后32核,如果服务器load值超过32,意味大量的任务在等待,后续会逐渐积累升高,最终机器崩溃和应用宕机。
CPU使用率一般看wait和sys值(windows没有wait值),wait高和load值高一样,sys高,意味着系统调度负载高,需要判断是否因为内存不足,频繁调用swap影响?
磁盘io,我们往往关注磁盘读写速率,50MBps,其实这是忽略掉了文件大小。磁盘每秒读写速率是有限的,5400转SATA(普通电脑硬盘)iops为70左右,15000转SAS(专业服务器硬盘)iops为150左右,多个硬盘做raid后iops会增加,但也是有限的。
网络iops也很重要,大量网络攻击就是因为不断的建立连接马上断开,造成网络io消耗殆尽。
内存,没啥好说的,基本上用上swap就不是好事。
网络监控:与主机监控类似,容量指网络容量。网络设备还有端口和链路可用性和流量监控。特别是流量监控,需要做的是动态异常变化,例如流量暴增/暴降(iops,bps),同比环比等等,特别是负载均衡设备、核心交换机和防火墙设备监控。普通的snmp流量监控及静态阈值(如流量超多少告警)往往不能满足需求,一般来说需要定制化开发动态阈值监控。
吞吐量:增加会话数监控,特别是防火墙。
流量流向,基于netflow技术等,按照抽样比(100:1)进行五元组数据采样,分析网络从哪来到哪去,嗯,基本大公司会用与用户数据分析和异常监控。存储监控:用得上SAN的都是土豪,后面有的是厂家支撑。
说到这里,小编要吐槽下 ,主机网络监控作为最成熟和最标准化的监控手段,大多监控工具仅是把指标简单罗列堆砌,严重依赖运维工程师水平。只能说产品研发攻城狮们不懂运维工程师的痛苦呀,想想也醉了。110云监控也出过主机监控,但是我们觉得不能直观的分析出系统负载负载高的根源,用户体验达不到“5分钟理论”要求,被BOSS停止了,现在攻城狮们还在努力,期望不久的将来能够面世。
未完,待续
1. 服务/业务通断(可用性) 。2. 使用量3. 吞吐量4. 容量以上4类并非严格区分,仅用于参考,新应用/服务监控时会从这几方面考虑。基础设施可用性(通断)一般通过简单ping都可以发现,至于使用量和吞吐量,以及容量,那就属于过程监控了,基本上必须依赖专业的监控工具来做了。这里列举了些典型的监控指标:
主机监控:CPU使用率30%,内存使用率30%,磁盘读写1MBps,网络10Kbps,为什么机器就是慢?主流公云监控给的数据大众化了,基本上这些指标没有任何意义,对监控分析没有一毛钱帮助。使用率:CPU使用率(wait,sys,user),1分钟load值 ,内存使用率,swap使用。
吞吐量: 磁盘的iops(每秒读写次数),pbs(每秒读写量),时延等待;网卡的iops(每秒包数),pbs(出入带宽)
容量: 磁盘文件系统(/home目录,/目录,c盘d盘)总量,已使用量。
主机监控一般来说看1分钟load值基本能够确定机器负载是否高,load值是cpu、内存、磁盘、网络的综合体现,一般不能长时间超过物理CPU的核数,如2路8核服务器,合计16核,超线程后32核,如果服务器load值超过32,意味大量的任务在等待,后续会逐渐积累升高,最终机器崩溃和应用宕机。
CPU使用率一般看wait和sys值(windows没有wait值),wait高和load值高一样,sys高,意味着系统调度负载高,需要判断是否因为内存不足,频繁调用swap影响?
磁盘io,我们往往关注磁盘读写速率,50MBps,其实这是忽略掉了文件大小。磁盘每秒读写速率是有限的,5400转SATA(普通电脑硬盘)iops为70左右,15000转SAS(专业服务器硬盘)iops为150左右,多个硬盘做raid后iops会增加,但也是有限的。
网络iops也很重要,大量网络攻击就是因为不断的建立连接马上断开,造成网络io消耗殆尽。
内存,没啥好说的,基本上用上swap就不是好事。
网络监控:与主机监控类似,容量指网络容量。网络设备还有端口和链路可用性和流量监控。特别是流量监控,需要做的是动态异常变化,例如流量暴增/暴降(iops,bps),同比环比等等,特别是负载均衡设备、核心交换机和防火墙设备监控。普通的snmp流量监控及静态阈值(如流量超多少告警)往往不能满足需求,一般来说需要定制化开发动态阈值监控。
吞吐量:增加会话数监控,特别是防火墙。
流量流向,基于netflow技术等,按照抽样比(100:1)进行五元组数据采样,分析网络从哪来到哪去,嗯,基本大公司会用与用户数据分析和异常监控。存储监控:用得上SAN的都是土豪,后面有的是厂家支撑。
说到这里,小编要吐槽下 ,主机网络监控作为最成熟和最标准化的监控手段,大多监控工具仅是把指标简单罗列堆砌,严重依赖运维工程师水平。只能说产品研发攻城狮们不懂运维工程师的痛苦呀,想想也醉了。110云监控也出过主机监控,但是我们觉得不能直观的分析出系统负载负载高的根源,用户体验达不到“5分钟理论”要求,被BOSS停止了,现在攻城狮们还在努力,期望不久的将来能够面世。
未完,待续