百独托管7500 紫田网络超高转化播放器收cps[推荐]速盾CDN 免实名免备防屏蔽阿里云 爆款特卖9.9元封顶提升alexa、IP流量7Q5团队
【腾讯云】中小企福利专场【腾讯云】多款产品1折起高防 随时退换 好耶数据小飞国外网赚带你月入万元炎黄网络4H4G10M 99每月
香港带宽CN2/美国站群优惠中客数据中心 服务器租用联盟系统移动广告平台 中易企业专场腾讯云服务器2.5折九九数据 工信部正规资质
腾讯云新用户大礼包代金券高价收cpa注册量高价展示【腾讯云】2核2G/9.93起租服务器找45互联 随时退换阿里云 短信服务 验证秒达

[其它内容] 服务器告警机制配置技巧 避免草木皆兵 [复制链接]
查看:1489 | 回复:5

112

主题

856

帖子

545

积分

落伍者(一心一意)

Rank: 1

贡献
253
鲜花
1
注册时间
2012-2-13

落伍手机绑定

发表于 2013-4-11 12:02:59 | |阅读模式 来自 中国四川成都
现在的服务器都配置了成堆的传感器,一旦任何传感器发生状况都会发出告警,令人头昏目眩。但是管理员必须尽早知道:服务器监控工具产生的告警不一定都重要。如果服务器动辄发出警报,那你会在短时间内被迫接收大量信息,其中真正重要的信息可能会被淹没。本文的目的就是帮助管理员认清哪些服务器告警是重要的,管理员需要服务器监控工具怎样正确提供警报。

配置告警机制的技巧

在开始之前,我想先指出一点:配置告警并没有绝对正确或错误的方法。本文中的建议主要基于我二十年的IT经验,但它们终归是我个人的偏好。所以,虽然希望你们能从我的建议中获取好处,但我更建议每个管理员配置服务器告警时,尽量紧贴与自己公司的特定要求。

另一点我要指出的是:管理员可以用很多方法让服务器产生告警。有的服务器可以在硬件级产生告警,这虽然很有用,但还远远达不到作为独当一面的告警机制的要求。服务器供应商提供的服务器监控工具有大量信息,作为操作系统级的服务器监控工具,比如微软的System Center Operations Manager。因为监控工具的选择很多,我会普遍地讲一讲,而不是单独讲某个特定的工具。

为服务器告警机制配置优先级

想让服务器监控变得有效,关键在于对监控工具的告警机制进行优先级配置。我推荐把告警分为高级、中级、低级三种。

我通常把优先级高的告警定义成最最关键的事务。比如,服务器磁盘空间全部耗尽就是一个关键事件,同样一个群集化应用服务器出现故障也会酿成大祸。

中级优先级的告警比较难以定义。我所认为的中级告警可能对于其他组织来说是高级的。对我来说,如果警报中的问题不会带来整体停机,那么优先级就是中级。比如说一个群集中的某个节点不知道为什么断电了,但不会影响整个群集的运行,那我就把它定义为优先级中级。当然这和所处的工作环境有很大关系。我任职过的一些大公司就把这类问题定义为关键事务。

但是,如果你的公司不能容忍任何宕机事件发生,那比较聪明的方法就是根据问题是否有发生故障的潜在风险来决定优先级。比如说你有一个RAID列阵,能够在不离线的情况下处理两个磁盘的失误,那如果其中一个故障了,你可以把这件事当成中等优先级的告警,因为该阵列还能正常处理另一个磁盘的故障。但如果两个磁盘都发生故障,那就是高等优先级了,因为如果还有一个磁盘故障,那整个阵列就完了。

虽然我觉得这种方法评定优先级很好用,但是比起简单地在故障时触发告警,根据部件数量来配置告警更难。依靠了你使用的监控的种类及其监控软件的可用功能,安装这种告警系统是值得选择,毫无疑问的。

配置监控机制

一旦你决定了如何对告警进行分类,你就需要决定告警如何通知。我个人比较喜欢让服务器监控工具把优先级高的告警通过手机信息发给我。因为手机随身带,所以把关键告警发送到我手机上是最好的方法,这样我就可以最快收到。

而优先级中等的告警虽然重要,但不是绝对关键的,所以我倾向于通过电子邮件发送。如图所示,Windows Server有发送电子邮件的功能,这意味你很容易就能根据操作系统内发生的时间来发送邮件告警。

Windows能自动发送电子邮件告警

我每天检查电子邮件,所以告警不会被忽视,有的告警我可能并不想通过手机第一时间知道。中高级的区分很重要,我并不想在和朋友欢度周末的时候,还得为中等优先级的告警所打扰。当然这只是告警工作的一个例子,还有其他选项。比如有个公司叫Server Density,他们装了一个iPhone的服务器监控应用程序,支持所有的告警。

当然,高等优先级的组成对象还是有待探讨的,还有一件事情得考虑一下,就是高优先级的告警不一定和系统故障有关。大部分服务器只要系统case打开了,就能触发告警。如果能打开服务器case的只有你,那一个case的警报显然就是高等优先级的告警。同样,温度过高的告警也是高优先级的,因为服务器过热最终会导致停机。

53

主题

144

帖子

204

积分

落伍者(一心一意)

Rank: 1

贡献
221
鲜花
0
注册时间
2009-2-3
发表于 2013-4-12 08:49:57 | 来自 中国山东济南
不错哦~~谢谢楼主~~~学习了~~~
头像被屏蔽

0

主题

551

帖子

312

积分

落伍者(一心一意)

Rank: 1

贡献
122
鲜花
1
注册时间
2005-5-15

落伍手机绑定

发表于 2013-4-12 16:38:32 | 来自 中国山东德州
提示: 作者被禁止或删除 内容自动屏蔽
签名被屏蔽

140

主题

1065

帖子

740

积分

落伍者(一心一意)

Rank: 1

贡献
56
鲜花
0
注册时间
2012-12-14
发表于 2013-4-19 14:52:18 | 来自 中国广东深圳
想让服务器监控变得有效,关键在于对监控工具的告警机制进行优先级配置。
头像被屏蔽

80

主题

732

帖子

218

积分

禁言

贡献
23
鲜花
0
注册时间
2012-1-30
发表于 2013-4-19 15:32:25 | 来自 中国河南郑州
提示: 作者被禁止或删除 内容自动屏蔽

21

主题

225

帖子

37

积分

落伍者(一心一意)

Rank: 1

贡献
10
鲜花
0
注册时间
2013-2-17

落伍手机绑定

发表于 2013-4-27 14:42:08 | 来自 中国广东珠海
这个要支持!
论坛客服/商务合作/投诉举报:2171544 (QQ)
落伍者创建于2001/03/14,本站内容均为会员发表,并不代表落伍立场!
拒绝任何人以任何形式在本论坛发表与中华人民共和国法律相抵触的言论!
落伍官方微信:2030286 邮箱:(djfsys@gmail.com|tech@im286.com)
© 2001-2014

浙公网安备 33060302000191号

浙ICP备11034705号 BBS专项电子公告通信管[2010]226号

  落伍法律顾问: ITlaw-庄毅雄

手机版|找回帐号|不能发帖?|Archiver|落伍者

GMT+8, 2024-11-1 09:14 , Processed in 0.061385 second(s), 38 queries , Gzip On.

返回顶部