首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 其他教程 > 操作系统 >

云计算平台治理的三大利器Nagios、Ganglia和Splunk

2012-10-23 
云计算平台管理的三大利器Nagios、Ganglia和Splunk?原文链接:http://www.programmer.com.cn/11477/文 / 杨

云计算平台管理的三大利器Nagios、Ganglia和Splunk

?

原文链接:http://www.programmer.com.cn/11477/

文 / 杨俊华

综合利用Nagios、Ganglia和Splunk搭建起的云计算平台监控体系,具备错误报警、性能调优、问题追踪和自动生成运维报表的功能。有了这套系统,就可轻松管理Hadoop/HBase云计算平台。

云计算早已不是停留在概念阶段了,各大公司都购买了大量的机器,开始正式的部署和运营。而动辄上百台的性能强劲的服务器,为运营管理带来了巨大的挑战。

  • 如果没有方便的监控报警平台,对于管理员而言犹如噩梦,每天都将如救火队员一样,飞快地敲击键盘,用原始的Unix命令在多台机器中疲于奔命。
  • 如果没有好的日志管理平台,对于开发者Troubleshooting更是一件泪流满面的事情。
  • 而如果你是运维团队的总负责人,简洁清晰的Report则非常重要。Stakeholder们动不动就可能问起系统的SLA、机器的利用率等诸多问题,毕竟,公司为此投入了巨大的资金和人力。

    朋友们,当我们管理起公司寄予厚望的云计算平台时,当我们面对如此多充满挑战的实际问题时,该怎么办?

    概述

    我们在搭建趋势云计算平台时,遇到了很多的问题和挑战。开始搭建时,第一次来了那么多性能强劲的机器,我们在感到兴奋的同时,也不免有些顾虑。大家坐在一起讨论,问题就列了满满一白板。

    • 出了问题怎么办,有没有预警机制?
    • 有没有可视化的管理界面?
    • 管理平台需要自己开发吗?开发难度有多大?
    • 有没有开源的管理工具?
    • 那么多日志分布在各个机器上,有没有更有效的方法管理?
    • 能否生成好的报表?
    • 机器宕机,管理员能否收到短信通知?
    • 如何做性能调优?
    • 扩容升级时,能否给出依据?

      带着这些问题,我们开始了自己的云计算平台管理和运营之旅,一路走来,收获颇丰。现在基本上形成了如图1所示的一整套云计算平台监控体系。

      图6 Splunk与Nagios配合使用进行日志搜索

      ?

      对Hadoop和HBase有了进一步了解后,我们可以利用Splunk实时检测日志中的关键字,定义关键字规则,如监控“shutdown”、“quit”、“ERROR”、“Zookeeper?Session?Expired”等,一旦出现,利用Splunk的Notification功能,发出邮件通知管理员,管理员通过Splunk定位问题,就可以在系统真正出现问题之前,对系统进行调整,防患于未然。

      具体Splunk的设置,可以参考:http://www.spnguru.com/?p=122。

      总结

      搭建一套云计算平台,强大的监控管理系统是必不可少的。当然,任何工具都不是万能的,在实际维护过程中,我们也发现,Nagios和Splunk经常出现误报,如果规则定义得不好,大量的警报邮件如潮水一样涌来,反而掩盖了真正的问题。可以说,在云计算平台的运维管理上,没有一劳永逸的事情,随着规模的不断增大和应用的不断多样化,需要大家不断地实践和总结。

      作者杨俊华,趋势科技研发中心资深开发工程师,2009年至今一直从事Hadoop和HBase开发和运维工作,关注Hadoop开源社区的发展。

      ?

      本文选自《程序员》杂志2011年09期,未经允许不得转载。如需转载请联系 market@csdn.net

热点排行