Skip to content

Instantly share code, notes, and snippets.

@rambolee
Last active April 13, 2018 04:08
Show Gist options
  • Save rambolee/7ff323c2c3395726f1a7cde49ccaadc4 to your computer and use it in GitHub Desktop.
Save rambolee/7ff323c2c3395726f1a7cde49ccaadc4 to your computer and use it in GitHub Desktop.
数据中心现场监控管理技术 ——DCIM 系统发展现状与规划

数据中心现场监控管理技术 —— DCIM 系统发展现状与规划

写在前:什么是DCIM 系统?

最近2年,伴随着大数据、机器学习和人工智能等相关技术领域在互联网行业被应用和推广的越来越多。作为相关技术最基础的保障,数据中心领域的技术发展可谓一日千里。 绿色数据中心和智能数据中心的相关理念被更多的互联网公司迅速的落地到各种新增的数据中心项目中。从数据中心综合化、智能化的监控和运维管理平台的方向上,DCIM平台的概念也很快的进入了各大互联网公司数据中心平台发展视野与规划。 DCIM (Data Center Infrastructure management) 系统是数据中心基础设施管理系统,是将IT(信息技术)和设备管理结合起来对数据中心关键设备进行集中监控、容量规划等集中管理。通过软件、硬件和传感器等,DCIM提供一个独立的管理平台,对数据中心IT设备和基础设施进行实时监控和管理。

百度的 DCIM 系统现状与规划

现状

目前,UMP-IDP 团队负责开发和维护的 O平台目的就是打造针对百度自己数据中心的 DCIM 系统。希望通过 O平台的对百度数据中心现场设施的监控和管理工作,能够对百度整体数据中心的工作,对智能数据中心的实现提供最有力的平台基石。 如下图,IDC 现场监控数据位于整个数据中心监控管理的最基础层次,也是实现 IDC 智能监控和管理最基础的数据来源。智能数据中心最终实现的目标,也就是达到对数据中心最全面、最直接的掌握和控制,并在此基础之上通过各种技术手段,例如大数据、机器学习等各种手段将数据中心能耗和资源利用到最优。

alt

打通各个业务管理层级之间的关联,能够做到更深层次的联动管理是 DCIM 的重要实现目标之一。百度目前在图中上述三层业务层级关系还是相对独立的,各个平台业务系统之间还是通过惰性关系相互耦合在一起,智能数据中心的工作之一就是要将上述的关系变得直接,可监控,可联动,可细化更加精确化的管理。

平台架构与功能

有着宏伟的目标,工作首先还是需要脚踏实地的开展。O 平台刚刚发展1年多的时间,目前,面临的首要工作是将百度各个数据中心的基础设施、不同的业务系统接入到统一的平台,进行统一化、联动监控管理,提供完整的数据中心现场运维管理平台。 如下图,是现有 O平台的一个简化的系统架构图。

alt

可以明显的看到区别于上层的业务平台系统。O平台项目是与 IDC 现场有着紧密的联系的。O平台具有以下几个特点:

  • 平台工程化色彩更为突出。
  • 涉及系统与厂家接口形式多样,数据采集存在协议和数据格式多样性的问题。
  • 不同数据中心之间有一定的借鉴性,但也存在很大的异同。

现状与技术挑战

全新的业务领域

动力环境系统与冷水自控系统,目前是 O平台针对 IDC 现场数据中心重点接入和管理的现场基础设施。这里也涵盖了90%以上的 IDC 现场基础设施设备。 该领域在互联公司的数据中心涉足之前,更多的是大型企业、银行和电信公司有类似的平台需求。承接这些需求的,往往也都是硬件设备提供的厂家。业界领先的厂家包括:艾默生、施耐德、霍尼韦尔、江森自控、ABB等传统自动化工业领域领先的厂家,也包括:CA、Rartian一些比较领先的传统软件行业解决方案的厂家。

alt

面对相对新兴的互联公司对数据中心基础设置的管理诉求越来越强烈,影响上述各个厂家的解决方案也逐渐向互联网公司适配倾斜。但是,在数据中心业务更为单一,集中化。诉求更为自动化、高效的、绿色、智能的情况下,传统厂商就很难更上互联网公司的步伐。

统一的平台与统一的数据

在 O平台设计和开发的工作中,有个重要的角色就是要将IDC 现场各个厂家独立的商用子系统联通并整合成一套统一的监控管理平台,并能够支撑多数据中心的监管工作。 2个数据中心、3个模组、5个子系统、7种完全不同的接口协议。这个就是在 M1和 L1(一期)O平台面临的“统一化”的挑战。

alt

由于各种工业设备的采集形式,采集频率和事件通知形式又不尽相同。但是,针对上层统一平台的监控运维工作,要将整体数据中心监控管理视为一个整体进行管理调度。 因此,针对不同监控形式,不同波特率,不同数据推送方式的设备,需要在数据采集层进行统一的归一化处理。

智能数据中心与 DCIM 的关系

PUE 预测和优化

正如上面章节所说。智能数据中心的首要目标,是对数据中心的各个系统,业务平台,各项指标能够得到全方位的掌握。并在此基础上通过各种技术手段,实现管理、优化。

alt

而在其中,IDC 现场动力环境和冷水系统的基础监控数据和自动化控制,是实现 PUE 预测乃至最终智能化控制的数据基础和控制手段。这是 O平台最直接提供给数据中心优化的先决条件。(当然,这里还包括更深层的 IT 的设备的能耗监控和控制工作。)

容量管理

能够最大的发挥每个 IDC 数据中心的资源用于 IT 设备的使用,是优化数据中心的核心目标。精确化、智能化的管理 IDC 现场的 IT 设备容量也是 DCIM 系统的发展的趋势。

alt

决定容量规划有很多因素:空间、供电、制冷、承重、机架、网络、服务器能耗、业务迁移能力等。 其中很多因素都是有 DCIM 系统(也就是 O平台)需要提供第一手的现场数据。并配合与其他上层系统的垂直数据整合,才能很好的建立数据中心容量管理的综合模型。最终实现有效提升数据中心的容量使用效率。

行业现状

目前,都在近乎1年左右的时间内,BAT 三家公司都在 DCIM 相关领域进行了发力。 根据三家各自对数据中心的建设和运维理念的不同,也各自呈现了不同的倾向性。 腾讯和阿里都是在DCIM 的特定技术领域进行突破。

  • 腾讯:专注微模块监控解决方案
  • 阿里:模块化设计,监控分离
  • 百度:齐头并进

总结

DCIM 系统目前在百度和其他互联网公司处于一个重要的起步和转型阶段。它是综合监控和优化互联网公司数据中心的坚实基础平台。 百度的 DCIM 系统必须要更多的吸收传统行业厂家的专业经验,并结合互联网公司数据中心和软件研发迭代的特点,有效的设计和研发出符合百度智能化数据中心理念的基础设施综合管理运维平台。

补充

  • 文章整体撰写在2015年底,数据和相关资料有一定的时效性。仅供参考。 [作者] [email protected]
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment