张军伟, 刘金枝
(1.北京中科仙络咨询服务有限公司,北京 100017;2.中国民航大学适航学院,天津 300300)
目前,社会信息化重要性日益突显,各种数据中心已经成为像交通、能源一样的经济基础设施。 数据中心冷冻站是数据机房的主要冷源,因此,数据中心冷冻站自动控制系统的重要性越发突显。
冷冻站自控系统的出现,在很大程度上减轻了运维人员的工作量。 现在国内的数据中心大都采用一个控制器控制全部冷站设备或依照冷站设备分类配置控制器的系统架构,具体的系统形式如图1 所示。
传统的数据中心冷冻站控制系统通过采集安装在冷冻站管路上的各个传感器数值,得出相关的控制策略,对冷站内的相关设备进行控制。 但是这种传统的冷冻站控制系统存在众多弊病,其主要的缺点如下。
图1 传统冷冻站控制系统形式1
(1)如图1 所示控制系统中,一个控制器控制冷站内所有的自动化设备。 该系统架构使得唯一的控制器成为系统运行成功的关键,该控制器的任何故障都将导致系统无法正常运行,给数据中心的正常运行造成威胁。
(2)如图2 所示控制系统将冷冻站内的设备进行分类,同类设备共用一个控制器,并将控制程序写在其中一个控制器中,其他控制器仅作控制信号接收设备。 该种系统架构看似比图1 中的系统架构丰富了不少,增加了控制器数量,但其实与图1 中的系统无本质区别。 该种混乱的控制器配置将导致任何一个控制器故障,一类设备将无法正常运行,致使整个系统瘫痪,无法达到预定的控制效果。
图2 传统冷冻站控制系统形式2
(3)在传统的冷冻站控制系统中控制器仅采用单电源供电。 当出现电源故障时,控制器掉电,会导致冷冻站内相关设备无法正常工作,从而导致数据中心机房内的温度偏离设定值,严重时将导致数据中心宕机。
(4)传统的冷冻站控制系统所使用的传感器未进行冗余设置,单个传感器的系统设置将导致传感器数值无法得到校验和比对,数值的准确性降低,同时单个传感器故障将影响控制逻辑的正确执行,使系统的可靠性下降。
(5)传统的数据中心多采用纵向分组控制的系统架构,即同类设备分组控制或完全混乱分配,控制器随意配置。 这些系统架构均会导致冷冻站设备的冗余配置架构破坏,使得冷冻站系统的冗余设置无法得以实现。
数据中心冷冻站的群控控制,能避免传统冷冻站控制器配置由单点故障、配置有误引起的停机无法供冷现象。 数据中心冷冻站的群控控制系统与冷冻站内水系统的系统架构相一致,使冷冻站自控系统与数据中心冷冻站系统可靠性设置相匹配,并对系统中的传感器和电源进行冗余设置,以提高冷冻站控制系统的可靠性,保障数据中心的安全性和稳定性。 数据中心冷冻站的群控系统如图3 所示。
图3 数据中心冷冻站的群控系统形式
架构说明:(1)冷冻站群控系统为每个冷冻单元设置了单元控制器, 并设置了一个群控控制器来统一管理各个单元控制器,群控控制器及各单元控制器在网络层面完全独立,这些控制器均有独立的CPU 和控制程序及网口,任何一个控制器出现故障均不影响其他控制器的正常工作。
(2)单元控制器通过对群控控制器的“心跳”信号进行检测,来决定群控控制器发出的控制命令的有效性,当“心跳”信号失效时,单元控制器将继续执行该信号失效前的控制指令,以此来避免错误控制命令的执行,“心跳”信号形式如图4 所示。
图4 “心跳”信号形式
(3)群控控制器通过检测单元控制器的反馈信号确保控制命令有效执行,同时以此来确保当某单元控制器故障时其他无故障的冷冻单元可以被及时调用,以此确保控制系统的冗余设置与冷冻站内设备冗余设置相一致,使冷冻站系统冗余得以真正实现。
(4)所有控制器均由来自两套不同低压系统的UPS 供电,避免因供电引起的单点故障。
(5)直接连接至群控控制器的各传感器均进行冗余设置,避免因传感器故障引起的用于控制策略计算的参数采集错误和因传感器故障引起的单点故障。
上图3 所示数据中心冷冻站的群控系统由群控控制器、单元控制器及监控的冷冻站设备组成。 系统中设置了一个群控控制器用于对各单元控制器进行管理。 群控控制器的主要作用包括三点:(1)根据末端采集到的数据进行计算来决定启动几台冷冻单元;(2)运行过程中当单元控制器控制的设备故障时,群控控制器负责对故障设备进行替换;(3)运行过程中,通过群控控制器来控制各冷冻单元,从而实现冷冻站运行过程中的轮询功能。
数据中心机房的群控系统中的单元控制器与冷冻站中设置的冷冻单元一一对应,即一台单元控制器对应一套冷冻单元。 此单元控制器的主要作用包括控制对应冷冻单元的启停,即控制冷冻单元内部冷机、水泵、阀门等的联动启停;当冷冻单元成功运行时,单元控制器应发送运行状态信号到群控控制器;当冷冻单元运行出现故障时,单元控制器应向群控控制器发送故障状态反馈。
上述系统的控制器彼此独立,控制程序也彼此独立,群控控制器与单元控制器之间仅为物理层面的协同工作关系。 群控管理控制程序运行在群控控制器中,单元控制器控制程序运行在单元控制器中,每个控制器的控制程序均可以独立运行,运行程序之间互不依赖。 当一套单元控制器出现故障时,其他单元控制器可以依照其内部的程序代码保持运行。
上图4 所示群控控制器需向单元控制器发送类似于正弦波的模拟量“心跳”信号,来供单元控制器判断群控控制器是否正常运行,单元控制器通过检测接收到的实时“心跳”信号的形式,来判断群控控制器的运行是否正常。 当实时接收的“心跳”信号数值与上一时刻接收的数值不同时,单元控制器则认为群控控制器此刻运行良好,其将执行此刻群控控制器发出的控制命令。 当实时接收的“心跳”信号数值与上一时刻接收的数值相同时,单元控制器则认为群控控制器此刻运行故障,其将不执行此刻群控控制器发出的控制命令,且继续执行上一时刻群控控制器发出的控制命令。 此后,单元控制器将继续监听群控控制器发出的“心跳”信号,直至“心跳”信号恢复正常,单元控制才开始执行新接收的群控控制器发出的控制命令。 心跳信号的实施主要用于避免群控控制器故障时,单元控制器接收到了群控控制器的错误命令,从而影响整个系统的正常运行。
图5 所示群控控制器向单元控制器发送和接收的信号主要有:群控控制器管理冷冻单元的启/停信号、群控控制器通知单元控制器的“心跳”信号、单元控制器向群控控制器反馈的状态运行信号、单元控制器向群控控制器反馈的故障信号。 启动一台冷冻单元的工作流程为:(1)群控控制器向单元控制器发送心跳信号;(2)群控控制器通过到冷冻单元的启/停信号的开/闭状态来告知单元控制器是否开始运行;(3)单元控制器接收到群控控制器的启动信号后开始核实群控控制器的心跳是否存在,当心跳正常时,单元控制器通过其内部的程序控制其对应的冷冻单元开始运行;(4)当单元控制器成功启动冷冻单元时,单元控制器将发给群控控制器状态运行成功反馈;(5)当单元控制器未能成功启动冷冻单元或在运行过程中冷冻单元出现故障时,单元控制器将撤销发送给群控控制器的运行状态信号,同时将故障信号反馈到群控控制器。
图5 群控控制器与单元控制器信号类型
数据中心机房的群控系统中,群控控制器连接的各类传感器均采用冗余配置,且所有的传感器均为热备形式,以减少因传感器故障引起的单点故障。 当任一传感器的范围超过校验的量程时,群控控制器将使用备用的传感器数值进行计算,当主、备传感器均出现故障时,系统则固定运行在失效前的运行状态。
上述系统的所有控制器均采用来自2 套不同低压系统的UPS(不间断电源)电源进行供电,确保其中一路电源故障时,控制器可以正常运行,避免因供电引起的单点故障。
冷冻站的群控系统将每套制冷单元定义为一个控制单元,为每套冷冻单元设置一个独立的单元控制器,同时设置一个群控控制器对单元控制器进行管理,上述控制器在网络上完全独立,每个控制器均可独立运行。 群控控制器通过检测室外湿球及干球温度、主管道流量、主管道供回水温度、压力等参数进行计算,根据二次侧负荷通过单元控制器对冷冻单元进行控制。 系统处于自动控制状态时,群控控制器通过采集安装在冷冻水主管上的温度传感器和流量计的数值数据,运算得出冷冻水系统末端负荷值。 群控控制器将根据实时测得的末端负荷和用户最初设置的加载冷量值和减载冷量值进行比较,通过单元控制器对各冷冻单元进行加减载控制。
当测得冷冻水的末端负荷大于冷冻单元的名义制冷量的加载冷量值,并且持续时间超过设定时间时,系统将根据启动策略加载一台处于备用状态的冷冻单元。 此时,群控控制器向备用冷冻单元控制器发送冷冻单元启动信号,单元控制器接收信号后依据冷冻单元启动策略开启其控制的冷冻单元。单元控制器成功启动其控制的冷冻单元后将反馈该冷冻单元的状态信号给群控控制器。 加载成功后,系统的制冷量将增加,但当所有开启的冷冻单元的制冷量仍小于末端负荷,且末端负荷达到此时的加载制冷量值,持续时间超过设定时间时,群控控制器将向下一个备用冷冻单元控制器发送冷冻单元启动信号,依次进行,直至所有冷冻单元都处于运行状态。
当测得冷冻水的末端负荷小于冷冻单元的名义制冷量的减载冷量值,并且持续时间超过设定时间时,系统将根据停止策略减载一台处于运行状态的冷冻单元。 此时,群控控制器向其中一台运行冷冻单元控制器发送冷冻单元停止信号,单元控制器接收信号后依据冷冻单元停止策略停止其控制的冷冻单元。 单元控制器成功停止其控制的冷冻单元后将反馈该冷冻单元的状态信号给群控控制器。减载成功后,系统的制冷量将减少,但当所有开启的冷冻单元的制冷量仍大于末端负荷,且此时末端负荷达到此时的减载制冷量值,持续时间超过设定时间时,群控控制器将向下一个运行的冷冻单元控制器发送冷冻单元停止信号,依次进行直至减载到运行的冷冻单元个数达到程序规定的最小值。
系统中群控控制器在系统正常运行时需根据检测到各冷冻单元运行情况对运行中的冷冻单元进行故障替换。 当某冷冻单元出现故障时,系统将按照故障轮询策略,启动一台备用冷冻单元。 只有当新开启的冷冻单元启动成功,且状态得到确认后,才允许关闭故障冷冻单元。
在这样的群控架构下,当群控控制器故障时,单元控制器通过监测心跳继续保持运行;当单元控制器故障时,群控控制器放弃故障冷冻单元,额外开启一台备用的冷冻单元来替代故障的冷冻单元。
系统中群控控制器在系统正常运行时需根据各冷冻单元的运行时间长短进行轮询,当运行时间最长的冷冻单元与停止运行的冷冻单元运行时长比较后达到设定值时,群控控制器将会开启停止运行时间最长的冷冻单元,当次冷冻单元成功运行后,群控控制器将会关闭已经运行时间最长的冷冻单元,从而保证各冷冻单元均保持合理的时间运行。
以上主要对数据中心冷冻站的群控系统的架构设计、控制点及运行控制逻辑进行了说明和描述,除此之外,群控系统还包括了各设备的报警信息、设备远程手自动操作、设备设定值等功能。 群控系统能避免传统冷冻站群控中由单点故障、配置混乱引起的系统运行不便、停机等现象,从而提高数据中心冷冻站控制系统的可靠性。 总之,随着数据中心规模的不断扩大,自控技术的不断创新,对数据中心各设备的控制将越来越灵活,对数据中心各设备做到精准控制,必将极大地提高数据中心的安全性和可靠性。