信办通(2012)19号 北京交通大学信息中心UPS电源运维管理办法

作者:系统管理员   发布日期:2012-11-02

 

北京交通大学院(系)、部、处文件
发文编号:信办通(2012)19                    签发人:贾卓生
 
北京交通大学信息中心UPS电源运维管理办法
201210月修订)
第一章 总 
第一条依据信息安全等级保护管理规定,为完善信息中心机房UPS电源管理工作,结合信息中心机房实际情况,特制定本办法。
第二条 本办法为提高机房UPS电源运维工作的质量、加强日常管理工作为目的,保证机房UPS不间断电源设备时刻处于良好的运行环境、设备安全稳定运行,明确编写了信息中心运维工作人员的职责分工和日常管理、告警及应急管理等内容。
第三条本规定适用于信息中心机房的UPS电源日常管理及故障处理等工作。
    第二章 职责分工
第四条机房运维工作人员为各主机房提供7*24小时的现场保障。主要负责主机房的日常值班、门禁权限的管理、机房设备管理、设备告警及各类故障的应急处理。
     第三章 工作规范内容
第五条加强主机房UPS不间断电源的安全管理,提高UPS安全运行的级别。
(一)机房管理人员,无特殊情况不得对UPS电源进行任何操作,当需要操作时必须经过相关领导负责人授权许可。
(二)UPS厂家进行例行巡检时,应填写操作票,经相关负责领导签字确认后,方可对设备进行操作。
(三)除机房管理人员及UPS厂家外的任何人员不得对UPS电源进行操作。
第六条 加强机房UPS电源的安全管理,杜绝人为因素对UPS电源造成影响,为设备提供安全的运行环境。
(一)主机房内的UPS电源设备,未经运行部门领导同意,不得进行任何操作。
(二)主机房内的UPS电源设备自安装运行之日起应建立单独的设备档案,内容包括完整的设备安装过程记录、参数配置记录、巡检记录。
(三)UPS电源设备的维护、巡检必须由专人负责,他人不得进行操作;设备需要停机检查时,须经中心相关负责人批准后,方可进行。
第七条问题管理、缺陷管理的目的是消除或减少机房运维工作中机房各设备发生故障事件的数量和严重程度,防止相同事件的再次发生,从建立一个稳定的运行环境,提高信息系统服务的可靠性。
(一)问题管理包括主动性问题管理和被动问题管理两类活动。前者的目标是通过找出基础设施中的薄弱环节来阻止事件再次发生,以及提出消除这些薄弱环节的建议;后者的目标是找出导致以前发生事件的根本原因,以及提出解决措施或纠正建议。
(二)问题管理、缺陷管理着重于消除事件或减少事件发生,确定事件的根本原因。主要活动包括分析事件、找出问题、确定根本原因以及找出解决方案,以消除事件或在其发生时降低对机房环境和信息系统的影响。
(三)问题管理依赖于有效的事件记录,事件记录应记录所发生的事件,并对事件进行详细的描述。中心机房运维的事件记录有《机房巡检表》。
(四)机房运维负责人担当问题管理负责人,负责在问题和已知错误的整个生命周期内对其发展情况进行监控,确定并监控其影响度;监控问题和已知错误的分析诊断情况和方案实施情况。
(五)一旦找到问题的根源和与此问题相关的事项,以及处理它的应急措施。并确定对问题最合适的解决方案进行修复解决。
第八条 缺陷管理
(一)机房管理人员对UPS电源设备进行固定巡检、巡检时应注意检查设备状况,对于发现的缺陷,应进行详细的记录,并汇报负责人;
(二)通过巡检、操作和中心机房运维的事件记录,进行分析发现并记录设备缺陷,提出消缺要求,采取措施,为消缺工作顺利进行创造条件;
(三)对发现的重大缺陷,及时通知设备维修人员到现场进行消缺;
(四)在设备缺陷未消除前组织运行值班人员加强检查监视,采取措施防止缺陷造成的影响扩大。
第九条 告警级别设定
   根据机房设备的重要性,及影响信息系统运行的严重性,现将机房告警分为以下三个级别:
(一)主要告警:包括通风设备组(新风机、排风机的报警为主);
(二)严重告警:包括空调及环境监控设备组(精密空调、机房专用柜机空调、温湿度、漏水监测、防雷器);
(三)紧急告警:包括消防、供配电、UPS设备组(消防系统控制箱、UPS、蓄电池、配电开关状态、动力配电柜、ATS状态)。
第十条 告警及应急管理
(一)值班人员必须按照规定定时巡检,巡检项目包括:机房空间各处安全隐患,各设备有无异常气味、声音,各设备供电状况,各设备指示灯,强电箱供电状况,UPS运行状况,空调运行状况,设备间温湿度状况,消防控制器状况,视频监控状况,机房前后门状况等等。
(二)机房各处安全隐患包括空间内有无异味、火花等异常状况。有异味时应尽可能找出根源,及时处理。根据源头材质用正确的方法消灭隐患。各设备供电情况和指示灯状况包括查看各类设备是否正在运行,有无供电报警状况,供电不正常时,检查相应供电源头状况,机柜PDU、航空插头等,并根据相关规定启动相应的应急预案。
(三)UPS运行状况主要查看监控器上输入输出电压电流及其负载,强电输入是否异常报警,电池模块指示灯是否正常。若出现强电输入异常报警情况,立即查看电源输入强电箱是否异常,并根据相关规定启动相应的应急预案。
(四)检查精密空调运行状态,包括温度、湿度、故障报警等。若出现温度过高,空调故障报警时,应根据相关规定启动相应的应急预案。
(五)消防控制器状况包括面板各项指示灯是否正常,是否因为不同问题报警,并采取必要措施。若出现烟感或温感误报的情况,排查确认无隐患后取消报警,并在交接班时说明情况,以便及时修理。若同时报警,在最短时间确认是否为火灾后,采取相应措施,应根据相关规定启动相应的应急预案。
    第四章 文档管理
第十一条  建立主机房基础设施清单。这部分内容包括机房内设备的名称、型号、数量、投运时间、放置地点等有关记录。
第十二条  建立系统登记册。内容包括机房运行配套的软件系统,如门禁系统、环境监测系统、视频监控系统、巡更系统,等系统的版本号、主要功能等有关记录。
第十三条  故障情况记录。根据机房巡检时所发现的故障情况,以及处理过程、处理结果,详细的记录在巡检表、交接班及日汇报表中。并将相关的表单存放于固定的文件柜中进行保存,做到有据可依,有据可查。