建设背景
随着计算机网络技术的蓬勃发展,网络的接入用户数量在爆炸式增长, 以学校实际情况为例,开通用户数已近3 万人,白天平均在线人数多达1 万人。面对这样一个庞大的用户群体,网络的管理维护人员所背负的工作压力越来越大。这时再依靠个人经验的传统方式来进行基础网络服务工作将面临巨大问题,这不仅浪费宝贵的人力资源,而且效率也是非常低下。因此需要一套规范高效的IT 运维服务管理方法,再配合以准确全面的解决方案知识库,才会大大降低运维人员的工作压力,使工作变得从容有序。基于这样的需求,我们组织并实施了基于ITIL 和特征知识库的校园IT 综合运维服务系统的研发工作。
建设目标
校园IT 综合运维服务系统的目标是建设一套符合ITIL 管理理念的网络中心业务服务管理信息系统,它能够针对用户遇到的网络问题,与现有网络管理系统相结合,实现网络设备运行数据获取,提供问题解决方案,以帮助运维管理人员快速准确地找到故障原因,并为用户进行解答。系统要降低故障诊断的专业性和难度,使网络运维工作人人能上手,人人愿出力。同时,通过事件流程的监督提醒机制,缩短事件处理的时间,促进网络中心服务承诺制度的落实。
关键技术
最佳距离度量算法
在IT 运维中,某个故障都有区别于其他故障的明显特征,且有可能是多个特征。对于这些明显特征,我们称之为基本特征,是线性无关的。为了计算故障和解决方案的相似度,首先建立度量空间,将故障的每个基本特征定义为空间的一维,则整个空间的维数为我们日常归纳出的基本特征的个数,每个故障由其所表现的特征的坐标来表示。那么实际中的一个故障(即一个问题Problem)可定义为Pi,它由一些基本特征唯一确定,在度量空间中的坐标为(X1,X2,??Xn)其中n 为基本特征总数。同时,将解决方案(也即知识称为Solution)定义为Sj,同理也由基本特征惟一确定。再将Pj 定义为Sj 对应的故障,且假定Pj 与Sj 之间的映射为双射,即一一对应。将基本特征作为空间的基,将Sj、Pj 用其坐标与空间基的乘积表示,那么求解可能解决问题的Pi 解决方案的集合{Sj} 的过程就可以归结为求解问题空间中与点Pi 比较接近的点的集合的过程,这些点可以是已有的解决方案或已经解决过的问题。
例如,校园网用户电话报修,称其网卡灯亮,但上不去网。窗口服务人员利用网络故障特征检测辅助程序对其所在的交换机进行检测,检测到交换机可以PING通,但用户端口环路。这其中,网卡灯不亮、交换机可PING 通、端口环路都是基本特征,那么这三个特征即可表达为空间三个基向量产生的点P(1,?,0,1,?,0,1),通过度量算法找到与P 点距离最近的方案,就定位到了一个最佳的解决方案。在特征知识库中,由网络工程师事先定义了环路问题的解决方案,它与点P 的距离最近,由此,不了解技术细节的服务人员就可以将这个最可能的解决方案提供给用户。
故障特征库
根据学校校园网的实际组成结构和运行状况,常见故障问题一般都有相对固定的现象。在本次项目中,运维管理人员对这些现象特征做了详细的总结和分类,形成了故障基本特征分类统计表。在表中又对不同分类级别的特征规定了一个数据库内的特征编号,由此形成特征分类数据库。应用程序采用树形结构展现特征分类数据库,供窗口服务人员选择相应的故障特征。当分类级别最低的特征被选定时,其特征编号以及父分类的特征编号同时被取出,这些编号组合在一起就产生了本次选择的特征向量值,进而在知识库中选出与本向量值相匹配的知识库条目。
当知识库中未找到与特征向量相匹配的内容条目时,就说明知识库中缺少针对这种特征的解决方案,此时事件将转交到后台工程师来处理。后台工程师对事件进行跟进解决时,必须对缺少的知识库内容进行填写,后台程序把填写的内容与本事件的特征向量值对应起来并保存到知识库中,这样就形成了知识库的积累、更新功能。