2017 年5月23日-5月27日AlphaGo与世界棋王柯洁的人机大战,机器以3:0战胜了人类。AlphaGo在围棋上的强大得到了人们的赞叹,同时也将人工智能引入了大家的视线。
什么是人工智能?人工智能(Artificial Intelligence),英文缩写为AI。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大,可以设想,未来人工智能带来的科技产品,将会是人类智慧的“容器”。人工智能可以对人的意识、思维的信息过程进行模拟,人工智能不是人的智能,但能像人那样思考、也可能超过人的智能。如同科幻电影里呈现的:机器逐步替代人来工作正逐步成为现实。当前人工智能已经在金融、电商、自动驾驶、医疗、教育等领域得到了广泛的应用。
如今的IT架构相比五年前、十年前,规模和复杂度都呈倍数增长,管理和维护成本也水涨船高。从企业的角度而言,早期的运维方式已经无法负荷愈加沉重的工作量,人力又无法像网络规模一样成倍增长,这使网络运维成为企业发展的道路上不得不面对的难题。如何走出当前的困境?大家将目光投向了人工智能,希望通过机器学习和算法解决企业在数字化转型过程中遇到的问题:
✓ 难于衡量,无法主动发现问题
随着企业的业务发展,网络已经遍布企业的每个角落。一个大型办公园区,可能会涉及到上百台交换机、几千台AP、上万人接入。但是如何衡量成百上千个设备构成的网络是否运转正常?每个接入网络的人员、终端、系统应用在网络上体验是什么样的?是否有人员无法接入网络?是否存在网络服务质量差的情况?是单点故障还是群体故障?传统的方式,更多是被动等待员工报障,运维人员定位,现场人员修复的模式;这就导致网络处于不可衡量的状态,一切都是未知。网络人员时刻都处于“提心吊胆”和“随时救火”的状态。
✓ 场景繁多,故障修复效率低
以Wi-Fi网络为例,一个简单的故障Case:Wi-Fi网络经常连接不上。仅从网络侧来看,可能的原因包含了好几种:认证失败导致,接入用户数过多导致,信号强度弱导致,漫游失败导致等等。不同的故障场景,最终在用户侧体现出来的现象经常是类似的。这就导致每次出现故障的时候,都需要将可能的原因进行遍历,最终才能判断出具体的原因。而网络环境每时每刻都在发生变化,运维人员介入时,故障无法复现或者故障现象改变的情况,导致故障修复效率及其低下。这种状况对于一刻都不能中断的业务应用而言,是不可容忍的。
✓ 专家资源匮乏,网络难于优化调整
以某汽车4S店为例,该店在全国有440家分店,主要集中在一二线城市。总部有大约20人的团队进行日常运维和管理。由于每家4S店的情况各不相同,即使在同一家店,网络状况也在不停动态变化。如何对现有的网络进行优化调整,保障每个4S店网络均能提供良好的服务质量?依靠总部的运维专家,答案是明显的。假定每个4S店的网络优化,投入4个人,5天时间,包含现网情况分析,历史问题分析,未来发展规划分析,现网部署调整等,这个已经是非常短的时间了。那么440家4S店全部评估优化完,需要全部运维管理人员专职投入将近2年时间。如果选择专业服务商提供服务,每次业务变化,都需要服务厂商进行评估,其成本又是企业的“难以承受之重”。
网络结合AI,体验智能化网络服务
2016年,Gartner提出了AIOps的概念,即基于算法的IT运维(Algorithmic IT Operations)。AIOps为网络运维插上了机器学习和人工智能的虎翼,致力于为网络运维提供更加高效的决策方案。
举个例子:当异常发生时,在线系统中可能出现响应变慢,甚至服务中断的情况,给用户体验带来负面影响。AIOps可以通过机器学习算法找到问题的核心影响因素,从而将人工排查的时间缩短到分钟级,甚至秒级。确定故障根因后, AIOps可以根据问题库中相似问题的修复方案来自动处理问题,让运维人员从重复繁琐的日常工作中解放出来。当然,更加理想的是使用AIOps对故障进行自动预测,提前识别有风险的网络节点,虽然目前我们离这一天还有很长一段路要走,但经过在AIOps领域的持续深耕,相信时间一定会给我们越来越多的惊喜。
AIOps时代的网络运维应该如何构建?还能完成什么以前无法想象的任务?基于AIOps的理念,华为近期将在2018西欧渠道大会上发布意图驱动的CloudCampus新方案及关键组件,新的园区网络解决方案将为各行业客户带来预测性运维的能力,让客户真实体验网络运维的“人工智能之路”。敬请期待!