“断网”事件频发,网络运维面临更严峻挑战
作者:青云计算机    更新时间:2019-06-19 13:47:48

随着互联网的普及,现代人的生活已经从“衣食住行”迈向“衣食住行网”,人们对网络的依赖程度正在逐渐加深。网络作为现代人生活的标配,用户在线时间和在线服务感受也在同步提升,而云化的IT架构变化在网络出现故障时的客户感知影响更为明显。这也导致了用户对网络服务中断的关注程度不断提升。

image.png



然而,年初至今,运营商“断网”事件屡上热搜,“断网”的原因有哪些?面对未来更加复杂的网络,运营商又该如何布局?近日,通信世界全媒体记者采访多位业内专家,谈谈“断网”事件背后反映出的问题。

“断网”非小事,原因不尽相同

在万物互联、移动支付的生活环境中,“断网”事件对人们生活的影响不言而喻,而“断网”的原因却少有人会在意,只要尽快解决网络服务故障,人们就会将“断网”带来的不快抛之脑后。但对于运营商而言,运营商提供最重要的服务就是网络服务,因此网络服务中断应该被视为最重要的服务故障。

网络服务是衡量运营商运营水平高低的标准。通信行业专家云晴表示,即便不考虑成本削减、人员流失等长期对网络维护带来影响的因素,运营商网络的复杂性(不断更新的新技术、IT化的趋势),不断变化的场景(网络功能新增、业务新增),需要解决的新的安全隐患问题(IT化带来的网络安全问题,所面临的各类网络攻击),城市化建设带来基础设施(例如光缆等)被破坏的可能性增加等,都给运营商提出了越来越高的维护要求。

多次“断网”事件发生的具体原因不尽相同,据了解,除了天灾人祸,系统软件缺陷引发网络故障的概率相对较大,光缆故障、设备故障等概率较小。Strategy Analytics高级分析师杨光表示,这种情况只有系统厂商加强自身软件工程能力,认真遵循软件质量管理原则,才能降低软件缺陷的风险。

同时,杨光指出,用户数量过多肯定会增加网络故障的风险,但只要遵循网络容量管理的基本原则,运营商应该可以有效应对,这也正是近期三大运营商对4G网络进行扩容的原因之一。但是,用户数量多并不与网络故障多发有必然联系,否则我国运营商的故障率应该远远高于大多数国家。

扩容不是唯一办法,网络运维挑战严峻

云晴认为,网络质量虽然会受到系统处理能力的影响,但容量并非导致目前网络服务中断的主要原因。原因在于如果不是光缆中断、核心数据错误,而且未实现容灾的情况下,性能恶化导致网络不可用的情况并不多见。更何况经过多年的发展,运营商系统的高可用保障已经达到了很高的程度。

而智能化运维被不少人看作是运营商的福音,但云晴指出智能化运维具有两面性。尽管通过信息化手段实现对系统的智能化管理,确实能够有效提高运维水平,但与此同时带来的是对维护机制、管理流程、人员意识、相应的安全管控系统安全性等方面不断提高的需求,这无疑增加了运营商的运维成本。

所以说,单纯地通过扩大容量来提升系统的高可用性是片面的,网络容量的提升,并不能够确保网络高可用问题的解决,智能化运维也并非目前解决“断网”问题的最佳选择。如何在网络服务质量和运维成本之间达成平衡是运营商待解决的课题。