国内某知名物流企业研发了先进的快件运营信息管理系统,并在全网络快递员中统一投入使用手持终端设备,实现了快件操作与信息采集的同步和快件运营信息的实时传递。运营信息系统的运行依赖网络,因此,网络的稳定性和可靠性成为了支持该企业业务生命线的关键问题。面对越来越复杂的网络构架和爆发式增长的应用上线,运维团队常常需要解决业务系统突然中断、性能下降、用户访问异常等等问题,因此需要建设一套新的网络性能监测系统,与现有的基础监控系统共同支撑,实时展示和分析应用的性能以及用户体验等情况。
2020年,该企业上线了智维数据nCompass网络流量监控平台,实现了多源数据采集以及业务性能和网络性能可视化监控,为业务系统与应用性能故障分析提供了可靠的数据支撑。本次案例分享将聚焦该物流企业通过网络流量智能分析系统,提升系统故障处置效率,支撑系统稳定快速运转的背后故事。
“快”的保障
是强大稳定的自动化、数字化全流程
物流业的数据化运营是关联到派单、收件、派件等一系列的复杂流程。举个例子,消费者在网上下单后,购物平台会推送给物流企业,此时快递员就会收到收件工单。收件完成后,这个快递会被送到相应的营业网点,由营业网点进行分拨,分拣,订单处理到收件网点,最后送到消费者手里。现在,国内大的物流公司基本上整个过程都是全自动的,这样能保障快递的送达效率是很高的。
因为对效率要求很高,所以对于网络效率和稳定性要求也特别高,物流的核心是效率,而物流的每个流程都是通过云端,网络数字化去流转的,要达到最优转化,网络的稳定性和效率是重点。
自动告警,智能分析
实现稳定、连续的网络支撑
那么如何保障物流网络的稳定性,又有哪些难点问题呢?以前有网络故障发生,比如当应用性能下降,运维部门只能通过人工经验逐个排查,如果不能及时解决就会影响到前端的业务流转。另外还有一些合规性和管理风险的问题,比如符合等保2.0的要求,国家监管部门的要求,以及出于数据安全防护的要求,需要做到运营的精细化管理。
而现在该物流企业采用的是智维数据的nCompass网络流量监控平台,网络上有故障发生,可以通过nCompass溯源找到问题根源,有隐患发生也有自动告警,网络部门可以先把这个故障梳理掉,让业务恢复。应用层有问题也能发出告警,应用组可以通过排他的方式把问题迅速解决。
以前看不到应用之间访问链的情况,现在网络部门可以通过nCompass对接负载均衡的API接口,这样能看到整体网络每个节点发生的问题,加上该企业基础监控对物理设备的监控能力,这样结合就能实现整体的运维监控能力。
多场景落地智维运维,新技术护航系统效率
以下是几个nCompass流量监控平台帮助解决运维故障提升IT效率的例子。
场景1
访问流程突发故障
web页面无法访问是该物流企业用户经常会遇到的问题,有一种常见现象是证书切换问题,应用要实现平滑的切换。当遇到用户反馈页面打不开,网络部门可以通过nCompass来分析一下这个应用到底有没有成功跳转,还是错误跳转到别的地方去了。
还有一些页面打不开是由于调用第三方接口失败造成的。不通有很多种,一种是对方加了白名单,但是这边的防火墙没有放行。那么这个请求有没有通过,网络部门同样也可以通过nCompass去监控它。
还有会出现运营商骨干网振荡,导致页面打不开。此时通过nCompass去溯源,发现只有某个城市DNS有问题,网络部门就可以反馈给下面的快递员或者反馈给第三方,是哪个地方现在不好,可以及时切换一下线路。
再比如有用户反馈网站打不开,应用组怀疑是DNS解析失败,这时候通过nCompass去检查,发现DNS解析率是99%,说明DNS解析正常,那么网络部门就可以反馈给应用组,请他们去排查其他问题。
场景2
链路优化管理与重大事件全局监控
链路管理是各个物流企业运维部门都特别重视的,链路管理指的是运营商带宽的问题,要保障网络畅通的稳定性,网络部门可以用nCompass看一下抖动、延迟有没有问题,如果此时监控主动告警提示某个骨干有问题,运维人员可以将出口的负载均衡切换到另外的链路上,就能够保证外部访问正常。
nCompass提供了企业全局的可视化监控能力,可以把负载均衡、链路管理、业务监控都统一到一个平台上来。比如物流行业在双十一、双十二这种业务量高峰期,就可以利用nCompass看到实时进来的流量带宽,包括应用之间互访的延迟,这样在大型促销或业务流量特别大的时候会有一个基础保障。
通过nCompass主动告警,网络人员可以实时监测流量是否稳定,延迟的指标高低,应用负载率等等,有问题可以提前处理掉。因为从业务开始报障到故障发生会间隔一些时间,这个时间里使用流量平台可以帮运维人员做到先知先觉,避免该物流企业出现大范围的故障,保障前台业务运转和整体网络运维的效率。
场景3
符合等保2.0合规要求
根据三级等保要求,物流企业的系统日志需要存半年。但是物流行业通常的访问量太大,所以该企业也通过与nCompasss合作,定制化表单,达到了等保的要求。而在数据安全性方面,网络部门也可以利用nCompasss将应用日志与网络日志结合,来溯源异常的IP地址。
展望
进一步的数据整合,搭建完整的运营数据监控,
是未来实现AIOps,提升全流程效率的最佳方案!
物流企业作为网络型组织,面对成千上万的物流网点,面对管控难度越来越大的情况,需要以AIOps等新技术为抓手,来帮助实现对越来越多网点的可视化管控。在信息系统中能够第一时间看到所有的数据,实时处理,才能实现实时决策、实时优化,帮助管控和平衡整个网络。
目前该企业已经通过nCompass实现了在网络层的监控,未来希望将所有的网络层数据、应用层数据,包括虚拟机互访、K8S集群互访全部数据都整合到nCompass平台上来,通过nCompass来排查故障,这样解决问题的方式会变得更加简单,人效会更高。现在智维数据也在打造“场景化”的解决方案,那么在之后的合作中,双方能将技术与场景结合得更紧密,进一步提升IT运营效率。