德科仕2020年春节和疫情期间电视业务保障案例

        2020年正月期间,正值我国抗击新型冠状病毒侵害的关键时期,广大群众都自我隔离宅在家里。那么,一家老小在家里怎么打发时间呢?相信大部分的选择都是——看电视!据广电总局节目最新的收视大数据显示,1月25日至2月9日,全国有线电视和IPTV较去年12月份日均收看用户数上涨23.5%,收视总时长上涨41.7%,户均每日观看电视时长近7小时!

        为了配合广电和电信运营商在疫情期间保障电视和IPTV业务的可靠运行,德科仕通信公司成立了专门的技术支撑团队,对公司在十多个省级运营商所部署的数字互动电视、IPTV和互联网电视质量监测系统,进行远程专项维护保障和周期巡检,将监测系统的告警和测试数据,以告警邮件和定期测试报告推送的方式,及时汇报和反馈给运营商维护部门,并协助用户进行快速故障排查和修复。

案例一:广电IP专网监测系统快速排查直播节目源故障

        2019年某广电网络公司在全省15地市部署了德科仕IP视频质量和网络性能监测探针。由于该省作为疫情的重灾区,德科仕公司对该用户的IP专网监测系统实施了一级保障机制,除了在系统上设置了告警邮件,对于重大故障告警能及时通知相关值班人员,还安排专人对系统进行定期巡检,从而保证了系统的稳定运行,并主动排查潜在的IP网络性能问题和节目源故障,倍加助力疫区人民居家观看优质的电视节目,为抗击疫情、坚决打赢新冠疫情防御战做贡献!

第一时间发现故障

        2月12日当天14点25分左右,IPTV值班人员收到告警邮件,通过查看EVA硬探针界面,监测到部分直播节目视频卡顿故障频繁发生。通过对所有节目故障进行TopN统计分析,整理出产生卡顿告警最多的探针和节目地址如下表:

深入的故障排查分析

        在EVA探针界面上,选取其中一路产生卡顿告警最多的节目流进行钻取分析,对该视频流的各项QoE和QoS参数进行历史趋势关联分析,发现该节目在告警时视频中断时长达到4997.88ms,并伴有频繁的TS丢包和视频PID中断错误,如下图所示。

        为了进一步判断导致故障的根源所在,工程师分析了故障时刻的视频流吞吐率并没有发生下降,结合EVA专家系统也显示TS丢包数并不是7的整数倍(一个IP网络丢包通常会造成7个TS丢包),因此可以判断是由于直播节目源问题导致的视频卡顿。

故障修复

        德科仕值班人员将在EVA系统上检测到的告警事件和测试数据分析结果,第一时间上报给该省广电网络公司运维负责人员,对方确认后紧急通知上游节目源平台维护部门,针对这这些故障节目所对应的编码设备进行排查,很快发现是由于一台编码设备出现故障导致的,通过快速切换到备用编码设备后此问题得到解决。

案例二:EVQM软探针系统排查大面积机顶盒卡顿故障

故障现象:

        2020年2月2日13-16点的春节期间,某运营商互联网电视业务部收到大量用户投诉使用IP机顶盒观看节目出现持续卡顿现象。

故障排查:

        由于该运营商约100万机顶盒都部署了德科仕的EVQA软探针,因此德科仕值班人员通过EVQM机顶盒软探针系统平台可迅速对机顶盒故障趋势进行分析。在系统界面上观察到HTTP故障数在此期间出现明显增加,错误类型主要为“HTTP请求无响应”,如下图所示。

        通过EVQM系统可对收影响的故障机顶盒的告警记录进行查询,随机抽取部分2月2日13-16点观看直播频道的用户机顶盒进行分析,发现正在观看直播频道的机顶盒软探针都检测到“HTTP请求无响应告警”,如下图所示。

        通过EVQ系统的CDN服务器统计分析页面,也发现IP地址为xxx.xx.xxx.80/81/77的CDN服务器存在“HTTP响应慢”以及“HTTP无响应”等故障。

故障修复:

        德科仕值班人员将在EVQM系统上检测到的告警事件和故障CDN服务器IP地址,及时上报给该运营商的平台维护部门,运营商组织CDN设备厂商对这些故障服务器迅速展开进一步的问题排查,发现是由于厂商对部分服务器做了软件升级,由于升级包未在现网进行严格测试导致系统运行不稳定,厂商及时将CDN软件恢复到上一版本,大面积机顶盒卡顿问题得以迅速解决。

案例三:端到端E2EAS软硬探针系统排查平台NAS故障

故障现象和背景描述:

        2020年2月10日16点至20点时,某省运营商新媒体业务部收到地市大量用户投诉观看直播节目出现频繁卡顿现象。

        由于该运营商部署了德科仕E2EAS端到端视频质量保障系统,包括在播控平台侧部署了EVA硬探针系统和多画面,在所有的OTT机顶盒部署了EVQM软探针系统,因此这极大地方便了各种视频故障的快速排查。

软硬探针关联分析进行故障排查:

        德科仕运维人员首先在第一时间收到了EVA直播硬探针系统的告警邮件,并在EVA探针界面上观察到了大量的红色告警流,以及告警事件-HTTP错误码(502:网关错误),如下图所示:

        与此同时,在EQM软探针系统也监测到大量机顶盒用户出现卡顿,并且HTTP错误码数量大增,大部分为502网关错误码:

        通过对EVA硬探针系统进行HLS节目详细指标的排查,快速过滤出存在告警的HLS直播节目,发现这些告警节目均出现HTTP502网关错误码,并且伴有TS分片未下载不完全的现象,由此可以判断此故障是由于CDN平台故障导致的,通过导出CDNIP地址列表,可以快速对这些CDN服务器进行隔离和故障排查。

故障修复:

        运营商运维部门将在德科仕E2EAS系统软硬探针的告警和测试排查结果,第一时间通知了CDN平台厂家,厂家最后查明确实是由于平台中的NAS(网络存储器)出现了故障导致了这次大面积直播故障。厂家在确认故障根源后,立刻着手修复NAS故障,在晚上23点左右调整完成,软硬探针的视频质量监测指标逐渐恢复正常。