德科仕QoExpert®新一代IP视频业务质量监测系统——助力运营商保障视频服务质量

        为了提高IP视频业务质量监控手段,实现针对终端用户视频体验评价和全方位业务质量监测分析及可视化呈现,德科仕通信与国内各大视频业务运营商广泛合作,建立了一套用于评价IP视频业务服务质量的指标体系,并在此基础上开发了QoExpert®新一代IP视频业务质量监测系统。

        QoExpert® IP视频业务质量监测系统通过在机顶盒终端中部署软探针,可实时采集IP机顶盒的视频用户体验(QoE)和服务质量(QoS)指标数据,以及用户收视行为数据,从而实现IP视频业务质量监控,主动发现IP网络和视频业务质量劣化并预警。在实施主动运维的同时,也可定期通过对指标数据的汇总分析,对IP视频业务质量优化形成可持续的指导。通过进一步加强针对终端管控能力和技监技维能力,加强IP业务质量的监管监控能力。在持续提升视频业务质量的同时增强用户体验服务,实现提质增效,提升客户满意度。

一、系统功能和主要应用场景

        德科仕QoExpert机顶盒软探针业务质量监测系统的功能和应用场景如下:

(1)实时监控

        GIS地图展示全省各地市公司/区域/机房的用户感知体验。通过大屏可直观查看分公司用户分布、频道健康度、实时告警、业务流量趋势等信息。

        历史趋势图直观显示全省的IP视频业务质量趋势,总体掌握IP视频业务情况。

(2)故障排查分析

        用户感知较差的CDN排名和故障原因统计分析。CDN服务器分析模块可通过大量机顶盒访问CDN的真实KPI数据汇总,分析CDN的服务质量。

        单用户业务故障分析、质差用户清单导出、关联OLT/BRAS等网络信息关联分析排障。系统可以通过分公司维度及机房维度筛选查看当前各个分公司机顶盒详情,并支持导出。

(3)数据分析

        及时发现处理影响用户体验问题,提高用户体验。系统报表可展示用户活跃、用户卡顿分布、HTTP错误码分布、事件分布等报表,支持导出。

        通过自定义报表准确化统计分析整体运行状态。对当日用户卡顿进行分析,可以得到各分公司的用户卡顿故障明细。

二、故障分析案例

故障案例一

        【案例现象】2023年4月7日22:00~23:00出现某区域流量突增

        巡检情况:2023年4月7日晚从探针统计该区域所有流量相比前一工作日上涨66%,开机用户数上升3.4%;经联系相关运维人员发现当日凌晨3点左右进行过BRAS相关调整,因此怀疑流量上涨与该调整有关。

        检查该域下各分机房的数据发现某机房在凌晨3点左右出现流量上升的情况(与调整时间基本一致);排查该机房组播交换机一口异常,组播掉流,晚上23:30左右更改交换机模式后,组播恢复;同时从探针系统上观察该机房在此调整后,自3月1日以后开始再次出现组播流量。相关趋势图如下:

        综合以上数据,该区域流量上涨原因主要包括开机用户增加导致流量上涨,以及交换机组播口异常导致流量上涨两部分原因。经分析,该区域流量上涨原因主要是BRAS调整导致。在4月7日晚交换机调整过后,流量有回落现象,同时再次出现有组播业务流量。

故障案例二

        针对某片区7月6日-7月7日出现的质差异常问题,通过IP视频业务探针系统的预警及分析功能,及时的进行了排查处理:

        当该片区质差异常出现时,IP视频业务探针系统的预警功能,发现为该分公司某机房片区出现质差情况,系统综合告警出现相应告警提醒。

        通过IP视频业务探针系统的质差用户趋势分析,发现机房区域视频业务质量指标中的播放欠载用户占比增大,对该机房片区的事件情况进行统计,发现主要为丢包等网络侧事件。

        随即联系相关网络链路运维部门协助分析,经过网络链路运维部门排查,发现该机房上联汇聚交换机存在异常端口,对该汇聚交换机异常端口进行屏蔽后,该机房片区指标恢复正常,问题得到解决。

        通过IP视频业务探针系统数据预警及分析功能,可以更及时的发现片区故障,并可以及时对片区故障进行初步分析定位,第一时间将定位信息通知协同部门,从而缩短了维护时间,提高了运维效率。

故障案例三

        【案例现象】2023年5月17日出现某区域光纤用户无法上网情况

        【探针分析及运维过程】

1)开机用户维度,探针系统查看一小时采样周期时间点,对比前一日同一时刻发现该区域流量及开机用户有稍微下降的现象,但趋势不明显;

2)业务使用维度:单播、组播业务趋势相比前一日同一时刻下降1%;

3)以5分钟采样周期查看,在16:50开始,该区域流量下降将近40%;

4)经系统网络运维部门协同排查处理后,于17:40恢复正常水平。

        【案例总结】

        通过IP视频业务探针系统可以分析不同业务类型用户的涨/跌幅情况,以及业务流量动态,针对片区视频业务状态异常情况提供有效的运维支撑手段。

        通过经过该案例运维,探针系统设置了针对单/组播用户、和业务流量维度的告警设置,从而进一步提高运维覆盖面及及时性。

故障案例四

        【案例现象】某IPTV运营商的全区域质差用户突增

        2023-08-22 15:00:00—2023-08-22 16:00:00时段,IP视频业务探针系统产生了大量的质差用户数突增的告警。

        【探针分析及运维过程】

        通过探针系统的质差用户趋势分析页面发现,2023-08-22 15:20:00较多欠载用户明细突增;

        通过HTTP错误分析发现,同一时间发生了大量的HTTP请求无响应的故障,最高达到92.59%。

        经系统网络运维部门协同排查发现,服务器同时有掉流的情况,经过排查处理,于16:05恢复正常水平。

        【案例总结】

        通过IP视频业务探针系统数据预警及分析功能,可以更及时的发现片区故障,并可以及时对片区故障进行初步分析定位,第一时间将定位信息通知协同部门,从而缩短了维护时间,提高了运维效率。