1、IPRAN光模块引起高BLER的问题分析(湖北省网优中心)摘 要:近期全省范围内同期出现多起4G网速慢投诉,在梳理无线测试数据关系后,逐步分析排查,发现是IPRAN传输网的高误码导致4G上网时BLER(Block error rate)高,基站按照系统既定机制调降MCS,但由于BLER并非无线环境/信号质量引发,调降MCS未能有效改善BLER,因此基站不断调降MCS,导致网速慢及用户无法上网的投诉。在解决IPRAN的误码问题后,复测BLER降至目标门限以下,在无线环境及信号质量良好的情况下,测试下行速率从原来的1Mbps以下提升到56Mbps左右,用户感知大为改善。关键词:BLER;网速慢;M
2、CS;IPRAN0 概述在无线网络中,一个设备(如eNodeB)是按块(block)向另一个设备(如UE)发送数据的。发送端使用块中的数据计算出一个CRC,并随着该块一起发送到接收端。接收端根据收到的数据计算出一个CRC,并与接收到的CRC进行比较,如果二者相等,接收端就认为成功地收到了正确的数据,并向发送端回复一个“ACK”;如果二者不相等,接收端就认为收到了错误的数据,并向发送端回复一个“NACK”,以要求发送端重传该块。如果在某个特定的周期内,发送端没有收到接收端的回复,则发送端假定之前发送的块没有到达接收端,发送端自动重发该块。(MAC层的HARQ处理)。BLER(block erro
3、r rate),即误块率,是出错的块在所有发送的块中所占的百分比(只计算初传的block)。在实际应用中,某一特定百分比(如:LTE中数据信道的BLER要求为10%以下)的BLER并不总是必须的,因为可以重传出错的块并通过特殊的处理(如软合并等),使得接收端正确解出收到的数据。需要测量和计算BLER时,在发送端就能够完成,因为可以通过收到的NACK数来计算BLER。在LTE中,控制信道的目标BLER为1%,数据信道的目标BLER位10%。当BLER不超过10%时,UE将向eNodeB上报它所能解码的最高MCS。LTE在无HARQ重传情况下误块率指标为10%,加入HARQ重传后误帧率(FER)大
4、概为1%,再加上RLC层的ARQ后性能提升到10-5数量级。1 原因分析终端问题、基站问题、网络问题都可能导致用户感知的网速慢。多用户投诉同类问题,初步排除终端问题。网管检查马山镇3个LTE基站运行状态正常,驻波及底噪正常,初步排除基站设备故障问题。网优平台核查小区无线性能指标,各小区流量及用户负荷均不高,个别小区指标较差,但未发现指标明显劣化现象。现场DT测试未出现接入失败、切换失败或掉线,但镇内各LTE小区均存在网速慢的问题,具体表现是:下行速率在10kbps到2Mbps之间大幅波动,平均下行速率不足1Mbps。测试截图如下:无线环境及无线信号质量分析:终端工作在LTE1.8G网络下,距离
5、服务小区较近(164米),SINR较好(14.4dB),空口传输采用开环空间复用(TM3)和双流(CW0/CW1),说明终端所处的无线环境及信号质量良好,无线环境及无线信号问题可以排除。网速慢分析:正常情况下,上述测试SINR匹配的网速应在40Mbps左右,但实际网速不足1Mbps,网速与信号质量严重不匹配,主要原因是基站分配给终端的MCS不稳定且平均MCS低。LTE网络中,MCS值决定终端速率,MCS越高,调制阶数越高,TBS越大,终端速率就越高。测试截图显示MCS在2-20之间变化,三类调制方式都有出现,且对应高网速的64QAM调制方式占比较低,不足三分之一,因此在测试中观察到下行速率大幅
6、波动,且平均速率低。MCS波动分析:MCS受CQI和BLER的影响,当BLER未达目标门限(通常10%)时,CQI越好,MCS越高,当BLER超过目标门限时,MCS会随着BLER的升高而下降,以保持BLER在目标值以下。本次测试中,虽然终端信号好,上报的CQI好,但BLER高(11.6%),因此MCS被调降。由于无线环境及信号本身已经较好,MCS的调降并不能有效改善BLER,系统根据既定机制持续调降MCS,导致MCS的波动。2 问题描述及处理荆州现业马山镇多个用户投诉镇区4G网速慢,无法正常上网。马山镇镇区由3个LTE基站覆盖,分别是马山镇C网、上马山庄、马山中学,3个基站均下挂在马山支局BB
7、U01。马山镇区高BLER分析:测试分析无线环境和无线信号正常,则高BLER可能与基站设备或传输网络有关。重启基站、重做基站数据后问题均未解决,由于马山支局仅一套BBU,未替换BBU排查,而是通过测试马山支局上联A路由器下挂的其他基站来排查。测试发现上联A路由器下挂的其他基站也存在类似问题,判断IPRAN传输网存在问题的可能性较大。IPRAN问题排查:重启A路由器未解决问题,联系IPRAN工程师查找传输网问题,排查发现菱湖B路由器至波分之间光模块不匹配导致传输掉包和高误码。马山支局所处IPRAN拓扑图及问题段落、投诉区域的标示如下荆南RAN-ER马山 B1-1马山 A2-1新太岳 RAN-ER
8、菱湖 B1-1菱湖 A2-1马山BBU01马山支局BBU01菱湖BBU01菱湖支局BBU01波分波分马山镇C网上马山庄马山中学马山镇蔡桥村菱角湖C网荆州国家电网菱湖金台大队问题段落:掉包/高误码投诉区域:4G网速慢3 解决措施更换菱湖B路由器的光模块型号与太湖波分光模块型号一致,测试马山镇区无线环境及信号质量与之前差距不大,但BLER降至10%以下,MCS稳定在20左右,64QAM调制方式占比100%,下行速率稳定在56Mbps左右,同时观察小区无线性能指标也有改善。测试截图及对比数据如下:4 经验总结网络速率由基站分配给终端的MCS决定,而MCS又由CQI和BLER共同确定。其中BLER为误
9、块率,表征传输块的解码成功率,不仅与无线网相关,也与各节点设备、传输网相关,CQI为信号质量指示,表征无线信号质量,只与无线网相关。若BLER保持在目标门限以下,则MCS随CQI的改善而提升,即:当CQI较好时就能获得较好的网络速率。若BLER超过目标门限,MCS将被调降以维持BLER在目标门限以下,但是如果BLER并非无线网原因引起,则上述机制无法实现,MCS将被持续调降至极低值,出现信号质量和CQI好而网速低的现象。网络速率不稳定问题的排查,从排查初期,没有系统的收集分析客户投诉,没有通过严谨的测试去判断故障问题点,出发点始终在无线网络上各环节,很容易忽略了传输网络可能存在故障,同时,传输
10、网络存在故障的可能性,是通过对水南地区基站共性问题得以暴露,缺少有效联合定位排查手段,这是我们需要在今后维护工作中重点去总结的;通过此次故障排查,我们得知:IPRAN核心层是通过VPNV4-ECMP(等价路由)来进行链路的保护,从B设备网关会有两条等价的路由到EPC,业务流量上行和下行具体路径是无法人为确定的,是通过哈希算法随机计算的,但总体上保持两条链路负载分担,当流量跑在有问题的链路上时,就造成业务影响。LTE网络全IP、扁平化的架构,使无线侧和传输侧、核心网侧联系的更加紧密,但对维护技能提出更高的要求,传输侧光模块已经进行更换,此类故障问题故障点比较隐蔽且发现的手段较少,是需要我们在日常故障中去积累的经验,也需要日后重点去寻求发现问题的有效手段,为现有网络安全运行提供坚实的保障基础。