.
网络维护指导规范
.
目录
1 2
前言 ...................................................................... 3 运维规及建议 .............................................. 错误!未定义书签。 2.1 维护概述............................................................... 3
2.1.1 维护分类 ......................................................... 3 2.1.2 机房维护制度 ..................................................... 3 2.2 例行维护............................................................... 4
2.2.1 例行维护项目列表 ................................................. 4 2.2.2 机房环境检查 ..................................................... 6 2.2.3 设备运行状态 ..................................................... 6 2.2.4 配置检查 ......................................................... 8 2.2.5 保护倒换测试 ..................................................... 9 2.2.6 网管服务器计算机环境 ............................................ 10 2.2.7 数据备份检查 .................................................... 10
3
维护及发展 ............................................................... 10 3.1 网络维护故障类........................................................ 10
3.1.1 网管无常使用设备的LLDP功能怎么办? .............................. 10 3.1.2 LOOPBACK1地址自动丢失造成网元脱管怎么办? ....................... 11 3.1.3 上载数据库不成功提示“设备未登录(没有权限)”怎么办? .......... 11 3.1.4 如果升级中ZXR10.ZAR无法删除和重命名怎么办? ..................... 12 3.1.5 如果网管设备管理器查询不到这个网元的任何配置,但网元确实有业务在跑,
如何处理? ...................................................... 12 3.2 网络技术规类.......................................................... 12
3.2.1 155M端口和2M端口环回规定? ...................................... 12 3.2.2 伪线双归保护应用场景和配置规? .................................. 12 3.2.3 异常业务如何产生,该如何避免? .................................. 13 3.2.4 PTN网络中,TUNNEL如何配置合理,需要注意什么? ................... 14 3.2.5 网络在业务承载和流量规划配置需要注意什么? ...................... 14
.
.
1 前言
为适应中国移动通信的高速发展,加强移动PTN传输网络维护及后续优化管理,合理利用网络资源,使网络运行质量达到最优,提高网络的运行服务质量,为业务网提供良好的传输网络支撑,传输维护中心根据现网运行和建设情况,结合集团规,针对如何建设PTN网络“可发展、可持续、易管理”的网络运维要求,提出相关规和建议,用于后续传输网络发展、维护指导。
1.1
1.1.1
维护概述
维护分类
设备维护可以分为日常维护和突发性维护。 1. 日常维护
日常的周期性例行维护,主要是对设备运行情况的周期性检查。及时处理检查中出现的问题,以达到发现隐患、预防事故发生、及时发现故障并尽早处理的目的。
2. 突发性维护
突发性维护也称为故障处理。因为传输设备故障、网络调整等原因带来的维护任务。例如:设备损坏、线路故障时需进行的维护、在日常维护中发现并记录的突发事件。
1.1.2 机房维护制度
为保证机房环境满足设备运行要求,更好地完成设备维护工作,机房应建立完善、有效的维护制度,所有维护人员应共同遵守。
机房工作制度
保持机房的整齐、清洁、有序。
做到进门换鞋,地面清洁,设备无尘且排列规整。仪表准确,工具到位,资
料齐全。
不准在机房吸烟、吃东西、玩游戏。 不准在机房大声喧哗。
不得在机房乱摆放私人物品。 不做与工作无关的事。
不将易燃、易爆等物品带入机房。
.
.
无关人员未经批准不得进入机房。 操作设备时必须佩戴防静电手环。 爱惜机房的公共财物。
不得泄露有关,做好工作。
做好各种原始记录的登记、统计工作,保证技术资料和原始记录真实、完整。
工作人员在机房值班时,必须严守岗位,发现重大障碍和事故应及时处理及
上报。
机房管理要有领导负责定期检查,不断改进。 机房交制度
做好上、下班之间的交接工作,是保障通信不间断的一项重要制度,要求每
个工程维护人员必须严格遵守。
值班人员在上、下班时,必须认真交接,做到责任明确、手续清楚、衔接顺
畅。
人员在下班前要把本人值班情况介绍清楚,人员在上班前要认真核
对检查。
交时要求做到:设备运行状况、工具、仪器仪表等情况明确,各种图纸
资料记录等完备。
人员未到,人员应坚守岗位,直到人员到来并完成交接后方可
离班。
交接完毕后,双方应在值班记录上签字,作为书面记录,表示设备已移交接
班人员维护。
如在交时出现设备故障,人员及人员共同承担维护维修设备的
义务,不可相互推诿。
1.2
1.2.1
项目 例行维护
例行维护项目列表
例行维护项目及间隔周期见表 项1 2 3 4 5 机房环境检查 硬件安装检查 6 7 8 9 检查容 温度,湿度 说明 温度:15C~30C,湿度:40%~65%,有空调设备 检查情况 □ 合格 □ 不合□ 合格 □ 不合□ 合格 □ 不合□ 合格 □ 不合□ 合格 □ 不合□ 合格 □ 不合□ 合格 □ 不合□ 合格 □ 不合□ 合格 周周 月 月 周 月 月 月 季度 季备注 防雷、防电磁干扰 有无防雷设施,附近有无强电磁场 防尘 电压围 机柜防鼠袋检查 消防设备 后备电源 走线和电缆编号 网线制作 门窗完好,设备干净无灰尘 交流:~220V±10%,直流:-60V~-40V 检查防鼠袋是否破损 检查是否配置合适的消防设施 有后备电源,并有足够的容量 走线规整齐,电缆有明确编号 网线按标准制作,尽量短 .
.
10 12 13 系统硬件检查 14 15 18 备份检查 19 20 告警日志检查 21 22 23 24 25 26 27 设备运行状态 28 29 30 31 网管服务器检查 32 33 34 倒换测试 35 36 版本检查 业务配置规划化检查 37 38 39 40 保护地、工作地 系统风扇 电源模块 单板运行情况 端口状态 配置备份 数据库备份检查 告警记录 日志记录 性能检测 设备温度 系统时间 CPU使用率 存使用率 以太网端口流量 以太网端口丢包 以太网端口对接 存检查 cpu检查 登录密码检查 硬盘空间检查 主备用主控板倒换测试 业务工作保护倒换测试 软件版本 硬件版本(PCB、PLD) telnet line参数 业务保护 TMPLS OAM 有良好接地,接地电阻<1Ω 机架和系统风扇应该正常转动 电源主、备用是否正常,有无告警 单板有无告警 端口状态有无告警,工作是否正常 配置文件和配置信息应该备份到后台服务器上 检查网管数据是否正常备份 查看告警记录是否正常,一方面看能否正确反映告警,更重要的是看有无反映查看日志记录是否正常,一方面看能否将操作记录下来,更重要的是看有无异查看性能记录是否正常,看有无反映设备运行异常的性能,如误码等 温度是否超过围,要求>= -40℃,并且<=70℃ 查看是否时间超过3分钟 当前和历史CPU使用率是否异常 当前存使用率是否异常 查看端口出方向流量,关注 Interface peak rate/ Interface 多次查看端口计数确认下面计数是否增加: CRC-ERROR\\ Errframe\\ 查看对接端口是否配置一致(全双工,协商模式) 检查服务器存使用率是否过高,要求小于80% 检查服务器cpu使用率是否过高,要求小于60% 要求密码不能过于简单,一个月更换一次 要求网管安装目录所在硬盘空间剩余空间大于10G 检查备用主控板是否正常 检查备用保护路径是否正常 软件版本是预期的版本,是否全网一致 硬件版本是预期的版本,是否全网一致 是否符合idle-timeout 30, absolute-timeout 0 是否有配置业务保护路径,配置齐全 是否有配置TMPLS OAM,配置齐全 □ 不合□ 合格 □ 不合□ 合格 □ 不合□ 合格 □ 不合□ 合格 □ 不合□ 合格 □ 不合□ 合格 □ 不合□ 合格 □ 不合□ 合格 □ 不合□ 合格 □ 不合□ 合格 □ 不合□ 合格 □ 不合□ 合格 □ 不合□ 合格 □ 不合□ 合格 □ 不合□ 合格 □ 不合格 合格 □□ 不合□ 合格 □ 不合□ 合格 □ 不合□ 合格 □ 不合□ 合格 □ 不合□ 合格 □ 不合□ 合格 □ 不合□ 合格 □ 不合□ 合格 □ 不合□ 合格 □ 不合□ 合格 □ 不合□ 合格 □ 不合□ 合格 □ 不合度 季度 周 周 天 天 周 天 天 天 天 天 周 天 天 天 天 周 周 周 周 周 季度 季度 季度 季度 季度 季度 季度 主要关注核心节点 主要关注核心节点 主要关注核心节点 主要关注核心节点 .
.
41 检查VLAN配置 检查VLAN配置是否会导致环路 □ 合格 □ 不合季度 1.2.2 机房环境检查
设备运行时的环境温度和相对湿度 要求温度:15设备供电电源
使用直流标称-48 V电源,允许波动围:-60 V~-40 V。机房直流电源线安装的路由、路数及布放位置等应符合一般电信工程的规定。导线(铝、铜条或胶皮线)的规格、器材绝缘强度及熔丝的容量等均应符合设计要求。电源线应采用整段的线料,不得在中间接头,当需要使用保护套管时,应参照相应的邮电规施工。
消防设备
机房应配备有适用的消防器材。
如一定数量的手提式干粉灭火器,确保消防器材设在机房附近明显而又易于取用的位置。
对于规模较大的机房,应有配套的自动消防系统。
C~30
C,湿度:40%~65%,有空调设备。
1.2.3 设备运行状态
查看设备风扇、电源状态
检查目标:检查电源、风扇状态,避免出现风扇半速运行、单电源工作影响
设备稳定性和可靠性。 检查容与操作:
Show powerfanstate 检查电源、风扇的工作状态,如果状态未Online but not Work则说明电源或者风扇不正常需要检查。
系统版本检查
检查目标:确保系统软件版本为最新可用版本,全网版本统一,避免因版本
问题导致的网络隐患。
检查容与操作:show version查询系统软件版本,软件编译时间,FPGA、
CPLD、PCB版本。 系统温度检查
检查目标:系统温度处于正常工作围,排除温度过高导致的运行风险。
.
.
.
检查容与操作:设备上show version查询系统系统温度,要求>= -40℃,
并且<=70℃。
查看单板,端口告警、运行状态
检查目标:检查单板是否存在异常告警,及时发现排除单板或端口故障带来
的影响,如果存在分析处理消除设备隐患。
检查容与操作:网管,设备上show logging current-alarm查看单板及端
口是否告警,或查看端口,单板运行指示灯,并进行记录 系统运行时间
检查目标:核对系统运行时间是否准确,确保全网设备及网管服务器、客户
端系统运行时间同步。防止时间不符导致网管告警不准确。
检查容与操作:查看系统运行时间是否超过时间3分钟,如果不准确重新进
行设置。
--show clock查询当前系统时间 --clock timezone 设置时区
--clock set hh:mm:ss Month Day Year设置日期时间 查看设备CPU,存处理情况
检查目标:通过查看CPU是否出现长时间高占用率,了解存资源占用情况,
确认有无存泄露【存占用长时间高达90%以上或者间隔(24小时以上)观查存值持续升高,此时就需要关注是否存在存泄漏!】等问题,初步分析系统是否运行正常。防止设备资源占用过高导致的业务中断风险
检查容与操作:主要查看当前主控CPU(5s)占用率和存使用情况,历史上
PeakCPU占用率,如果有高占用率【一般情况下长期在50%或者瞬间70%就认为占用率高】需要进一步分析,排除网络存在的隐患。 以太网端口对接
检查目标:查看对接以太网端口的双工、速率配置是否正确和状态是否正
常。对于光端口查看光模块(必须是支持数字诊断的光模块)的光功率是否正常,避免因端口协商或光功率影响业务通信。 检查容与操作:
---设备上执行show interface brief 以太网端口数据包统计
检查目标:多次查看端口收发包统计情况,查看端口出方向流量,关注
Interface peak rate/ Interface utilization是否在正常围,建议值一般低于端口带宽70%,过大需进一步分析或考虑扩容,防止因流量过大导致
.
的业务丢包;确认CRC-ERROR\\Fragments\\LittUndersize计数是否增长以及Dropped是否大量增长,有则要分析产生原因,消除故障。 检查容与操作:
-----show interface xgei_10/1 端口性能
检查目标:通过网管查询E1,STM端口15分钟及24小时当前、历史性能,
查看是否有PDH误码等异常性能,有则进一步进行分析定位处理,排除故障,避免影响业务正常运行。
检查容及操作:在网管上进入性能管理界面后,选中需要查询网元-板卡-端
口后,在查看菜单选项中选择当前性能,设置粒度周期后点击查询按钮即可获取15分钟或者24小时当前性能统计。
1.2.4 配置检查
Vlan配置
检查目标:查看vlan、ip设置是否与规划要求以及实际应用相符合,避免
由于这些问题导致监控、业务通信出现异常。 检查容与操作:
show vlan,主要关注NNI端口的Pvid是否为1,若为1则要修改之,防止由于vlan成环,产生广播风暴,导致业务中断。
show interface vlan xxxx 查看协议是否up,ip地址是否配置正确。 show ip interface brief 查看Vlan、IP地址是否和规划设计的一致。 telnet line 参数配置
检查目标:查看telnet(absolute-timeout)绝对超时时间是否为0 ,避
免参数为默认值1440,导致网元24小时出现一次网元断链告警;查看telnet(idle-timeout)相对超时时间是否为30,避免参数设置大于30,有大量空闲telnet占用TCP资源。 检查容与操作:
---Show running-config | include telnet 查看telnet line配置的参数 ---设置telnet相对超时时间和绝对超时时间分别为30,0。 业务保护
.
.
检查目标:查看是否有配置业务保护路径,隧道保护配置信息是否齐全(和
下列命令显示信息相比较缺少保护类型、模式、下一跳等即为不齐全)。防止因保护未配置保护导致的业务中断风险 检查容与操作:
Show running-config | begin tunnel group查看所有配置的保护组信息 或在网管TNP查看是否存在保护组,保护组状态是否一致。 TMPLS OAM配置
检查目标:查看是否有配置TMPLS OAM,配置是否齐全,防止因为oam配置
不全导致的网络保护失效及oam维护操作失败等。 检查容与操作:
---Show running-config | begin pwe3 查看伪线OAM配置是否齐全 ---Show running-config | begin tunnel x 查看隧道OAM配置是否齐全 ---Show running-config | begin tms x查看段层OAM配置是否齐全
1.2.5 保护倒换测试
主备主控倒换测试
检查目的:检测备用主控是否正常,是否能够起到保护作用。 检查容与操作:
命令行操作:redundancy force-switchove
网管操作:拓扑视图右键点击网元,依据路径设备管理器->PTN业务配置->主控板主备倒换路径进入操作界面
业务主备路径倒换测试
检查目的:检测备用保护路径是否正常,保护功能设置是否有效。 检查容与操作:
首先在业务视图->业务管理->TNP管理->选中测试保护组->图形显示,查看工作路径和保护路径,确认实际路由后关闭界面。
然后在业务视图->业务管理->TNP管理->选中测试保护组->保护组信息 接着在弹出的界面中对A/Z端进行倒换设置后,通过观察倒换状态,倒换告警,以及和运营商维护人员确认承载业务是否有瞬断等情况确认备用链路及倒换功能是否有效。
.
.
1.2.6 网管服务器计算机环境
检查目标:及时发现网络维护瓶颈,防止因网管服务器硬件资源导致的维护
问题,提高维护效率。 检查容与操作:
1. T3网管系统在网管服务器上运行时占用的存、CPU情况。要求服务器存使用率小于80%, cpu使用率要求小于60%
2.检查网管安装目录磁盘是否有10G以上剩余空间。防止因空间不足导致的数据备份失败等
1.2.7 数据备份检查
检查目标:1,检查设备配置文件是否备份,便于配置丢失或更改后及时恢
复业务。2,检查网管数据库是否正常备份,并能够将近期自动备份的网管数据恢复,用于发生故障时实现业务的快速恢复。 检查容与操作:
点击系统管理视图~备份恢复~数据备份,将出现如下对话框,输入文件名以及存放目录,然后按备份按钮,网管备份功能是否正常。
2
2.1
2.1.1
维护及发展FAQ
网络维护故障类
网管无常使用设备的LLDP功能怎么办?
答:众所周知,MAC主要工作在第二层,两台电脑即使MAC地址相同,只要不在同一个广播域中就不会有冲突,这样产生冲突的概率就小多了,当然,即使有冲突了电脑也不会报告警的(IP冲突电脑软件会识别)。而现场PTN网管用到的LLDP功能,首先要通过MAC地址确定设备,一旦冲突了就无法工作,这个冲突检测是跨广播域的,因此发生冲突的概率要大一些。
处理方法: 在D:\\NetNumen_T31\-ms\lnt\\log目录下选择相应时段的日志文件,搜索00 D0 D0,如果存在,则从中可以看出是哪个网元出现了问题。
如果发现有问题的站点,登录网元激活MAC地址: 在特权模式下输入: olleh 进入隐匿模式
(1) 输入 mac-base-addr enable master 激活MAC地址
.
.
(2) 输入 reload 使激活生效。
当然根本的解决方法还是在开局前查看一下设备的MAC地址以保证全网唯一。
2.1.2 loopback1地址自动丢失造成网元脱管怎么办?
答:该故障是由于现场配置了loopback1后,没有配置 tmpls lsr-id loopback1导致的(如果没有配置tmpls lsr-id loopback1,当网管上载后,网元属性中的环回地址仍为0.0.0.0)。
按照设计思想,网元由离线变为在线后,网管会自动下发离线时所做的网元属性到设备上,以此来保证网管数据和设备数据保持一致。所以,现场在离线配置设备时,要注意在配置了loopback1后,一定还要配置 tmpls lsr-id loopback1。否则当设备在线时,由于此时网元属性中的环回地址为0.0.0.0 ,会下发以下命令因此导致设备上loopback1值为0:
interface loopback1 no ip address exit
所以在离线创建网元时一定要填写环回地址且环回地址一定为真实的loopback1的IP地址。
2.1.3 上载数据库不成功提示“设备未登录(没有权限)”怎么办?
答:【故障现象】
对设备上载数据库时,网管提示告警“发送命令失败,设备未登录(没有权限)”。
【故障分析】
用户模式进入特权模式要执行命令enable,密码是:zxr10,zxr10在show run显示的所代
表的字符串为:RcMluUKvnFZX9kNAV6A/UA==,通过查看现场采集的show run信息发现如下:enable secret level 15 5 Sd90g2CfYMc5m27HBE9PbQ==,可见此设备的enable密码不是zxr10,所以导致网管一直登陆不上设备,导致同步时报设备未登陆告警。
【规避方法】
现场通过cmd登陆到设备,采用用户名为zte,密码为ecc,可以进入的特权模式,然后
再进入到配置模式,将enable密码进行修改,修改为zxr10即可。
.
.
具体修改命令为:enable secret level 15 zxr10。 修改之后网管管理设备就正常了,同步上载就不会报错了。
2.1.4 如果升级中zxr10.zar无法删除和重命名怎么办?
答:方法一:ZXR10(config-increte)#dia exec mp ma cmd chkdsk \"/flash/\强制修复flash,然后再看看能不能删除zxr10.zar.
方法二:更换主控板
2.1.5 如果网管设备管理器查询不到这个网元的任何配置,但网元确实有业务在跑,如何处理?
答:这可能是该网元以ros方式重启以后没有做同步操作,可以按以下步骤实施 telnet登录网元,进入\\dataset目录检查是否有initDataSrcFlag文件,如果没有就拷贝一个initDataSrcFlag文件。
执行write命令保存网元配置,执行sync startrun to agent命令同步数据库到agent。网管上执行数据同步,将agent网元配置上载到网管。然后删除initdata标志文件。
要求现版本均以agent方式启动。
2.2
2.2.1
网络技术规类
155M端口和2M端口环回规定?
答:目前6200和6300设备支持2M、155M端口环回功能;9008设备的155M光口支持光口级的环回功能,但不能针对单个VC12进行环回。
2.2.2 伪线双归保护应用场景和配置规?
答:【伪线双归保护倒换触发条件】
主要有:TMC-CSF、TMC-SSF、TMC-LOC。PTN和BSC/RNC之间断纤,TMC-CSF触发伪线倒换与BSC/RNC对接的PTN掉电,TMC-SSF触发伪线倒换PTN网络部故障,TMP-LOC触发隧道倒换
【保护类型使用现状】
双发双收属于早期的应用,目前已经不再应用;单发双收在现场暂时用的不是很多。
.
.
【隧道保护组类型】
若伪线双归的主伪线要绑定隧道保护组,那么这组隧道保护组必须配置为1:1的LSP保护。
【1:1保护与1+1保护的区别】 仅在于单发和双发的差别 【PW保护方式与RNC对接模式】 (1)以太网业务: PW保护方式 1+1并收(双发双收) 1:1并收(单发双收) RNC---LAG模式 主备 负载分担 是否能实现双归保护 是 是 目前针对主备的LAG或负载分担的LAG,在和伪线双归对接的场景中,PE节点均不能使用LACP协议,对端RNC必须使用静态(我司)/手工(华为)的方式。 (2)CES 2M业务:
PW保护方式 1+1(双发单收)---推荐 1+1(双发单收) RNC/SDH----PTN对接方式 PTN两台与一台设备对接MSP 1:1/1+1/通道保护 PTN两台与两台SDH设备对接通道保护 【现网版本设备TMC-OAM配置规】
(1) TMC-OAM CV配置原则:AGENT版本的设备均支持TMC-SSF(该告警主要应用于PE尾节点设备掉电情况)触发伪线倒换。主备工作隧道都上报TMP-LOC,对其承载的伪线下插TMC-SSF。现场配置OAM时不开启“CC检测”功能,以防止单条PW误报TMC-LOC告警而触发整个端口的异常倒换。
(2) 在TMC-OAM中激活:允许“CSF插入/提取”。 (3) 配置业务时一定要勾选“向伪线映射告警”选项。 (4) PW保护组方式均配置为非返回。
2.2.3 异常业务如何产生,该如何避免?
答:T31/U31网管的业务视图下进行业务的配置和维护均是基于端到端。端到端路径一致性状态不是正常路径(残损、端点缺失、不一致)的业务,均属于异常业务。
正常:表示路径配置信息完全正常的端到端路径。
残损:A和Z端点正常,中间路由节点配置出现缺失的端到端路径,即一端非终结。
.
.
端点缺失:A和/或Z端点出现缺失的端到端路径,即一端(两端)非终结 不一致:A/Z端点、中间路由节点配置,出现单点配置数据(非缺失情况)与端到端上保存的配置不一致的端到端路径。
当日常维护和操作中,在网管上删除网元,光连接,或单点进行网元的业务删除和配置,站点的搬迁,扩缩容等操作时,若操作不规,均可能导致业务端到端路径的缺失,产生异常业务。要求:1:相关的业务配置,删除操作尽量在端到端视图进行,防止单点配置时,部分数据漏配导致的业务残损。2,在进行站点搬迁或扩缩容时,要使用扩缩容工具进行,(如相关路径上的业务无用,要求提前在业务视图下删除,保证待实施点货路径上无业务后方可实施)。防止应人为数据配置导致的业务路径不全。
2.2.4 PTN网络中,Tunnel如何配置合理,需要注意什么?
答:为了减少全网的资源占用和oam数量,建议对于同源同宿的业务采用同一个隧道即可。这样可以大量减少全网的隧道及保护组数量,有效提高网络保护效率。
【配置规】1,Tunnel选择应尽量基于网络拓扑选择最短路径,对于汇聚或核心点之间存在多端光纤的情况,应使业务流量光路间均衡分布。
2,为了提高网络安全性,主用和备用隧道尽量走不同单板上的端口,且要求保护路径尽量和工作路径分离,防止同路由的发生。
2.2.5 网络在业务承载和流量规划配置需要注意什么?
答:按照集团相关技术建议:现阶段PTN网络推荐入网的业务有:2G、3G、大客户专线。对于WLAN对带宽消耗较大,流量模型不规则,不建议在PTN网络承载。如果受条件,一定在PTN网络上承载WLAN/个人宽带业务,则必须严格做好计算和规划链路带宽,务必做好业务主备路径切换时的带宽预留。
现网采用1:1 LSP线性保护,主用路径在传递业务流量,备用路径是无流量的,因此考虑链路带宽利用率的时候,需要考虑这一部分流量,避免出现路径切换时候的流量拥塞。对于这种业务,可以进行QOS部署,进行优先级映射。
.
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- pqdy.cn 版权所有 赣ICP备2024042791号-6
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务