基于模糊推理的网络故障关联分析

    技术2022-05-11  103

    发表在《通信技术》杂志2004年第12

    ---------------------------------------------

     

     

     

     

     

    基于模糊推理的网络故障关联分析

     

     

     

     

     

     

     

     

     

     

     

     

     

     

    【摘 要】本文首先分析了网络故障关联分析面临的问题,提出了利用模糊推理机制进行故障关联分析的思想,然后对模糊推理系统和模糊推理的实现过程作了简单介绍。并在此基础上,以不同层次通信网络的故障对信令链路的影响为例,对实现模糊故障关联分析的步骤和方法,及其具体实现进行了举例说明。

     

     

     

     

     

    【关键词】网络管理  故障关联分析  模糊推理

     

     

     

     

     

     

    Network Fault Correlation based on Fuzzy Inference System

     

     

     

     

     

    AbstractThe paper presents a method using fuzzy inference system to analyse the network faults. The principle of fuzzy set and fuzzy inference process are introduced briefly in the paper and the procedure and implementation of the proposed method are described in details and an example is given to demonstrate the application of the proposed method.

     

     

     

     

     

    KeywordsNetwork Management, Fault Correlation, Fuzzy Inference

     

     

     

     

     

     

     

     

     

     

     

    1.         引言

    故障管理是网络管理系统最基本的功能,其作用是及时发现和排除网络故障。通常情况下,故障管理应该包括以下过程【1】:首先是实现故障监测、对检测到的故障进行告警;然后对发生的故障进行关联分析,过虑掉无关的事件,实现故障定位;最后进行故障修复。

     

     

     

     

     

    事实上,网络中产生的很多相关故障都可能是由同一个原因引起的。如果能够在向管理者报告前就对故障信息进行分析和过滤,将无关事件和重复事件去掉,确定故障源,就能更有效的帮助管理者对网络故障进行处理。但是,由于许多网络故障之间几乎没有明确的对应关系,这就使得对故障的关联分析变得非常困难。在这种数据之间没有精确关系情况下,采用模糊推理(Fuzzy Inference System, FIS)【2345】的方法是一个很好的选择。

     

     

     

     

     

     

     

     

     

     

     

    2.         故障关联分析

    随着技术的发展,通信网络越来越庞大和复杂。在进行网络的故障管理时,必须面对来自不同网络层次的各种设备的故障告警信息,有时在同一时刻可能会出现数百个告警。如果对所有的告警信息都不加区别地报告给网络管理人员,则将使网络管理人员无所适从而不能做出正确的管理决策。因此,网络管理系统需要对收到的告警信息进行分析和处理,处理工作包括:故障分类、事件过虑和故障定位等。而进行故障关联分析则是实现对故障过虑和定位的基础。

     

     

     

     

     

    故障关联分析是指根据网络的连接关系、故障的上下文关系和网管人员的相关经验,制定出一定的规则,并由此查找出产生一系列故障发生的真正原因的动作。

     

     

     

     

     

    对故障的关联分析主要有两种方法【1】。一是依赖网络的连接关系即网络的拓扑结构信息和故障的上下文关系(也就是在该故障之前和之后发生的其他网络故障)。二是依赖于系统保存的网络故障历史记录的分析。方法一是目前多数网络故障管理系统首先采用的办法,它可以有效的处理和分析大部分的网络故障,特别是网络连通性故障。方法二对于处理其他类型的网络故障有着很好的前景。通过合理的设计故障关联分析策略,可以对复杂的网络故障进行分析和分离,对故障信息进行过虑,实现故障源的定位,为故障的处理和恢复提供策略依据。

     

     

     

     

     

    由于网络环境的复杂性,一个网络故障可能会引起不同网络层次的多种设备的告警,而同一个故障也可能是由不同原因造成。这些相关故障告警之间有些有着明确的因果关系,而大多数告警之间的关系并不是十分确定。如在光传输网络上承载着各种业务网络――数据网、电话网络等。当某条光缆线路中断时必然会造成其上各业务网络的链路中断;而光缆线路的误码大时也有可能造成业务网络的链路中断,但只是“可能”,即:光缆线路的误码与业务网络的链路中断之间的关系是不确定的、模糊的。在这种情况下,进行故障的关联分析的最佳途径之一就是应用模糊计算的方法,具体来说就是应用模糊推理(FIS)的方法。

     

     

     

     

     

    模糊推理是计算智能的一种有效的机制,具有将知识加入到网络管理领域的能力。应用模糊推理的方法可以对获取的故障告警数据进行过滤和定位。

     

     

     

     

     

     

     

     

     

     

     

    3.         模糊推理系统(FIS

    模糊推理是模糊集理论在知识工程中的应用,由于它的工作方式与人类的认知过程极为相似,所以其应用范围非常广泛【234】。 

     

     

     

     

     

    模糊规则(Fuzzy IF-THEN Rule)定义和体现了与处理问题有关的专家知识,模糊规则的形式一般为if A is a then B is b,其中AB称为语言变量(linguistic variable)而ab则是由隶属函数(member function)映射到的语言值(linguistic values)。语言变量和语言值都由相应的隶属函数定义。

     

     

     

     

     

    如图1 所示, 模糊化过程(fuzzification)将明确的输入转换为对应隶属函数的模糊语言值,推理单元(Inference Unit)按照给定的模糊规则执行推理,得到合理的输出值, 而去模糊(defuzzification)则将模糊的计算结果转换为明确的输出。

     

     

     

     

     

    由此我们看到,FIS的建立需要以下几个步骤:首先确定输入/输出语言变量,定义语言变量的隶属函数;第二是定义输入和输出之间的模糊规则;最后要选择解模糊的方法。

     

     

     

     

     

    根据选择的解模糊方法的不同,其计算出的结果会有所区别,但最常用的解模糊方法是面积法中心法(COA

     

     

     

     

     

     

     

     

     

     

     

    4.         实现模糊故障关联的实例

    NO.7信令网络中,信令链路中断的原因可能是信令系统本身的原因,也可能是交换设备的原因,还可能是传输系统的原因。如,传输线路中断肯定和造成交换机的端口通信的中断,而交换机端口通信的中断肯定会引起信令链路的中断。

     

     

     

     

     

    但在很多情况下,故障的关联规则并不像前面提及情况那样确定。传输系统的误码大小,和交换机端口通信的帧失步恶化到一定程度都有可能是造成信令链路的中断的原因,但究竟这些指标要恶化到何种程度才会造成信令链路中断则是不确定的,这样就不可能有一个确定的规则。运用模糊推理来解决这个问题将是一个有效的方法。

     

     

     

     

     

     

     

     

     

     

     

    4.1.       定义输入及其语言变量

     

     

     

     

     

    我们定义了2个输入,分别是传输系统的误码率CE和交换机端口的帧失步时间 FE

     

     

     

     

     

    按实际的网络维护经验,将误码率(CE)分为三个级别,10的负3次方以上为“误码率很高”(very high)、10的负9到负3次方为“误码率高”(high)、10的负9次方以下为“误码率正常”(normal)。

     

     

     

     

     

    误码率(CE)的语言变量模糊集为:

     

     

     

     

     

     

     

     

     

     

     

    T CE = {very high, high, normal}

     

     

     

     

     

     

     

     

     

     

     

    同理,根据实际网络维护经验,对交换机端口帧失步时间(FE),我们分也为3个级别,失步时间小于1秒为“时间短”(short)、失步时间在1秒到3秒间为“时间长”(long)、失步时间大于3秒为“时间很长”(very long)。即:

     

     

     

     

     

     

     

     

     

     

     

    T FE  =. {short, long, very long}

     

     

     

     

     

     

     

     

     

     

     

    根据误码率(CE)和帧失步时间(FE)语言变量的定义和需要使用到根据网络维护过程中积累的数据,并听取该方面的专家的意见,使用三角形模糊隶属函数来描述误码率和帧失步时间

     

     

     

     

     

    语言变量隶属函数的取值范围分别对应到实际的输入值,误码率为39,帧失步时间为13。隶属函数都采用梯形或三角函数。

     

     

     

     

     

     

     

     

     

     

     

    4.2.       定义输出及语言变量

     

     

     

     

     

    我们定义了三个输出:信令系统(SS)、交换机端口帧失步(ES)和传输系统误码(TS)造成信令链路中断的可能性,它们的隶属函数定义都一样,分为三个级别,“可能性小”(low)、“可能性高” high)和“可能性很高”(very high)。即:

     

     

     

     

     

     

     

     

     

     

     

    TSS  =. {low, high, very high}

     

     

     

     

     

    TES  =. {low, high, very high}

     

     

     

     

     

    TTS  =. {low, high, very high}

     

     

     

     

     

     

     

     

     

     

     

    根据输出的模糊语言变量定义(表格 3),隶属函数采用梯形和三角函数来描述信令系统(SS)、交换机端口帧失步(ES)和传输系统误码(TS

     

     

     

     

     

     

     

     

     

     

     

     

    4.3.       定义模糊规则

     

     

     

     

     

    如果用 IF  THEN  的形式表示则为:

     

     

     

     

     

    IF ce IS very high AND fe IS short THEN ss IS low

     

     

     

     

     

    IF ce IS high AND fe IS short THEN ss IS high

     

     

     

     

     

    。。。。。。。。

     

     

     

     

     

     

     

     

     

     

     

    4.4.       模糊推理结果

     

     

     

     

     

    对于给定的一组实验数据,运用模糊推理系统将解模糊化后得到结果应用到输出的各隶属函数,选取各种可能性中的可信度大者

     

     

     

     

     

     

     

     

     

     

     

    当信令链路发生中断时,可以根据当时传输系统的误码率和交换机端口的帧失步时间来推断发生故障的真正原因。例如误码率为1E-4,帧失步时间为2秒时,由传输误码造成中断“可能性很高”(very high)的可信度为0.53,所有可以推断故障原因是传输误码。 当遇到2种原因的可信度一样时,可根据网络组织的逻辑关系来或管理上的习惯来选择。如上表中,当误码为1E -6,帧失步时间为1秒时,信令系统和传输误码造成故障的“可能性高”(high)的可信度都为1。由于传输系统是信令系统的载体,所以,可以认为是传输误码影响了信令系统。当然,也可以根据实际管理上的要求另外制定规则。

     

     

     

     

     

    以上各种规则及参数应该依照实际情况来制定,系统运行的初期,可能会因为隶属函数和模糊规则的制定不合理而造成推理的误差,这就需要在系统的运行过程中,根据网络故障的实际处理情况和专家知识的积累不断对各种隶属函数及其参数,以及模糊规则进行调整,以达到最佳的运行效果。

     

     

     

     

     

     

     

     

     

     

     

    5.        结束语

     

     

     

     

     

    将模糊推理的方法应用在网络的故障关联分析中还是一种新的尝试,其主要的难度还在于找出有关联关系的网络故障并为其制定出合理的输入、输出以及相关的模糊规则。笔者针对传输网、交换网和信令网之间的几个相关联的故障设计了一个模糊推理系统,并编制了验证程序,在试验中取得了较好的效果。研究说明,基于模糊推理的故障关联分析是高效可行的,模糊技术的引入将极大地提高网络管理系统自动化和智能化程度。

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

    参考文献

     

     

     

     

     

    1.       Denise W. Guerer, Irfan Khan, Richard Ogler, Renee Keffer, An Artificial Intelligence Approach to Network Fault Management, SRI International, 1996.

    2.       J. - S. R. Jang, C. - T. Sun, Nero-fuzzy modeling and control, Proceedings of the IEEE, 83(3): 378-406, 1995.

    3.       J. - S. R. Jang, C. - T. Sun and E. Mizutani, Neuro-Fuzzy and Soft Computing: A Computational Approach to Learning and Machine Intelligence, Prentice Hall, 1997 (ISBN: 0-13-261066-3).

    4.       J. M. Mendel, fuzzy logic system for engineering: A tutorial, Proceedings of the IEEE, 83(3): 345-377, 1995.

    5.       L. A. Zadeh, Fuzzy sets, Information and Control, 8: 338-353, 1965.

     

     

     

     

     

     


    最新回复(0)