专利转让平台_买专利_卖专利_中国高校专利技术交易-买卖发明专利上知查网

全部分类
全部分类
一种基于本体知识推理的并行网络流量分类方法

一种基于本体知识推理的并行网络流量分类方法

IPC分类号 : H04L12/851

申请号
CN201510974162.X
可选规格
  • 专利类型: 发明专利
  • 法律状态: 有权
  • 申请日:
  • 公开号:
  • 公开日: 2018-09-11
  • 主分类号: H04L12/851
  • 专利权人: 桂林电子科技大学

专利摘要

本发明为一种基于本体知识推理的并行网络流量分类方法,步骤为:Ⅰ、利用决策树算法训练已标记应用类型的网络流量训练样本集,建立网络流量的决策树分类模型,并将其转化成推理规则集;Ⅱ、采用Jena工具包将推理规则集构造成推理机,借助MapReduce并行计算框架,调用推理机进行并行知识推理,挖掘出网络流量本体中网络流量实例和网络应用类型的对应关系,对网络流量实例标记网络应用类型,完成网络流量分类。本发明引入并行处理技术MapReduce,以云计算为网络流量本体知识推理的存储和计算资源,对网络流量实例进行并行化分类,有效提高分类效率;结合机器学习和本体知识推理,构建推理规则集,直接针对网络流量本体中的流量实例进行有效分类。

权利要求

1.一种基于本体知识推理的并行网络流量分类方法,根据互联网网络流量采集环境和流量的信息资源构建多层的网络流量本体,将互联网中的每条网络流量对应网络流量本体中的一个网络流量实例,按如下步骤进行分类:

Ⅰ、建立决策树分类模型并生成推理规则集

在互联网中选取网络流量作为样本,已标记应用类型的网络流量样本作为网络流量训练样本集,利用决策树算法训练已标记应用类型的网络流量训练样本集,建立网络流量的决策树分类模型,并将决策树分类模型转化成推理规则集;

Ⅱ、通过知识推理对网络流量实例进行并行化分类

采用Jena工具包将步骤Ⅰ生成的推理规则集构造成相应的推理机;对已构建的网络流量本体,借助MapReduce并行计算框架,调用推理机进行并行知识推理,即挖掘出网络流量本体中网络流量实例和网络应用类型的对应关系,对网络流量实例进行网络应用类型标记,完成网络流量分类。

2.根据权利要求1所述的基于本体知识推理的并行网络流量分类方法,其特征在于:

所述步骤Ⅰ具体包括如下子步骤:

Ⅰ-1、借助决策树算法对已标记应用类型的网络流量训练样本集进行训练,建立网络流量的决策树分类模型,集合A={a1,a2,……,ai}表示由网络流量训练样本集中i个网络流量的统计特征值组成的集合;集合T={t1,t2,……,tj}表示由网络流量训练样本集中j种网络流量所属的应用类型组成的集合;集合V={v1,v2,……,vk}表示由k个决策判定基准值组成的集合,它由集合A中的各个元素经过决策树算法统计计算得出,作为决策树中选取决策路径的判定依据;

Ⅰ-2、网络流量的决策树分类模型中从根节点到每个子叶的路径均视为分类路径,以决策判定基准值为依据,将网络流量的决策树分类模型中的每条分类路径均转化成“如果-则”,即“IF-THEN”结构,建立IF-THEN结构的网络流量分类模型;

Ⅰ-3、采用Jena工具包的推理规则语法描述步骤Ⅰ-2建立的IF-THEN结构的网络流量分类模型,并生成推理规则集。

3.根据权利要求1所述的基于本体知识推理的并行网络流量分类方法,其特征在于:

所述步骤Ⅱ具体包括如下子步骤:

Ⅱ-1、采用Jena工具包将步骤Ⅰ生成的推理规则集构造成相应的推理机;

Ⅱ-2、根据每个计算节点的性能以及网络流量本体中所描述的网络流量实例的数据规模,对已构建好的网络流量本体进行分割,得到多个网络流量本体分片,将网络流量本体分片上传至Hadoop分布式文件系统,并对每一个网络流量本体分片进行标识;

Ⅱ-3、启动多个MapReduce的映射函数,以<网络流量本体分片标识符,网络流量本体分片>为键值对、输入到映射函数;

Ⅱ-4、映射函数利用步骤Ⅱ-1构建的推理机对网络流量本体分片进行知识推理,得到网络流量本体分片中每条网络流量实例对应的网络应用类型标签;

Ⅱ-5、以<网络应用类型标签,网络流量实例>为键值对、输出到规约函数;

Ⅱ-6、规约函数根据网络应用类型标签合并网络流量实例,形成已分类网络流量实例集;

Ⅱ-7、输出已分类网络流量实例集,完成网络流量分类。

说明书

技术领域

本发明涉及网络管理技术领域,具体为一种基于本体知识推理的并行网络流量分类方法。

背景技术

随着Web技术的迅猛发展和企业信息化需求的不断提高,许多新型网络应用模式和应用需求应运而生,随之而来的网络流量数据也呈现出爆炸性增长,给网络监管带来前所未有的挑战,也使得用户对网络流量进行精细化管理的需求越来越强烈。作为管理和优化各类网络资源的关键技术,网络流量分类广泛应用于网络监控、QoS(Quality ofService,服务质量)管理、网络安全、态势分析等领域,是高效实现网络管理、流量控制以及安全检测的重要环节。

网络流量分类是指在基于TCP/IP协议的互联网中,按照网络的应用类型(例如WWW、FTP、MAIL、P2P等),将网络通信产生的双向TCP流量或UDP流量进行分类。

近年来许多研究人员将注意力转向了基于网络流量统计特征的机器学习分类方法,根据流量的某些属性(如平均包长、平均包间隔时间等)的统计信息,采用机器学习方法对流量进行分类,该方法不受动态端口、载荷加密及网络地址转换的影响。目前网络流量分类较为广泛使用的机器学习方法主要有:贝叶斯、神经网络、支持向量机和决策树等。

剑桥大学Moore的网络流量分类方法研究主要是 Bayes及其改进方法的研究。Charalampos Rotsos和Moore等引入半监督流量分类方法训练分类器,采用NB和核估计NB两种算法对分类器进行建模,实验结果表明该方法能比传统方法取得更高分类性能。但是此类算法是基于概率统计的学习方法,过于依赖样本空间的分布,具有潜在的不稳定性。

使用前馈神经网络的网络流量分类方法有效地消除了基于端口或者基于负载的分类方法的弊端,测试验证该方法较NB具有更好的稳定性和健壮性,在网络流量分类中的应用具有良好的性能和前景。但是,即使是神经网络应用广泛的BP算法,在应用中也暴露了不少的缺陷,如易形成局部极小而得不到全局最优,训练次数多使得学习效率低,收敛速度慢等。

从网络数据包头部获得网络流参数,再进行有规律的偏差训练和无偏差训练对比SVM分类算法,在处理大样本数据集时,计算复杂度高,训练速度慢。用SVM决策树进行网络流量分类,解决SVM流量分类存在无法识别区域和训练时间较长的问题。然而研究还是不能彻底解决计算性能瓶颈问题,而且该方法是一种有监督的学习方法,不能很好地发现网络流量中的新应用。

WeiLi和Moore为了避免检测包的载荷,从网络流量开始的网络数据包中提取12个统计特征,同时考虑了延迟和吞吐量,在C4.5决策树流量分类方法下分类准确性达99.8%。Tomasz Bujlow等人提出了一种C5.0机器学习算法,通过实验验证该算法平均分类准确率达到99.3-99.9%。但是决策树缺乏伸缩性,并在处理大数据集时容易增加分类算法的额外开销,降低了分类的准确性。

在高速大规模复杂网络环境下,各个网络节点传感器使用不同的网络流量采集系统收集网络数据包,网络流量数据格式不一,语义、语法异构。故目前网络流量数据的特点是多源、异构、海量,现有的网络流量分类技术大多只能对网络流量数据进行简单的格式化,缺少对数据异构(格式异构、语法异构、语义异构)的有效解决方法,也缺乏对流量信息(如获取环境等)的描述及知识推理,获得的流量数据存在不一致性、不能共享和缺乏网络流量分类知识等问题,因而现有的流量分类方法难以提供网络管理决策分析所需的资源信息。

在人工智能领域,本体逐渐被应用于知识工程、智能信息集成、数据挖掘、海量信息的组织和处理等领域中。本体为解决资源规范、无二义性和可扩展性描述问题提供了有效的途径,在描述资源方面具有通用性、开放性、智能性、准确性和综合性等诸多优点。本体也被用于决策支持系统作为一种知识表达的工具,知识推理是本体在决策支持系统中的重要功能,其也被应用于分类(诸如图像分类等)问题。

近年来研究者尝试引入本体到网络流量分类领域。Pietrzyk,Marcin首次尝试形式化定义流的类别,使用经典的开发本体准则,迭代构建一个基于本体范例的类别分类树,旨在消除流类别定义的模糊性。Chengjie Gu等人提出一种基于流轮廓和本体的在线自学习网络流量分类框架,通过流轮廓与流量类别之间的映射关系实现流量分类。但是目前基于本体的网络流量分类方法还不能应用于大规模复杂网络,本体在网络流量分类领域的应用尚属起步阶段。

云计算是以数据为中心的密集型超级计算技术,对大数据集进行处理、分析,并向用户提供高效服务,具有并行化、虚拟化、按需服务等特点。其并行处理技术MapReduce能够为可划分的大规模数据并行计算处理问题提供充分的并行计算语义,已经被广泛接受。云计算技术为解决网络流量分类中海量数据处理问题提供了新方法。因此,本体与云计算相结合应用于网络流量分类,将发挥它们各自在海量异构数据描述与处理方面的优势,本体用于网络流量信息资源一致性描述和知识管理,而云计算为本体的构建及知识管理提供了存储和计算资源。

发明内容

本发明的目的是公开一种基于本体知识推理的并行网络流量分类方法,针对大规模网络流量本体中的网络流量实例,借助机器学习方法和本体的知识推理实现网络流量分类。

本发明设计的一种基于本体知识推理的并行网络流量分类方法,根据互联网网络流量采集环境和流量的信息资源构建多层的网络流量本体,将互联网中的每条网络流量对应网络流量本体中的一个网络流量实例,按如下步骤对网络流量进行分类:

Ⅰ、建立决策树分类模型并生成推理规则集

在互联网中选取网络流量作为样本,已标记应用类型的网络流量样本作为网络流量训练样本集,利用决策树算法训练网络流量训练样本集,建立网络流量的决策树分类模型,并将决策树分类模型转化成推理规则集;

Ⅱ、通过知识推理对网络流量实例进行并行化分类

采用Jena工具包将步骤Ⅰ生成的推理规则集构造成相应的推理机,对已构建的网络流量本体,借助MapReduce并行计算框架,调用推理机进行并行知识推理,即挖掘出网络流量本体中网络流量实例和网络应用类型的对应关系,对网络流量实例进行网络应用类型标记,完成网络流量分类。所述Jena工具包为用于本体构建及其推理的工具包,其为2004年HP公司开发的基于Java的开放源代码语义网工具包。

以下对各步骤详细说明。

所述步骤Ⅰ具体包括如下子步骤:

Ⅰ-1、借助决策树算法对已标记应用类型的网络流量训练样本集进行训练,建立网络流量的决策树分类模型,所述集合A={a1,a2,……,ai}表示由网络流量训练样本集中i个网络流量的统计特征值组成的集合;集合T={t1,t2,……,tj}表示由网络流量训练样本集中j种网络流量所属的应用类型组成的集合;集合V={v1,v2,……,vk}表示由k个决策判定基准值组成的集合,它由集合A中的各个元素经过决策树算法统计计算得出,作为决策树中选取决策路径的判定依据;

Ⅰ-2、网络流量的决策树分类模型中从根节点到每个子叶的路径均视为分类路径,以决策判定基准值为依据,将网络流量的决策树分类模型中的每条分类路径均转化成“如果-则”,即“IF-THEN”结构,建立IF-THEN结构的网络流量分类模型;

Ⅰ-3、采用Jena工具包的推理规则语法描述步骤Ⅰ-2建立的IF-THEN结构的网络流量分类模型,并生成推理规则集。

所述步骤Ⅱ具体包括如下子步骤:

Ⅱ-1、采用Jena工具包将步骤Ⅰ生成的推理规则集构造成相应的推理机;

Ⅱ-2、根据每个计算节点的性能以及网络流量本体中所描述的网络流量实例的数据规模,对已构建好的网络流量本体进行分割,得到多个网络流量本体分片,将网络流量本体分片上传至Hadoop分布式文件系统,并对每一个网络流量本体分片进行标识;

Ⅱ-3、启动多个MapReduce的映射(Map)函数,以<网络流量本体分片标识符,网络流量本体分片>为键值对、输入到映射函数;

Ⅱ-4、映射函数利用步骤Ⅱ-1构造的推理机对网络流量本体分片进行知识推理,得到网络流量本体分片中每条网络流量实例对应的网络应用类型标签;

Ⅱ-5、以<网络应用类型标签,网络流量实例>为键值对、输出到规约函数;

Ⅱ-6、规约函数根据网络应用类型标签合并网络流量实例,形成已分类网络流量实例集;

Ⅱ-7、输出已分类网络流量实例集,完成网络流量分类。

与现有技术相比,本发明一种基于本体知识推理的并行网络流量分类方法的优点为:1、引入大规模数据集的并行处理技术MapReduce,故可采用云计算作为网络流量本体知识推理的存储和计算资源,为用户提供具有并行化、虚拟化、按需服务等特点的高效服务;2、通过知识推理对网络流量实例进行并行化分类,有效提高分类效率;适当增加计算节点可加速完成分类;3、结合机器学习方法与本体的知识推理,通过构建推理规则集直接针对网络流量本体中的网络流量实例进行有效分类。

附图说明

图1为本基于本体知识推理的并行网络流量分类方法实施例的总体框图;

图2为本基于本体知识推理的并行网络流量分类方法实施例步骤Ⅱ的架构图;

图3为本基于本体知识推理的并行网络流量分类方法实施例单机环境和集群环境下知识推理分类时间对比曲线图;

图4为本基于本体知识推理的并行网络流量分类方法实施例不同数据规模、不同节点的集群环境下的加速比曲线图。

具体实施方式

本基于本体知识推理的并行网络流量分类方法实施例采用剑桥大学摩尔(Moore)教授团队采集并公开的数据集作为网络流量信息资源,本例称之为摩尔数据集,本例所用摩尔数据集包含377526个网络流量样本,其中的每个网络流量样本都是完备的传输控制协议(TCP)双向流量,有248个网络流量统计特征,由网络流量的源端口号、目的端口号等基本属性和包的平均间隔时间等统计属性组成,最后一项标记为网络流量所属的应用类型。

本例选取摩尔数据集中的12种网络应用类型作为分类目标,12种网络应用类型为:万维网(www)、游戏(Games)、服务(Service)、邮件(Mail)、攻击(Attack)、数据库(Database)、交互(Interactive)、文件传输协议控制(FTP-Control)、文件传输协议被动连接(FTP-Pasv)、文件传输协议数据(FTP-Data)、多媒体(Multimedia)和点对点(P2P)。共选取10个网络流量统计特征作为知识推理的依据,所选10个统计特征为服务器端口号、客户端端口号、被转发的同向包中所含数据的总字节数、被转发的反向包中所含数据的总字节数、所有同向包中传输控制协议包头所含推送(PUSH)标志位的总个数、所有反向包中传输控制协议包头所含推送(PUSH)标志位的总个数、所有同向包中传输控制协议包头所含结束(FIN)标志位的总个数、所有反向包中传输控制协议包头所含结束(FIN)标志位的总个数、所有同向包初始化窗口的总字节数、所有反向包初始化窗口的总字节数。

为了更具客观性,本例将摩尔数据集拆分成两部分,分别作为本例的训练样本集和测试样本集,从训练样本集中随机抽取3000条作为训练样本,从测试样本集中随机抽取30万条作为测试样本。

本基于本体知识推理的并行网络流量分类方法实施例的总体框图如图1所示,本例根据摩尔数据集构建多层的网络流量本体,将摩尔数据集的测试样本中的每条网络流量对应网络流量本体中的一个网络流量实例,利用决策树算法对已标记应用类型的网络流量训练样本进行训练,建立网络流量的决策树分类模型,并将决策树分类模型转化成推理规则集,采用Jena工具包将推理规则集构造成相应的推理机;对已构建的网络流量本体借助MapReduce并行计算框架,调用推理机进行并行知识推理,即挖掘出网络流量本体中网络流量实例和网络应用类型的对应关系,对网络流量实例进行网络应用类型标记,完成网络流量分类。

Ⅰ、建立决策树分类模型并生成推理规则集

Ⅰ-1、借助机器学习以及数据挖掘软件weka3.7.10自带的决策树算法对本例的训练样本集进行训练,建立网络流量的决策树分类模型,本例集合A表示本例的训练样本集中网络流量的统计特征值集合,集合A={服务器端口号、客户端端口号、被转发的同向包中所含数据的总字节数、被转发的反向包中所含数据的总字节数、所有同向包中传输控制协议包头所含推送(PUSH)标志位的总个数、所有反向包中传输控制协议包头所含推送(PUSH)标志位的总个数、所有同向包中传输控制协议包头所含结束(FIN)标志位的总个数、所有反向包中传输控制协议包头所含结束(FIN)标志位的总个数、所有同向包初始化窗口的总字节数、所有反向包初始化窗口的总字节数};集合T表示本例的训练样本集中网络流量所属的应用类型集合,集合T={万维网,游戏,服务,邮件,攻击,数据库,交互,文件传输协议控制,文件传输协议被动连接,文件传输协议数据,多媒体,点对点};集合V={v1,v2,……,vk}表示由k个决策判定基准值组成的集合,它由集合A中的各个元素经过决策树算法统计计算得出,作为决策树中选取决策路径的判定依据。

Ⅰ-2、网络流量的决策树分类模型中从根节点到每个子叶的路径均视为分类路径,以决策判定基准值为依据,将网络流量的决策树分类模型中的每条分类路径均转化成“如果-则”,即“IF-THEN”结构,建立IF-THEN结构的网络流量分类模型;

Ⅰ-3、采用Jena工具包的推理规则语法描述步骤Ⅰ-2建立的IF-THEN结构的网络流量分类模型,并生成推理规则集。

Ⅱ、通过知识推理对网络流量实例进行并行化分类

本步骤采用Jena工具包将步骤Ⅰ生成的推理规则集构造成相应的推理机,对已构建好的网络流量本体、借助MapReduce并行计算框架,调用Jena推理机进行并行知识推理,即挖掘出网络流量本体中网络流量实例和网络应用类型的对应关系,对网络流量实例进行网络应用类型标记,完成网络流量分类。具体包括如下述子步骤,如图2所示:

Ⅱ-1、采用Jena工具包将步骤Ⅰ生成的推理规则集构造成相应的推理机;

Ⅱ-2、根据每个计算节点的性能以及网络流量本体中所描述的网络流量实例的数据规模,对已构建好的网络流量本体进行分割,得到多个网络流量本体分片(图2中的本体分片O1到On),将网络流量本体分片上传至Hadoop分布式文件系统,并对每一个网络流量本体分片进行标识;

Ⅱ-3、启动多个MapReduce的映射(Map)函数(图2中的Map1到Map n),以<网络流量本体分片标识符,网络流量本体分片>为键值对、输入到映射函数;

Ⅱ-4、映射函数利用步骤Ⅱ-1构造的推理机对网络流量本体分片进行知识推理,得到网络流量本体分片中每条网络流量实例对应的网络应用类型标签(图2中的类型L1到Lm);

Ⅱ-5、以<网络应用类型标签,网络流量实例>为键值对、输出到规约函数;

Ⅱ-6、规约函数(图2中的Reduce1到Reduce m)根据网络应用类型标签合并网络流量实例,形成已分类网络流量实例集(图2中的流量集合C1到流量集合Cm);

Ⅱ-7、输出已分类网络流量实例集,完成网络流量分类。

为验证本发明方法的有效性,对不同网络流量数据规模,单机环境和集群环境下知识推理分类时间进行对比,对比结果如图3所示。图3中横坐标为网络流量实例数,单位为万条;纵坐标为分类时间,单位为秒。图3中▽连线表示单机,□连线表示2台机,◇连线表示3台机,△连线表示4台机。从图3可以看出,当网络流量实例数较少时,不同个数的计算节点网络流量分类所需的时间差距不大。在流量样本数只有6万条的小规模分类任务中,单机环境所需分类时间甚至低于只开启了2个节点的集群环境,逼近于开启了3个节点的集群环境。因为当网络流量实例数据量较少时,MapReduce的调度任务以及分割和重组数据等步骤仍需要耗费一定的时间。由此可知对于小规模数据的处理,并不能体现本发明方法的优势。但随着网络流量实例数据规模的增大,单机与集群环境的分类所耗时间的差距就越来越大,此时MapReduce的额外开销逐步趋于稳定,本发明方法中并行处理的优势逐渐显现出来,体现本发明方法并行处理的高效性。

为了能更精确地衡量本发明方法采用并行化技术所得到的性能方面的提升,使用加速比R作为评价指标:

R=Ts/Tp

式中变量Ts表示单机环境下本方法的运行时间,变量Tp表示并行环境下本方法的运行时间。图4给出了当集群环境为采用2、3、4台机,即计算节点分别为2、3、4时,本方法的加速比曲线图。图4中横坐标为网络流量实例数,单位为万条;纵坐标为网络流量分类时间的加速比。图4中▽连线表示2台机,□连线表示3台机,◇表示4台机。如图4所示,当网络流量实例数一定时,随着计算节点的增加,其加速比呈现阶跃式变化;随着网络流量实例数的增加,加速比在增大到一个最大值之后逐渐减小,之后趋于稳定。经过对各个节点运行状态的观测与分析可知,当网络流量实例数较小时,集群的资源利用率不高,各计算节点的资源没有被有效利用;随着网络流量实例的增加,加速比呈现上扬趋势,增加到最大值,此时集群的资源利用率达到最高,集群中各个节点的资源均能被很好地调度;随着网络流量实例数继续增加,加速比逐渐减小,然后趋于平稳。这是因为加速比到达最大值时集群资源的利用已达到瓶颈,集群的调度器开始调整调度策略,最终达到一个稳态。

以上实验结果表明,本方法可以有效地提高执行效率,MapReduce并行技术能够有效地提高大规模网络流量本体中网络流量实例的分类效率。

上述实施例,仅为对本发明的目的、技术方案和有益效果进一步详细说明的具体个例,本发明并非限定于此。凡在本发明的公开的范围之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围之内。

一种基于本体知识推理的并行网络流量分类方法专利购买费用说明

专利买卖交易资料

Q:办理专利转让的流程及所需资料

A:专利权人变更需要办理著录项目变更手续,有代理机构的,变更手续应当由代理机构办理。

1:专利变更应当使用专利局统一制作的“著录项目变更申报书”提出。

2:按规定缴纳著录项目变更手续费。

3:同时提交相关证明文件原件。

4:专利权转移的,变更后的专利权人委托新专利代理机构的,应当提交变更后的全体专利申请人签字或者盖章的委托书。

Q:专利著录项目变更费用如何缴交

A:(1)直接到国家知识产权局受理大厅收费窗口缴纳,(2)通过代办处缴纳,(3)通过邮局或者银行汇款,更多缴纳方式

Q:专利转让变更,多久能出结果

A:著录项目变更请求书递交后,一般1-2个月左右就会收到通知,国家知识产权局会下达《转让手续合格通知书》。

动态评分

0.0

没有评分数据
没有评价数据
×

打开微信,点击底部的“发现”

使用“扫一扫”即可将网页分享至朋友圈

×
复制
用户中心
我的足迹
我的收藏

您的购物车还是空的,您可以

  • 微信公众号

    微信公众号
在线留言
返回顶部