专利转让平台_买专利_卖专利_中国高校专利技术交易-买卖发明专利上知查网

全部分类
全部分类
大型内部网络中不良信息和违规服务的监控系统

大型内部网络中不良信息和违规服务的监控系统

IPC分类号 : H04L12/26I,G06F15/00I

申请号
CN201010048644.X
可选规格
  • 专利类型: 发明专利
  • 法律状态: 有权
  • 申请日:
  • 公开号:
  • 公开日: 2012-02-08
  • 主分类号: H04L12/26I
  • 专利权人: 北京理工大学

专利摘要

本发明公开了一种大型内部网络中不良信息和违规服务的监控系统,该系统中,网页信息下载模块根据下载策略存储模块中存储的下载策略,主动地定时进行网页内容的下载,将下载的网页内容存储到本地存储模块;不良文本分析模块对本地存储模块中保存的网页内容中的文本进行不良文本识别分析;不良图片分析模块对本地存储模块中保存的网页内容中的图片进行不良图片识别分析;违规服务扫描模块根据扫描策略存储模块中存储的扫描策略主动地定时进行违规服务的扫描,将扫描得到的服务信息发送给违规服务分析模块;违规服务分析模块对接收自违规服务扫描模块的服务信息进行违规服务识别分析。使用本发明能够提高监控系统的完整性、主动性和实时性。

权利要求

1.一种大型内部网络中不良信息和违规服务的监控系统,其特征在于,该监控系统包括:网页信息下载模块、下载策略存储模块、本地存储模块、不良文本分析模块、不良图片分析模块、违规服务扫描模块、扫描策略存储模块和违规服务分析模块;

网页信息下载模块,采用主动式的网页下载方式,根据下载策略存储模块中存储的下载策略,定时进行网页内容的下载,将下载的网页内容存储到本地存储模块;

不良文本分析模块,对本地存储模块中保存的网页内容中的文本进行不良文本识别分析,输出分析结果;

不良图片分析模块,对本地存储模块中保存的网页内容中的图片进行不良图片识别分析,输出分析结果;该不良图片分析模块包括中心点提取模块、不良区域划分模块、不良区域优化模块和不良图片确定模块;

其中,不良图片识别分析过程包括步骤①~④:

①中心点提取模块根据预先设置的中心点特征,从待分析图片中提取不良区域的中心点O;

②不良区域划分模块将提取的中心点O作为旋转中心,利用一选定形状的窗口绕旋转中心在整个圆周范围内旋转,在旋转过程中,每隔预设角度α,将所述窗口当前位置对应的图片区域作为不良区域,得到多个不良区域;

③不良区域优化模块利用预先设置的不良区域的图片特征,从多个不良区域中选择出符合所述图片特征的一个或多个不良区域,作为关键不良区域;

④不良图片确定模块根据预先设置的关键不良区域的位置分布,判断所有关键不良区域是否构成不良图片的主体部分,如果是,则判定待分析图片为不良图片,并输出分析结果;

违规服务扫描模块,采用主动式的服务扫描方式,根据扫描策略存储模块中存储的扫描策略,定时进行违规服务的扫描,将扫描得到的服务信息发送给违规服务分析模块;网页信息下载模块的网页下载和违规服务扫描模块的服务扫描两部分相互独立;

违规服务分析模块,对接收自违规服务扫描模块的服务信息进行违规服务识别分析,输出分析结果。

2.如权利要求1所述的大型内部网络中不良信息和违规服务的监控系统,其特征在于,所述下载策略存储模块存储的下载策略包括:间隔时间和网页范围;所述间隔时间根据大型内部网络环境设定,网页范围采用黑名单记载嫌疑网站;

所述网页信息下载模块,根据设定的所述间隔时间,每间隔一段时间,对大型内部网络用户所浏览的网页内容进行下载,当检测到有用户对所述黑名单记载的嫌疑网站中的网页进行浏览时,优先下载被浏览网页的内容。

3.如权利要求1所述的大型内部网络中不良信息和违规服务的监控系统,其特征在于,扫描策略包括间隔时间和重点扫描对象;所述间隔时间根据大型内部网络环境设定,重点扫描对象采用服务特征库记载重点违规服务特征;

所述违规服务扫描模块,根据设定的所述间隔时间,每间隔一段时间,对大型内部网络用户所应用的服务进行扫描;当扫描到用户应用的服务属于所述服务特征库中记载的重点违规服务特征时,优先下载该重点违规服务的服务信息。

4.如权利要求1所述的大型内部网络中不良信息和违规服务的监控系统,其特征在于,该监控系统进一步包括外接的即插即用存储模块,该即插即用存储模块对所述本地存储模块进行数据备份;当分析数据量超过预设范围时,将所述即插即用存储模块从本监控系统取下,转移到另外的主机上,由该主机进行数据分析。

5.如权利要求1所述的大型内部网络中不良信息和违规服务的监控系统,其特征在于,所述本地存储模块为本地硬盘。

6.如权利要求1所述的大型内部网络中不良信息和违规服务的监控系统,其特征在于,当不良图片分析模块对包括裸露人体的色情图片进行分析时,所述步骤①包括:

1A、将不良区域的中心点设定为人体的肚脐部位中心点,中心点提取模块根据待分析图片的颜色特征和亮度特征,从待分析图片中分割出肚脐部位,作为预选区域;

1B、判断所述预选区域的肚脐部位形状特征、肚脐部位环境特征和肚脐部位内部光滑度是否都满足设定条件,如果是,选取所述预选区域的中心点为所述中心点O。

7.如权利要求6所述的大型内部网络中不良信息和违规服务的监控系统,其特征在于,所述步骤1B中,判断肚脐部位形状特征是否满足设定条件为:

设定椭圆形状参数为Cellipse=Areabellybutton/Perimeterbellybutton2;

其中,Areabellybutton为所述预选区域的面积,Areabellybutton=πab, 为所述预选区域周长的平方, a和b为所述预选区域的长轴和短轴,长轴为预选区域边界上距离最远的两点的连线,与长轴垂直的预选区域边界点连线中最长者为短轴;

当Cellipse满足关系0<Cellipse<0.0306时,则判定所述预选区域满足肚脐部位类似椭圆形的形状特征;

所述步骤1B中,判断肚脐部位环境特征是否满足设定条件为:

以预选区域的长轴和短轴的交点为圆心,以长轴为半径,建立一个圆,称为预选区域的外扩圆,统计外扩圆内的肤色像素的总数SkinTotalbellybutton,当SkinTotalbellybutton与外扩圆中像素总数PixelTotalbellybutton的比例大于或等于一预设比例值时,判定所述预选区域满足由肤色像素包围的肚脐部位环境特征;

所述步骤1B中,判断肚脐部位内部光滑度是否满足设定条件为:

统计所述预选区域的边缘点总数Edgebellybutton,当边缘点总数Edgebellybutton大于所述预选区域的周长时,判定所述预选区域满足的肚脐内部非完全光滑的肚脐部位内部光滑度特征。

8.如权利要求1所述的大型内部网络中不良信息和违规服务的监控系统,其特征在于,当不良图片分析模块对包括裸露人体的色情图片进行分析时,步骤②所述的窗口为矩形;所述步骤②包括:

2A、在待分析图片中查找肤色像素的极限位置,包括竖直方向的上顶点SkinLimitu和下顶点SkinLimitd,水平方向的左顶点SkinLimitl和右顶点SkinLimitr,取极限位置之间的距离Distanth=‖SkinLimitl-SkinLimitr‖,Distantv=‖SkinLimitu-SkinLimitd‖,则矩形的长 作LenRectangle所在距离线的垂线,取垂线方向上肤色像素区域最大长度的1/3,作为矩形的宽WidthRectangle

2B、以中心点O为旋转中心,以WidthRectangle所在方向为初始0°方向,在-180°到180°的角度范围内,向正负两个方向每隔α角度作一条射线,沿每条射线的方向建立一个长宽分别为LenRectangle和WidthRectangle的矩形,矩形的短边中心为所述旋转中心;对所建立的I×2个矩形顺序标号,正方向编号为1,2,3,…,I,负方向编号为-1,-2,-3,…,-I;I=360/α/2。

9.如权利要求1所述的大型内部网络中不良信息和违规服务的监控系统,其特征在于,所述步骤③采用遗传算法实现,包括:

步骤3A、染色体编码;

本步骤中,每个染色体Rnaked包含I×2个基因,分别对应I×2个矩形;设染色体编码为Rnaked=(g1,g2,…,g2×I);I×2个矩形顺序标号为:正方向编号为1,2,3,…,I,负方向编号为-1,-2,-3,…,-I,I=360/α/2,则g1到gI表示编号从1到I的矩形,g(I+1)到g(2×I)表示编号从-I到-1的矩形;gj=X表示相应矩形为关键特征矩形;gj=Y表示相应矩形不是关键特征矩形,j为1到I×2之间的整数,Y≠X;

步骤3B、种群初始化;

本步骤中,随机产生具有预设染色体数量的初始种群,并且保证初始种群中每一个染色体有K个基因为X,其余基因均为Y;K小于或等于I;各染色体中的基因组合互不相同;

步骤3C、从所有矩形中,选择一个肤色像素所占比例最大的矩形,作为标准特征矩形;提取各个矩形中的图片特征,所述图片特征包括:矩形i中肤色像素所占比例TRectangle1i、矩形i中肤色像素平均概率TRectangle2i、矩形i中肤色像素连通区域的个数TRectangle3i、矩形i中最大肤色像素连通区域所占比例TRectangle4i、矩形i中最大肤色像素连通区域的长度与矩形长度的比例TRectangle5i和矩形i中最大肤色像素连通区域的宽度与矩形宽度的比例TRectangle6i;i为矩形编号,其值为-I到I之间的整数;

步骤3D、针对当前种群所包含的每一个染色体,对于每一个值为X的基因,选取该基因所对应的矩形,计算所选取矩形的6图片特征与标准特征矩形的6图片特征之间的权重距离;每个染色体中K个值为X的基因的权重距离倒数之和,即为该染色体的适应度;

从当前种群所包含的所有染色体中,保留适应度大于一预设适应度阈值的染色体;

步骤3E、在步骤3D保留的每个染色体中,随机选取一个位置的基因,将该基因的左右两边的基因数值作交叉处理,得出交叉之后的结果;并将该位置的基因数据作相应的变异,完成变异过程;

步骤3F、重复执行步骤3D和3E,直到遗传过程进行到第n代的时候,终止遗传算法的操作,从保留的染色体中选择适应度最高的一个染色体,该染色体中,数值为X的基因对应的矩形为选择得到的关键特征矩形;n为预设的遗传代数。

10.如权利要求9所述的大型内部网络中不良信息和违规服务的监控系统,其特征在于,所述K=4;所述步骤④为:

采用遗传算法获得4个关键特征矩形,其中2个关键特征矩形的编号NoPlus1和NoPlus2为正,另外2个关键特征矩形的编号NoMinus1和NoMinus2为负,且NoPlus1和NoPlus2大于零且小于或等于I,NoMinus1和NoMinus2大于或等于-I且小于0;

当下式满足时,确认当前分析图片为包含裸露人体的色情图片;

|NoPlus1-NoPlus2|<3|NoMinus1-NoMinus2|<3|NoPlus1-NoMinus1|>3.

说明书

技术领域

本发明涉及网络信息安全技术领域,具体涉及一种大型内部网络中不良信息和违规服务的监控系统。

背景技术

目前,国内外在网络内容监控方面均已开展了研究,并取得了一定的研究成果,有些成果已成为产品投入市场。网络信息内容监控系统应实现的主要目标如下:

(1)建立自动内容识别系统,可针对网上的各种信息形式,采用信息检索和人工检查相结合的办法来完成信息内容监控,或结合智能技术开发出相应的产品,加强和完善此项功能。

(2)建立可靠的信息储存系统和有效的审计分析系统,对不良信息源所发出的数据信息进行滤除,同时对于信息来源以及内容进行记录,即建立完善的内容安全日志。

其中,建立自动内容识别系统是网络内容监控的基础和核心部分。

图1为现有网络内容监控系统的组成模块图。如图1所示,系统通过信息获取模块从所监控的网络中获取所需信息,在内容分析模块中,针对所获取的信息,采用各种先进的智能分析和识别技术,得出对网络内容的分析结果,并输出结果以备进一步的处理。其中,如图2所示,内容分析的对象具体包括不良信息分析和违规服务分析。不良信息分析又包括文本分析和图片分析。违规服务包括聊天、下载、游戏等。

现有技术方案针对不同的识别对象,根据图1中的组成模块展开。

国外方面,美国联邦调查局资助的“Camivore”是一个被动方式的信息收集工具,其用于监测网络上的恐怖主义、间谍行为、基础设施攻击、严重的犯罪以及孩童色情等信息。法国国防部建立了一套完全类似的情报获取系统,称为“Frenchelon”,不但对敏感信息进行监管,还能为本国的公司提供相关的商业情报。Stanford大学开发的基于内容的过滤系统(stanford information filtering tool,SIFT),用于互联网上新闻组的过滤,采用向量空间模型实现用户信息需求与新闻资料之间的匹配,用户信息需求,由用户通过提交喜欢的词汇和想要避免的词汇手工建立的,可自我更新。

国内方面,WebFilter是美讯智公司的一款适用于小型办公机构的基于网页过滤的内容安全产品。其主要功能特点为:①自定互联网权限,仅允许部分工作人员进行上传下载文件或者聊天等行为;②风险URL数据库,进行网站过滤、网址关键字过滤、IP和端口过滤、协议签字过滤等;③实时上网监控,监控所有员工的上网行为。任子行NET110系列安全审计系统适用于大中企业、校园、IDC机房、宽带小区、宾馆等场所的互联网内容安全管理,可用于内部上网管理,网络游戏控制、聊天控制、邮件涉密管理等,保证网络的安全使用。卓尔Info Gate集成式模块化内容过滤网关,在Intemet入口及关键节点处对Web访问、邮件通讯以及即时通讯(如QQ、MSN等)进行监控和管理,从而在企业网络边缘建立安全防护体系。

国内其他网络内容安全监控产品的相关功能如表1所示。

表1

综上所述,现有各类网络内容监控的相关研究成果并没有将文本分析、图片分析和违规服务分析全部容纳到同一监控系统中,有些监控系统针对文本分析,有些监控系统针对违规服务分析,有些监控系统将文本分析和图片分析结合,有些监控系统将文本分析与违规服务分析结合,但均不全面。但是,目前诸如大型企事业单位内部局域网的一些大型内部网络逐渐出现了将不良信息分析和违规服务分析相结合的需求。因此现有的监控系统不能满足这样的需求。

而且,现有技术在进行上述网络信息的分析时,均采用被动式的工作模式,即在用户需要时,才进行网页搜索、违规服务扫描,因此实时性不佳。

在上述对现有的网络内容安全监控产品和研究成果进行深入分析的基础上,得出现有技术存在如下缺点:

(1)分散性。现有的研究成果没有将文本分析、图片分析和违规服务分析全部容纳到同一监控系统中,因此呈现出零散、体系性不强的特点。

(2)被动性。常用网络内容监控技术大多以搜索引擎为核心部分,围绕搜索引擎的查询功能,被动的查询网络信息内容。

(3)滞后性。被动的查询机制,导致系统难以找到用户需要的信息或者系统提供给用户的信息量巨大,使得系统采集网络信息的周期拖长,无法实时的监控网络。

发明内容

本发明以大型内部网络为应用背景,针对现有网络内容安全监控技术的缺点,提供了一种大型内部网络中不良信息和违规服务的监控系统,该系统能够提高监控系统的完整性、主动性和实时性。

该系统包括:网页信息下载模块、下载策略存储模块、本地存储模块、不良文本分析模块、不良图片分析模块、违规服务扫描模块、扫描策略存储模块和违规服务分析模块;

网页信息下载模块,采用主动式的网页下载方式,根据下载策略存储模块中存储的下载策略,定时进行网页内容的下载,将下载的网页内容存储到本地存储模块;

不良文本分析模块,对本地存储模块中保存的网页内容中的文本进行不良文本识别分析,输出分析结果;

不良图片分析模块,对本地存储模块中保存的网页内容中的图片进行不良图片识别分析,输出分析结果;该不良图片分析模块包括中心点提取模块、不良区域划分模块、不良区域优化模块和不良图片确定模块;

其中,不良图片识别分析过程包括步骤①~④:

①中心点提取模块根据预先设置的中心点特征,从待分析图片中提取不良区域的中心点O;

②不良区域划分模块将提取的中心点O作为旋转中心,利用一选定形状的窗口绕旋转中心在整个圆周范围内旋转,在旋转过程中,每隔预设角度α,将所述窗口当前位置对应的图片区域作为不良区域,得到多个不良区域;

③不良区域优化模块利用预先设置的不良区域的图片特征,从多个不良区域中选择出符合所述图片特征的一个或多个不良区域,作为关键不良区域;

④不良图片确定模块根据预先设置的关键不良区域的位置分布,判断所有关键不良区域是否构成不良图片的主体部分,如果是,则判定待分析图片为不良图片,并输出分析结果;

违规服务扫描模块,采用主动式的服务扫描方式,根据扫描策略存储模块中存储的扫描策略,定时进行违规服务的扫描,将扫描得到的服务信息发送给违规服务分析模块;网页信息下载模块的网页下载和违规服务扫描模块的服务扫描两部分相互独立;

违规服务分析模块,对接收自违规服务扫描模块的服务信息进行违规服务识别分析,输出分析结果。

较佳地,所述下载策略存储模块存储的下载策略包括:间隔时间和网页范围;所述间隔时间根据大型内部网络环境设定,网页范围采用黑名单记载嫌疑网站;

所述网页信息下载模块,根据设定的所述间隔时间,每间隔一段时间,对大型内部网络用户所浏览的网页内容进行下载,当检测到有用户对所述黑名单记载的嫌疑网站中的网页进行浏览时,优先下载被浏览网页的内容。

较佳地,扫描策略包括间隔时间和重点扫描对象;所述间隔时间根据大型内部网络环境设定,重点扫描对象采用服务特征库记载重点违规服务特征;

所述违规服务扫描模块,根据设定的所述间隔时间,每间隔一段时间,对大型内部网络用户所应用的服务进行扫描;当扫描到用户应用的服务属于所述服务特征库中记载的重点违规服务特征时,优先下载该重点违规服务的服务信息。

较佳地,该监控系统进一步包括外接的即插即用存储模块,该即插即用存储模块对所述本地存储模块进行数据备份;当分析数据量超过预设范围时,将所述即插即用存储模块从本监控系统取下,转移到另外的主机上,由该主机进行数据分析。

较佳地,所述本地存储模块为本地硬盘。

由以上所述可以看出,本发明具有如下技术效果:

(1)本发明将不良文本、不良图片和违规服务共同作为监控对象,在通过网页下载实现对不良文本、不良图片的识别分析的同时,还通过服务扫描识别违规服务,网页下载和服务扫描相互独立,从而避免了现有技术中因未将三者容纳到同一监控系统中带来的零散、体系性不强的问题,提高了系统的整体性。

(2)本发明在进行网络下载和服务扫描时,均是根据策略主动进行定时的下载和扫描,从而避免现有技术中被动的查询网络信息内容所带来的弊端,提高了系统的主动性。

(3)同时,由于采用了主动下载和扫描机制,能够实时地获取各种网页内容,使得系统采集网络信息的周期缩短,能够进行实时的网络监控。

(4)本发明围绕不良区域中心点,划分多个不良区域,并根据这些不良区域的特征分别进行优化,减少不良区域的数量,最后根据优化后的不良区域判断图片是否为不良图片。这种先划分后优化的方法能够保证有针对性进行目标识别,排除较多噪声对分析过程的影响,从而提高不良图片分析的准确度和效率。

附图说明

图1为现有的网络内容安全监控系统模块图。

图2为监控内容分析示意图。

图3为本发明网络信息内容监控系统整体方案。

图4为本发明大型内部网络中不良信息和违规服务的监控系统示意图。

图5为本发明基于遗传算法的不良图片分析方法示意图。

图6为本发明基于遗传算法的色情图片分析方法示意图。

图7(a)为本发明步骤②中建立若干射线后的效果。

图7(b)为本发明步骤②中沿着每条射线的方向建立一个矩形的效果。

图7(c)为本发明步骤③中采用根据遗传算法确定的关键特征矩阵效果。

具体实施方式

本发明提供了一种大型内部网络中不良信息和违规服务的监控方案,其核心思想为:将不良文本、不良图片和违规服务共同作为监控对象,通过预先制定下载策略和扫描策略,采用主动式的网页下载和服务扫描,进而进行不良信息和违规服务分析,从而提高了监控系统的完整性、主动性和实时性。

此外,在对不良图片的识别分析过程中,本发明围绕不良区域中心点,划分多个不良区域,并根据这些不良区域的分别进行优化,减少不良区域的数量,最后根据优化后的不良区域判断图片是否为不良图片。这种先划分后优化的方法保证有针对性进行目标识别,排除了较多噪声对分析过程的影响,能够提高不良图片分析的准确度和效率。

下面结合附图并举实施例,对本发明进行详细描述。图3为本发明设计方案的示意图。如图3所示,本发明的网络信息内容监控系统所监控的主要内容分为网页监控和服务监控,Web页面监控的目的是进行不良文本信息和不良图片信息的识别分析,服务监控的目的是进行违规服务的识别分析。

虽然不良网页信息和违规服务均为监控的重点对象,但相应的分析过程完全不同,相对独立,因此两部分进程独立,各自完成相应的任务。

在不良网页监控部分,首先将网页上的文本信息和图片信息下载到诸如本地硬盘的本地存储模块中,本发明采用主动下载的方式,根据预先制定的定时下载和重点下载相结合的下载策略进行网络内容下载操作,使得网页下载对网络性能的适应性增强;网页数据下载到本地硬盘以备分析和相关处理;对于本地硬盘中的数据,采用相关识别分析技术对文本信息和图片信息分别进行分析,输出分析结果。

在违规服务扫描部分,采用主动扫描的方式,即采用定时扫描和重点扫描相结合的扫描策略,对网络上的各种服务,包括游戏、下载、聊天等服务进行扫描,对扫描得到的诸如端口等服务信息进行分析,得出网络中是否存在违规服务,输出分析结果。

基于上述监控方案,本发明提供了一种如图4所示的大型内部网络中不良信息和违规服务的监控系统。该系统包括网页信息下载模块、下载策略存储模块、本地存储模块、不良文本分析模块、不良图片分析模块、违规服务扫描模块、扫描策略存储模块和违规服务分析模块。其中,本地存储模块可以是任何存储介质,由于下载数据较多,较佳地,可以采用硬盘实现,称为本地硬盘。网页信息下载模块的网页下载和违规服务扫描模块的服务扫描两部分相互独立。

上述各模块的连接关系为:网页信息下载模块连接下载策略存储模块和本地硬盘,本地存储模块连接不良文本分析模块和不良图片分析模块,违规服务扫描模块连接扫描策略存储模块和违规服务分析模块。

下面针对各个模块进行详细描述。

●网页信息下载模块

现有系统也以网页搜索为基础,但采用的是被动搜索方式,即在用户需要对网页进行分析的时候,输入相应的关键词,由搜索引擎得出搜索结果。

本发明网页信息下载模块,采用主动式的网页下载方式,根据下载策略存储模块中存储的下载策略,定时进行网页内容的下载,将下载的网页内容存储到本地硬盘。

其中,下载策略包括间隔时间和网页范围。

(1)间隔时间

主动下载网页的时间间隔应具有适应性,即针对不同的内部网络环境设定不同的下载间隔时间,时间间隔的范围可以为1-4个小时。

(2)网页范围

根据经验和对网页内容进行长时间的监控可以发现,某些网站上经常出现不良网页,对此类网站中存在的各个网页需要进行重点监控,则建立黑名单,在黑名单中记载需要进行重点监控的网站,这类网站称为嫌疑网站。当所监控的网络中出现对黑名单中嫌疑网站的浏览时,则需要优先下载所浏览的网页中的文本和图片信息,以提高网页监控的针对性。

通过上述下载策略的制定,网页信息下载模块根据设定的所述间隔时间,对大型内部网络用户所浏览的网页内容进行下载并存储;当检测到有用户对黑名单记载的嫌疑网站中的网页进行浏览时,优先下载该被浏览网页的内容。

下载时,文本和图片是分开下载和存储的,以便后续模块的使用,可以利用数据库存储文本和图片。

●网页信息的本地存储模块——本地硬盘

网页中的大量信息首先下载到本地硬盘中,以备后续的文本信息和图片信息的分析和处理。除了硬盘,本地存储模块还可以是其他存储介质。

当网络使用频繁的时候,所下载的信息量指数级的增加,处理任务量大,对系统性能影响严重。为此,本发明的监控单元可以增加一个即插即用存储模块,本实施例以即插即用硬盘为例,即插即用硬盘作为本地硬盘的备份,下载的网页内容除了存储到本地硬盘,还进一步存储到即插即用硬盘中。当分析数据量大的时候,将即插即用硬盘取下,转移到另外的主机上,该主机采用与本监控系统相同的文本分析、图片分析和违规服务分析方法对即插即用硬盘中的数据进行分析。通过此类下载与分析适时分离的策略,极大的提高系统的分析效率,进一步改善系统性能。

●不良文本分析模块

文本信息是网页中最主要的信息,各类不良信息主要通过文本信息反映,如各类反动信息和恐怖信息等。该不良文本分析模块,对本地存储模块中保存的网页内容中的文本进行不良文本识别分析,输出分析结果。

该不良文本分析模块可以采用现有的基于关键字的搜索方法,但这种方案无法辨别文字内容的倾向性,存在大量的虚警及误警。

因此,较佳地,本发明的不良文本分析模块采用2007年9月公开的北京理工大学的孙丹鸣在其博士学位论文《网络信息监管的若干关键技术研究》中提出的基于语义的SVM文本分类模型,该分类模型在文本分类时将文本词语空间转换为语义空间,为改进系统的在线分类效果,引入相关反馈功能,并使得语义学习具有自适应能力,提高了文本分析的准确度。

●不良图片分析模块

不良图片分析模块,对本地存储模块中保存的网页内容中的图片进行不良图片识别分析,输出分析结果。

不良图片存在不良主题,不良主题通过不良的主体表达,识别图片中是否存在不良主体为分析图片是否为不良图片的重点。

本发明提出一种不良图片分析方法,如图5所示,该方法采用由中心点提取模块、不良区域划分模块、不良区域优化模块和不良图片确定模块组成的不良图片分析模块实现,包括如下步骤:

①中心点提取模块,根据预先设置的中心点特征,从待分析图片中提取不良区域的中心点。

②不良区域划分模块,将提取的中心点作为旋转中心,利用一选定形状的窗口绕旋转中心在整个圆周范围内旋转,在旋转过程中,每隔预设角度α,将所述窗口当前位置对应的图片区域作为不良区域,得到多个不良区域;

③由于所划分的不良区域数量较多,大量冗余的数据不仅对反应图片主题内容没有主要作用,且容易造成噪声,影响图片分析结果,因此不良区域优化模块利用预先设置的不良区域的图片特征,从多个不良区域中选择出符合所述图片特征的一个或多个不良区域,作为关键不良区域。该不良区域的优化过程可以采用遗传算法实现。

④不良图片确定模块根据预先设置的关键不良区域的位置分布,判断所有关键不良区域是否构成不良图片的主体部分,如果是,则判定待分析图片为不良图片,并输出分析结果。

在实际中,上述不良图片包括色情图片、反动图片和暴力图片等。不同类型的图片所采用中心点特征、窗口、图片特征和位置特征可能存在差异。

下面,参见图6,以包含裸露人体的色情图片为例,对前述步骤①到④进行详细描述。

上述步骤①为:在色情图片中,将不良区域的中心点O设定为人体的肚脐部位的中心点,根据肚脐部位特征识别图片中的肚脐部位。肚脐部位的提取分为肚脐部位分割1A和肚脐部位特征提取1B两个步骤。

步骤1A,中心点提取模块根据待分析图片的颜色特征和亮度特征,从待分析图片中分割出肚脐部位的预选区域。

其中,图片的颜色特征Cbellybutton设定为:

Cbellybutton=Cbellybutton_r-Cbellybutton_b   (1)

Cbellybutton_r=V=2R-G-B,V>00else---(2)]]>

Cbellybutton_b=U=B-G,U>00else---(3)]]>

其中,R、G、B分别为RGB颜色空间中图片的红色数值、绿色数值和蓝色数值。

图片的亮度特征定义为:

Ibellybutton=255-R+G+B3---(4)]]>

将亮度特征Ibellybutton和颜色特征Cbellybutton取平均,构成完整的用于肚脐部位分割的特征值Nbellybutton如下,

Nbellybutton=(Cbellybutton+Ibellybutton)/2   (5)

根据特征值Nbellybutton对RGB格式的图片转换为关于Nbellybutton的灰度图,通过设定适当的阈值,从关于Nbellybutton的灰度图中,将肚脐部位从周围肤色像素环境中分割出来,作为肚脐部位的预选区域,以下简称预选区域。

步骤1B,判断所述预选区域的肚脐部位形状特征、肚脐部位环境特征和肚脐部位光滑度是否都满足设定条件,如果是,选取所述预选区域的中心点为中心点O。

由于肚脐部位的形状类似椭圆形,因个体不同使得椭圆的离心率在一定范围内变化;整个肚脐部位处于肤色像素中间,其周围完全为肤色像素;肚脐部位与周围肤色像素之间存在较为明显的边界,且肚脐部位内部并非完全光滑,存在边界像素。因此,本发明所用的肚脐部位特征包括:肚脐部位形状、肚脐部位环境和肚脐部位内部光滑度。

上述各肚脐部位特征的具体提取和判断条件如下:

判断肚脐部位形状特征是否满足设定条件为:

设定椭圆形相关的形状参数Cellipse

Cellipse=Areabellybutton/Perimeterbellybutton2---(6)]]>

其中,Areabellybutton为该预选区域的面积,Areabellybutton=πab, 为该预选区域周长的平方, a和b为预选区域的长轴和短轴,长轴是指预选区域边界上距离最远的两点的连线,与长轴垂直的预选区域边界点连线中最长者为短轴。

经过对肚脐图片的分析可知,当预选区域的长轴和短轴之比大于或等于5时,肚脐部位的预选区域满足形状类似椭圆的特征。长轴和短轴之比大于或等于5对应的Cellipse满足如下关系:

0<Cellipse<0.0306   (7)

因此,当0<Cellipse<0.0306时,则判定所述预选区域满足肚脐部位类似椭圆形的形状特征。

本步骤的长短轴比例值5为通过对肚脐图片的分析得到的较佳比例值,在实际中,还可以根据需要对该值进行调整,那么相应地,式(7)中的0.0306也会相应修改。

判断肚脐部位环境特征是否满足设定条件为:

以预选区域的长轴和短轴的交点为圆心,以长轴为半径,建立一个圆,称为预选区域的外扩圆,统计外扩圆内的肤色像素的总数SkinTotalbellybutton,其中,肤色像素的获取采用阈值的方法,即通过判断像素的颜色特征是否属于肤色像素颜色范围,判定该像素是否为肤色像素。当SkinTotalbellybutton与外扩圆中像素总数PixelTotalbellybutton的比例大于或等于一预设比例值的时候,认为该预选区域满足由肤色像素包围的肚脐部位环境特征。

预设比例值根据经验获取,较佳地可以取0.75。

判断肚脐部位内部光滑度是否满足设定条件为:

统计出预选区域的边缘点总数为Edgebellybutton,当边缘点总数大于预选区域的周长时,判定该预选区域为肚脐区域,选取该预选区域的中心点为不良区域的中心点。

上述三个特征的判断不分先后顺序,只有三个特征都满足设定条件,进行后续操作。

上述步骤②为:将用于获取不良区域的窗口确定为矩形,称为特征矩形。则,以中心点O为圆心,在整个圆周范围内,以一定的角度α为间隔,建立以旋转中心为端点的若干射线(如图7(a)所示),沿着每条射线的方向建立一个特征矩形(如图7(b)所示),旋转中心为特征矩形短边的中点;

所建立特征矩形的长和宽可以预先设置,也可以根据待分析图片中肤色像素的分布情况确定,当采用后者方案确定特征矩形时,本步骤②进一步具体分为以下几个子步骤:

2A、确定特征矩形的长和宽:在图片的水平和竖直方向分别得出图片中肤色像素所在区域的极限位置,包括竖直方向的上顶点SkinLimitu和下顶点SkinLimitd,水平方向的左顶点SkinLimitl和右顶点SkinLimitr,取极限位置之间的距离Distanth=‖SkinLimitl-SkinLimitr‖,Distantv=‖SkinLimitu-SkinLimitd‖,特征矩形的长 作LenRectangle所在距离线的垂线,取垂线方向上肤色像素区域最大长度的1/3,作为特征矩形的宽WidthRectangle

2B、以中心点O为旋转中心,以WidthRectangle所在方向为初始0°方向,在一个圆周[-180°,180°]的角度范围内,向正负两个方向,每隔α角度作一条射线,沿射线方向建立矩形,对矩形进行标号,正方向编号为1,2,3,…,I,负方向编号为-1,-2,-3,…,I;I=360/α/2正、负方向预先定义。

至此,创建了以不良区域的中心点为旋转中心的I×2个矩形,通常I≥4,以Rectanglei表示,i为特征矩形的编号,i=-I,…,-3,-2,-1,1,2,3,…,I,其长和宽分别为LenRectangle_i和WidthRectangle_i

上述步骤③为:采用遗传算法完成不良区域到关键不良区域,即特征矩形到关键特征矩形(即前述关键不良区域)的选择过程。

步骤3A、染色体编码过程。

每个染色体Rnaked包含I×2个基因,分别对应I×2个矩形。若在特征矩形的建立过程中,设定α=15°,则存在I×2=360/α=24个特征矩形,那么一个染色体Rnaked包含24个基因,染色体可以编码为Rnaked=(g1,g2,…,g23,g24)。g1到g12表示编号从1到12的特征矩形,g13到g24表示编号从-12到-1的特征矩形。如果采用二值编码完成染色体的编码过程,则任意一个基因gj表示编号为j(j=1,2,3,…,24)的特征矩形是否为关键特征矩形,如果gj=1,则说明染色体中第j个特征矩形为关键特征矩形;否则gj=0,说明染色体中第j个特征矩形不是关键特征矩形。其中,如果采用非二值编码,则gj=X表示相应矩形为关键特征矩形;gj=Y表示相应矩形不是关键特征矩形,Y≠X。

下文遗传算法的各项操作均以α=15°为基础讨论。

步骤3B、种群初始化过程。

本步骤随机产生具有设定染色体数量的初始群体,并且保证初始群体中每一个染色体有K个基因为1,其余基因均为0。K小于或等于I;各染色体中的基因组合互不相同。经过研究分析,四个关键特征矩形即可表达色情图片的主要部分,因此本实施例中设置K=4。初始群体的染色体的数量可以设定为50。

步骤3C、从所有特征矩形中,选择一个肤色像素所占比例最大的特征矩形,作为标准特征矩形,表示为Rectangles

在特征矩形中,肤色像素区域的图片特征包括4个颜色相关特征和2个形状相关特征,特征如下:

1)特征矩形i中肤色像素所占比例TRectangle1i;i为矩形编号,其值为-I到I之间的整数;

2)特征矩形i中肤色像素平均概率TRectangle2i

3)特征矩形i中肤色像素连通区域的个数(通过与5的比例表示)TRectangle3i

4)特征矩形i中最大肤色像素连通区域所占比例TRectangle4i

5)特征矩形i中最大肤色像素连通区域的长度与矩形长度的比例TRectangle5i

6)特征矩形i中最大肤色像素连通区域的宽度与矩形宽度的比例TRectangle6i

步骤3D、选择过程,采用适应度比例方法完成。

本步骤中,针对当前种群所包含的每一个染色体,对于每一个值为X的基因,选取该基因所对应的特征矩形,计算所选取特征矩形的6图片特征与标准特征矩形的6图片特征之间的权重距离;每个染色体中4个值为1的基因的权重距离倒数之和,即为该染色体的适应度。然后,从当前种群所包含的所有染色体中,保留适应度大于一预设适应度阈值的染色体。保留的染色体可能为一个或多个。

具体来说,设gj对应的特征矩形为Rectanglej,所选取特征矩形的6图片特征与标准特征矩形的6图片特征之间的权重距离采用特征距离DistantGenej表示,

DistantGenej=Σl=16wl(TRectanglejl-TRectanglesl)2---(8)]]>

其中,TRectanglejl为特征矩形Rectanglej中第l个图片特征,其中,l=1,2,3,4,5,6,TRectanglesl为标准特征矩形Rectangles中第l个图片特征,wl为第l个特征相应的权重,且Σl=16wl=1.]]>

位置j上的基因所对应的适应度fj与特征距离DistantGenej之间为相反关系,则:

fj=1/DistantGenej   (9)

当对某染色体个体Rnaked进行选择计算的时候,设其适应度为fit,即相似度。该染色体Rnaked中,含有K=4个为1的基因,每一个基因对应于一个位置的特征矩形,一个染色体中基因为1的位置对应的特征矩形的适应度直接影响了该染色体的适应度,染色体的适应度fit为各个数值为1的基因的适应度fk之和,公式如下,

fit=Σk=14fk---(10)]]>

步骤3E、交叉和变异过程。

在步骤3D保留的每个优化染色体中,随机选取一个位置的基因,将该基因的左右两边的基因数值作交叉处理,得出交叉之后的结果;并将该位置的基因数据作相应的变异,例如1变为0,0变为1,完成变异过程。至此完成一代遗传过程。

步骤3E、重复执行步骤3D和3E,直到遗传过程进行到第n=10代的时候,终止遗传算法的操作,从保留的染色体中选择适应度最高的一染色体,即为优化选择之后的染色体,该染色体中,数值为1的基因位置的特征矩形为选择得到的关键特征矩形。如图7(c)示出了根据遗传算法确定的4个关键特征矩阵。

上述步骤④为:采用遗传算法获得4个关键特征矩形,其中两个关键特征矩形的编号为正(NoPlus1,NoPlus2),另外两个关键特征矩形的编号为负(NoMinus1,NoMinus2),且这些编号满足0<NoPlus1≤I,0<NoPlus2≤I,-I≤NoMinus1<0,-I≤NoMinus2<0的条件。

通过分析色情图片中裸露人体的形态特征得出,图片中的关键特征矩形的分布需满足一定的条件,才能构成裸露人体,即关键特征矩形所对应的编号需要满足一定的条件,条件如下,

r1=|NoPlus1-NoPlus2|<3r2=|NoMinus1-NoMinus2|<3r3=|NoPlus1-NoMinus1|>3---(12)]]>

若遗传所得关键特征矩形满足式(12),则认为图片为色情图片;否则认为该图片并非色情图片,从而完成了色情图片的分析识别过程。

●违规服务扫描模块

本发明的违规服务扫描模块,采用主动式的服务扫描方式,根据扫描策略存储模块中存储的扫描策略,定时进行违规服务的扫描,将扫描得到的服务信息发送给违规服务分析模块。

其中,扫描策略包括间隔时间和重点扫描对象。

(1)间隔时间

主动扫描服务的时间间隔应具有适应性,即针对不同的大型内部网络环境,设定不同的下载间隔时间,时间间隔的范围可以为1-4个小时。

(2)重点扫描对象

根据经验和对网络所提供服务进行长时间的扫描可以发现,某些违规服务是网络中经常出现、影响较为严重的服务项目,对此类服务需要优先处理。本发明建立相应的服务特征库,在服务特征库中记载重点违规服务特征,当所扫描的服务出现服务特征库中的重点违规服务特征时,则需要优先下载获取此类服务的信息,以提高违规服务探测的针对性。

通过上述扫描策略的制定,违规服务扫描模块根据设定的间隔时间,每间隔一段时间,对大型内部网络内部用户所应用的服务进行扫描并存储;当扫描到用户应用的服务属于服务特征库中记载的重点违规服务特征时,优先下载该重点违规服务特征的服务信息。

●违规服务分析模块

本发明的违规服务分析模块,对接收自违规服务扫描模块的服务信息进行违规服务识别分析,输出分析结果。

具体来说,服务信息可以包括端口号、特征码、进程等。在服务特征库中记载用户常用的违规服务特征,当接收的服务信息与服务特征库中的违规服务特征进行匹配,来判断扫描的服务信息是否为违规服务。

其中,违规服务分析模块所使用的服务特征库与违规服务扫描模块使用的服务特征库可以为同一个,那么,需要在该服务特征库中存储用户常用的违规服务特征,并标记重点违规服务特征。

在实际中,还可以在违规服务分析模块中利用学习分类技术,基于已经获知的违规服务先验特征知识,识别服务特征库中未包含的未知违规服务特征,并添加到服务特征库,从而实现了服务特征库的扩展。

综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

大型内部网络中不良信息和违规服务的监控系统专利购买费用说明

专利买卖交易资料

Q:办理专利转让的流程及所需资料

A:专利权人变更需要办理著录项目变更手续,有代理机构的,变更手续应当由代理机构办理。

1:专利变更应当使用专利局统一制作的“著录项目变更申报书”提出。

2:按规定缴纳著录项目变更手续费。

3:同时提交相关证明文件原件。

4:专利权转移的,变更后的专利权人委托新专利代理机构的,应当提交变更后的全体专利申请人签字或者盖章的委托书。

Q:专利著录项目变更费用如何缴交

A:(1)直接到国家知识产权局受理大厅收费窗口缴纳,(2)通过代办处缴纳,(3)通过邮局或者银行汇款,更多缴纳方式

Q:专利转让变更,多久能出结果

A:著录项目变更请求书递交后,一般1-2个月左右就会收到通知,国家知识产权局会下达《转让手续合格通知书》。

动态评分

0.0

没有评分数据
没有评价数据
×

打开微信,点击底部的“发现”

使用“扫一扫”即可将网页分享至朋友圈

×
复制
用户中心
我的足迹
我的收藏

您的购物车还是空的,您可以

  • 微信公众号

    微信公众号
在线留言
返回顶部