专利转让平台_买专利_卖专利_中国高校专利技术交易-买卖发明专利上知查网

全部分类
全部分类
基于DOM树的信息分类方法、装置、设备及存储介质

基于DOM树的信息分类方法、装置、设备及存储介质

IPC分类号 : G06F16/901I,G06F16/957I,G06F16/958I

申请号
CN201910675657.0
可选规格
  • 专利类型: 发明专利
  • 法律状态: 有权
  • 申请日: 2019-07-25
  • 公开号: CN110390037B
  • 公开日: 2019-10-29
  • 主分类号: G06F16/901
  • 专利权人: 中南民族大学

专利摘要

本发明公开了一种基于DOM树的信息分类方法、装置、设备及存储介质,通过获取待分析页面对应的DOM树;根据所述DOM树获取所述待分析页面中各页面信息块的页面内容综合密度;将所述页面内容综合密度与预设密度阈值比较,生成比较结果;根据所述比较结果将所述待分析页面的页面信息块分类为正文信息块和噪音信息块,提高了信息抽取的查全率和查准率,能够对页面信息进行快速准确的分类,有助于提高信息抽取的准确度和速度,节省信息抽取的时间,提升了用户体验。

权利要求

1.一种基于DOM树的信息分类方法,其特征在于,所述基于DOM树的信息分类方法包括:

获取待分析页面对应的DOM树;

根据所述DOM树获取所述待分析页面中各页面信息块的页面内容综合密度;

将所述页面内容综合密度与预设密度阈值比较,生成比较结果;

根据所述比较结果将所述待分析页面的页面信息块分类为正文信息块和噪音信息块;

其中,所述将所述页面内容综合密度与预设密度阈值比较,生成比较结果之前,所述基于DOM树的信息分类方法还包括:

从所述页面内容综合密度中获取所述DOM树的各节点对应的节点页面内容综合密度;

根据各节点页面内容综合密度计算获得节点页面内容综合密度平均值;

通过下式根据所述节点页面内容综合密度和所述节点页面内容综合密度平均值计算获得预设密度阈值:

其中,σ为预设密度阈值,xi为节点i对应的节点页面内容综合密度,为各节点页面内容综合密度的平均值,n为节点个数。

2.如权利要求1所述的基于DOM树的信息分类方法,其特征在于,所述根据所述DOM树获取所述待分析页面中各页面信息块的页面内容综合密度,具体包括:

根据所述DOM树确定所述待分析页面中各页面信息块对应的节点路径;

对各节点路径进行分析,根据分析结果确定各页面信息块对应的页面内容综合密度。

3.如权利要求2所述的基于DOM树的信息分类方法,其特征在于,所述对各节点路径进行分析,根据分析结果确定各页面信息块对应的页面内容综合密度,具体包括:

对各节点路径进行分析,生成分析结果;

根据所述分析结果获得各页面信息块的文本密度、标点符号密度和链接密度;

根据所述文本密度、所述标点符号密度和所述链接密度确定各页面信息块对应的页面内容综合密度。

4.如权利要求3所述的基于DOM树的信息分类方法,其特征在于,所述根据所述分析结果获得各页面信息块的文本密度、标点符号密度和链接密度,具体包括:

从所述分析结果中获得各页面信息块的各节点路径中各节点对应的文本长度和各节点路径上的文本节点数量;

根据所述文本长度和所述文本节点数量计算获得各页面信息块的文本密度;

从所述分析结果中获得各节点路径中各节点对应的标点符号长度;

根据所述标点符号长度和所述文本节点数量计算获得各页面信息块的标点符号密度;

从所述分析结果中获得各节点路径中各节点对应的链接文本长度;

根据所述链接文本长度和所述文本长度计算获得各页面信息块的链接密度。

5.如权利要求4所述的基于DOM树的信息分类方法,其特征在于,所述根据所述文本密度、所述标点符号密度和所述链接密度确定各页面信息块对应的页面内容综合密度,具体包括:

根据所述文本密度、所述标点符号密度和所述链接密度通过下式计算获得各页面信息块对应的页面内容综合密度:

ComDensity=TextDensity*PunctuaDensity*(1-LinkDensity)

其中,所述ComDensity为所述页面内容综合密度,TextDensity为所述文本密度,其中,PunctuaDensity为所述标点符号密度,其中,LinkDensity为所述链接密度,其中,Texti为n个节点中第i个节点的文本长度,n为节点路径上的文本节点数量,Punctuai为n个节点中第i个节点的标点符号长度,Linki为节点i的链接文本长度。

6.如权利要求1-5中任一项所述的基于DOM树的信息分类方法,其特征在于,所述根据所述比较结果将所述待分析页面的页面信息块分类为正文信息块和噪音信息块,具体包括:

在所述比较结果为当前页面信息块的页面内容综合密度大于所述预设密度阈值时,判定所述当前页面信息块为初始正文信息块;

获取所述初始正文信息块中各节点的节点类型,根据预设节点重要度查询表查询所述节点类型对应的节点重要度,所述预设节点重要度查询表反映各节点类型与各节点重要度的映射关系;

根据各节点重要度确定所述初始正文信息块对应的节点路径重要度;

将所述节点路径重要度与预设重要度阈值进行对比,生成对比结果;

在所述对比结果为所述节点路径重要度大于所述预设重要度阈值时,判定所述初始正文信息块为正文信息块;

在所述对比结果为所述节点路径重要度不大于所述预设重要度阈值时,判定所述初始正文信息块为噪音信息块;

在所述比较结果为当前页面信息块的页面内容综合密度不大于所述预设密度阈值时,判定所述当前页面信息块为噪音信息块。

7.一种基于DOM树的信息分类装置,其特征在于,所述装置包括:

DOM树获取模块,用于获取待分析页面对应的DOM树;

密度获取模块,用于根据所述DOM树获取所述待分析页面中各页面信息块的页面内容综合密度;

比较模块,用于将所述页面内容综合密度与预设密度阈值比较,生成比较结果;

分类模块,用于根据所述比较结果将所述待分析页面的页面信息块分类为正文信息块和噪音信息块;

所述比较模块,还用于从所述页面内容综合密度中获取所述DOM树的各节点对应的节点页面内容综合密度;

所述比较模块,还用于根据各节点页面内容综合密度计算获得节点页面内容综合密度平均值;

所述比较模块,还用于通过下式根据所述节点页面内容综合密度和所述节点页面内容综合密度平均值计算获得预设密度阈值:

其中,σ为预设密度阈值,xi为节点i对应的节点页面内容综合密度,为各节点页面内容综合密度的平均值,n为节点个数。

8.一种基于DOM树的信息分类设备,其特征在于,所述基于DOM树的信息分类设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于DOM树的信息分类程序,所述基于DOM树的信息分类程序配置为实现如权利要求1至6中任一项所述的基于DOM树的信息分类方法的步骤。

9.一种存储介质,其特征在于,所述存储介质上存储有基于DOM树的信息分类程序,所述基于DOM树的信息分类程序被处理器执行时实现如权利要求1至6中任一项所述的基于DOM树的信息分类方法的步骤。

说明书

技术领域

本发明涉及网页信息处理领域,尤其涉及一种基于DOM树的信息分类方法、装置、设备及存储介质。

背景技术

随着计算机在世界范围内的爆发式增长和普及,网络上产生了大量的数据信息,但是由于网络信息来源的异构性,想要浏览和搜索这些庞大的数据集就变得很困难;例如通过现有的搜索引擎存在以下问题:使用关键词检索出来的结果庞杂,包含关键词的网页的链接,需要单独浏览才能判断其是否满足需求;搜索时,只要包含关键词的都会检索出来,降低了信息的有效率,影响用户的获取;在检索关键词的同时,网页上伴随着大量的无用信息,如无关新闻、广告,影响用户的观感体验。

现有的解决方法是通过web信息抽取从大量的大型半结构化网页信息中抽取用户所需的信息,并将其转换为结构化形式以存储在硬盘或数据库中;但是由于大多数基于统计原理的现有方案在阈值选取上没有一个特定的标准,在主题衡量标准上还不够准确,并且缺少信息块内部的去噪操作,所以信息抽取的查全率和查准率较低;而基于语义信息的现有方案对标签的语义信息分析不够准确,由于超文本标记语言(Hyper Text MarkupLanguage,HTML)标签的复杂化,使得对标签划分的难度增加,容易漏掉重要的标签节点,导致网页信息分类出现误差,从而无法准确抽取用户所需的信息。

发明内容

本发明的主要目的在于提供一种基于DOM树的信息分类方法、装置、设备及存储介质,旨在解决现有技术中网页信息抽取的查全率和查准率较低,信息分类不准确的技术问题。

为实现上述目的,本发明提供一种基于DOM树的信息分类方法,所述基于DOM树的信息分类方法包括以下步骤:

获取待分析页面对应的DOM树;

根据所述DOM树获取所述待分析页面中各页面信息块的页面内容综合密度;

将所述页面内容综合密度与预设密度阈值比较,生成比较结果;

根据所述比较结果将所述待分析页面的页面信息块分类为正文信息块和噪音信息块。

优选地,所述根据所述DOM树获取所述待分析页面中各页面信息块的页面内容综合密度,具体包括:

根据所述DOM树确定所述待分析页面中各页面信息块对应的节点路径;

对各节点路径进行分析,根据分析结果确定各页面信息块对应的页面内容综合密度。

优选地,所述对各节点路径进行分析,根据分析结果确定各页面信息块对应的页面内容综合密度,具体包括:

对各节点路径进行分析,生成分析结果;

根据所述分析结果获得各页面信息块的文本密度、标点符号密度和链接密度;

根据所述文本密度、所述标点符号密度和所述链接密度确定各页面信息块对应的页面内容综合密度。

优选地,所述根据所述分析结果获得各页面信息块的文本密度、标点符号密度和链接密度,具体包括:

从所述分析结果中获得各页面信息块的各节点路径中各节点对应的文本长度和各节点路径上的文本节点数量;

根据所述文本长度和所述文本节点数量计算获得各页面信息块的文本密度;

从所述分析结果中获得各节点路径中各节点对应的标点符号长度;

根据所述标点符号长度和所述文本节点数量计算获得各页面信息块的标点符号密度;

从所述分析结果中获得各节点路径中各节点对应的链接文本长度;

根据所述链接文本长度和所述文本长度计算获得各页面信息块的链接密度。

优选地,所述根据所述文本密度、所述标点符号密度和所述链接密度确定各页面信息块对应的页面内容综合密度,具体包括:

根据所述文本密度、所述标点符号密度和所述链接密度通过下式计算获得各页面信息块对应的页面内容综合密度:

ComDensity=TextDensity*PunctuaDensity*(1-LinkDensity)

其中,所述ComDensity为所述页面内容综合密度,TextDensity为所述文本密度,其中, PunctuaDensity为所述标点符号密度,其中, LinkDensity为所述链接密度,其中, Texti为n个节点中第i个节点的文本长度,n为节点路径上的文本节点数量,Punctuai为n个节点中第i个节点的标点符号长度,Linki为节点i的链接文本长度。

优选地,所述将所述页面内容综合密度与预设密度阈值比较,生成比较结果之前,所述基于DOM树的信息分类方法还包括:

从所述页面内容综合密度中获取所述DOM树的各节点对应的节点页面内容综合密度;

根据各节点页面内容综合密度计算获得节点页面内容综合密度平均值;

通过下式根据所述节点页面内容综合密度和所述节点页面内容综合密度平均值计算获得预设密度阈值:

其中,σ为预设密度阈值,xi为节点i对应的节点页面内容综合密度, 为各节点页面内容综合密度的平均值,n为节点个数。

优选地,所述根据所述比较结果将所述待分析页面的页面信息块分类为正文信息块和噪音信息块,具体包括:

在所述比较结果为当前页面信息块的页面内容综合密度大于所述预设密度阈值时,判定所述当前页面信息块为初始正文信息块;

获取所述初始正文信息块中各节点的节点类型,根据预设节点重要度查询表查询所述节点类型对应的节点重要度,所述预设节点重要度查询表反映各节点类型与各节点重要度的映射关系;

根据各节点重要度确定所述初始正文信息块对应的节点路径重要度;

将所述节点路径重要度与预设重要度阈值进行对比,生成对比结果;

在所述对比结果为所述节点路径重要度大于所述预设重要度阈值时,判定所述初始正文信息块为正文信息块;

在所述对比结果为所述节点路径重要度不大于所述预设重要度阈值时,判定所述初始正文信息块为噪音信息块;

在所述比较结果为当前页面信息块的页面内容综合密度不大于所述预设密度阈值时,判定所述当前页面信息块为噪音信息块。

此外,为实现上述目的,本发明还提出一种基于DOM树的信息分类设备,所述基于DOM树的信息分类设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于DOM树的信息分类程序,所述基于DOM树的信息分类程序配置为实现如上文所述的基于DOM树的信息分类方法的步骤。

此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有基于DOM树的信息分类程序,所述基于DOM树的信息分类程序被处理器执行时实现如上文所述的基于DOM树的信息分类方法的步骤。

此外,为实现上述目的,本发明还提供一种基于DOM树的信息分类装置,所述基于DOM树的信息分类装置包括:

DOM树获取模块,用于获取待分析页面对应的DOM树;

密度获取模块,用于根据所述DOM树获取所述待分析页面中各页面信息块的页面内容综合密度;

比较模块,用于将所述页面内容综合密度与预设密度阈值比较,生成比较结果;

分类模块,用于根据所述比较结果将所述待分析页面的页面信息块分类为正文信息块和噪音信息块。

本发明提出的基于DOM树的信息分类方法,通过获取待分析页面对应的DOM树;根据所述DOM树获取所述待分析页面中各页面信息块的页面内容综合密度;将所述页面内容综合密度与预设密度阈值比较,生成比较结果;根据所述比较结果将所述待分析页面的页面信息块分类为正文信息块和噪音信息块,提高了信息抽取的查全率和查准率,能够对页面信息进行快速准确的分类,有助于提高信息抽取的准确度和速度,节省信息抽取的时间,提升了用户体验。

附图说明

图1为本发明实施例方案涉及的硬件运行环境的基于DOM树的信息分类设备结构示意图;

图2为本发明基于DOM树的信息分类方法第一实施例的流程示意图;

图3为本发明基于DOM树的信息分类方法第二实施例的流程示意图;

图4为本发明基于DOM树的信息分类方法第三实施例的流程示意图;

图5为本发明基于DOM树的信息分类装置第一实施例的功能模块图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本发明实施例的解决方案主要是:本发明通过获取待分析页面对应的DOM树;根据所述DOM树获取所述待分析页面中各页面信息块的页面内容综合密度;将所述页面内容综合密度与预设密度阈值比较,生成比较结果;根据所述比较结果将所述待分析页面的页面信息块分类为正文信息块和噪音信息块,提高了信息抽取的查全率和查准率,能够对页面信息进行快速准确的分类,有助于提高信息抽取的准确度和速度,节省信息抽取的时间,提升了用户体验,解决了现有技术中网页信息抽取的查全率和查准率较低,信息分类不准确的技术问题。

参照图1,图1为本发明实施例方案涉及的硬件运行环境的基于DOM树的信息分类设备结构示意图。

如图1所示,该基于DOM树的信息分类设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(Wireless-Fidelity,Wi-Fi)。存储器1005可以是高速的随机存取存储器(Random AccessMemory,RAM)存储器,也可以是稳定的存储器(Non-volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解,图1中示出的基于DOM树的信息分类设备结构并不构成对该基于DOM树的信息分类设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户端接口模块以及基于DOM树的信息分类程序。

本发明基于DOM树的信息分类设备通过处理器1001调用存储器1005中存储的基于DOM树的信息分类程序,并执行以下操作:

获取待分析页面对应的DOM树;

根据所述DOM树获取所述待分析页面中各页面信息块的页面内容综合密度;

将所述页面内容综合密度与预设密度阈值比较,生成比较结果;

根据所述比较结果将所述待分析页面的页面信息块分类为正文信息块和噪音信息块。

进一步地,处理器1001可以调用存储器1005中存储的基于DOM树的信息分类程序,还执行以下操作:

根据所述DOM树确定所述待分析页面中各页面信息块对应的节点路径;

对各节点路径进行分析,根据分析结果确定各页面信息块对应的页面内容综合密度。

进一步地,处理器1001可以调用存储器1005中存储的基于DOM树的信息分类程序,还执行以下操作:

对各节点路径进行分析,生成分析结果;

根据所述分析结果获得各页面信息块的文本密度、标点符号密度和链接密度;

根据所述文本密度、所述标点符号密度和所述链接密度确定各页面信息块对应的页面内容综合密度。

进一步地,处理器1001可以调用存储器1005中存储的基于DOM树的信息分类程序,还执行以下操作:

从所述分析结果中获得各页面信息块的各节点路径中各节点对应的文本长度和各节点路径上的文本节点数量;

根据所述文本长度和所述文本节点数量计算获得各页面信息块的文本密度;

从所述分析结果中获得各节点路径中各节点对应的标点符号长度;

根据所述标点符号长度和所述文本节点数量计算获得各页面信息块的标点符号密度;

从所述分析结果中获得各节点路径中各节点对应的链接文本长度;

根据所述链接文本长度和所述文本长度计算获得各页面信息块的链接密度。

进一步地,处理器1001可以调用存储器1005中存储的基于DOM树的信息分类程序,还执行以下操作:

根据所述文本密度、所述标点符号密度和所述链接密度通过下式计算获得各页面信息块对应的页面内容综合密度:

ComDensity=TextDensity*PunctuaDensity*(1-LinkDensity)

其中,所述ComDensity为所述页面内容综合密度,TextDensity为所述文本密度,其中, PunctuaDensity为所述标点符号密度,其中, LinkDensity为所述链接密度,其中, Texti为n个节点中第i个节点的文本长度,n为节点路径上的文本节点数量,Punctuai为n个节点中第i个节点的标点符号长度,Linki为节点i的链接文本长度。

进一步地,处理器1001可以调用存储器1005中存储的基于DOM树的信息分类程序,还执行以下操作:

从所述页面内容综合密度中获取所述DOM树的各节点对应的节点页面内容综合密度;

根据各节点页面内容综合密度计算获得节点页面内容综合密度平均值;

通过下式根据所述节点页面内容综合密度和所述节点页面内容综合密度平均值计算获得预设密度阈值:

其中,σ为预设密度阈值,xi为节点i对应的节点页面内容综合密度, 为各节点页面内容综合密度的平均值,n为节点个数。

进一步地,处理器1001可以调用存储器1005中存储的基于DOM树的信息分类程序,还执行以下操作:

在所述比较结果为当前页面信息块的页面内容综合密度大于所述预设密度阈值时,判定所述当前页面信息块为初始正文信息块;

获取所述初始正文信息块中各节点的节点类型,根据预设节点重要度查询表查询所述节点类型对应的节点重要度,所述预设节点重要度查询表反映各节点类型与各节点重要度的映射关系;

根据各节点重要度确定所述初始正文信息块对应的节点路径重要度;

将所述节点路径重要度与预设重要度阈值进行对比,生成对比结果;

在所述对比结果为所述节点路径重要度大于所述预设重要度阈值时,判定所述初始正文信息块为正文信息块;

在所述对比结果为所述节点路径重要度不大于所述预设重要度阈值时,判定所述初始正文信息块为噪音信息块;

在所述比较结果为当前页面信息块的页面内容综合密度不大于所述预设密度阈值时,判定所述当前页面信息块为噪音信息块。

本实施例通过上述方案,通过获取待分析页面对应的DOM树;根据所述DOM树获取所述待分析页面中各页面信息块的页面内容综合密度;将所述页面内容综合密度与预设密度阈值比较,生成比较结果;根据所述比较结果将所述待分析页面的页面信息块分类为正文信息块和噪音信息块,提高了信息抽取的查全率和查准率,能够对页面信息进行快速准确的分类,有助于提高信息抽取的准确度和速度,节省信息抽取的时间,提升了用户体验。

基于上述硬件结构,提出本发明基于DOM树的信息分类方法实施例。

参照图2,图2为本发明基于DOM树的信息分类方法第一实施例的流程示意图。

在第一实施例中,所述基于DOM树的信息分类方法包括以下步骤:

步骤S10、获取待分析页面对应的DOM树。

需要说明的是,所述待分析页面为需要进行网页正文分析操作的网页,网页分析的目的是方便提取用户所需的信息,所述待分类页面中会存在不重要的信息,例如导航栏、广告以及版权信息等,这些信息即为噪音信息,这些噪音信息会给基于网页内容的研究工作带来困难,一般是通过对所述待分块网页进行去噪处理,可以将这些噪音信息进行去除,根据去噪后的网页生成DOM树,文档对象模型(Document Object Model,DOM),是W3C组织推荐的处理可扩展标志语言的标准编程接口;在网页上,组织页面(或文档)的对象被组织在一个树形结构中,用来表示文档中对象的标准模型就称为DOM;通过DOM树能够了解各个节点之间的层级关系。

步骤S20、根据所述DOM树获取所述待分析页面中各页面信息块的页面内容综合密度。

可以理解的是,所述待分析页面中会被初步划分为不同大小的页面信息块,通过所述DOM树可以获得各页面信息块的页面内容综合密度,所述页面内容综合密度为用于表示不同页面信息块的内容密集程度,为后续页面分类做准备。

步骤S30、将所述页面内容综合密度与预设密度阈值比较,生成比较结果。

应当理解的是,所述预设密度阈值为预先设置的用于与各页面信息块的页面内容综合密度进行比较的密度阈值,所述预设密度阈值可以是通过大量实验数据训练获得,也可以是通过技术人员的日常操作经验确定的阈值,当然还可以是通过其他方式确定的阈值,本实施例对此不加以限制。

进一步地,所述步骤S30之前,所述基于DOM树的信息分类方法还包括以下步骤:

从所述页面内容综合密度中获取所述DOM树的各节点对应的节点页面内容综合密度;

根据各节点页面内容综合密度计算获得节点页面内容综合密度平均值;

通过下式根据所述节点页面内容综合密度和所述节点页面内容综合密度平均值计算获得预设密度阈值:

其中,σ为预设密度阈值,xi为节点i对应的节点页面内容综合密度, 为各节点页面内容综合密度的平均值,n为节点个数。

应当理解的是,所述节点页面内容综合密度和所述节点页面内容综合密度平均值可以反映所述节点页面内容综合密度对应的离散程度,通过所述节点页面内容综合密度和所述节点页面内容综合密度平均值计算获得预设密度阈值,能够提高信息抽取的准确性,

步骤S40、根据所述比较结果将所述待分析页面的页面信息块分类为正文信息块和噪音信息块。

可以理解的是,通过页面内容综合密度与预设密度阈值的比较结果,即以页面内容综合密度与预设密度阈值的大小关系为依据,确定可以将所述待分析页面的页面信息块进行分类,一般是分为两类,即正文信息块和噪音信息块,当然还可以是分为其他几类,本实施例对此不加以限制。

本实施例通过上述方案,通过获取待分析页面对应的DOM树;根据所述DOM树获取所述待分析页面中各页面信息块的页面内容综合密度;将所述页面内容综合密度与预设密度阈值比较,生成比较结果;根据所述比较结果将所述待分析页面的页面信息块分类为正文信息块和噪音信息块,提高了信息抽取的查全率和查准率,能够对页面信息进行快速准确的分类,有助于提高信息抽取的准确度和速度,节省信息抽取的时间,提升了用户体验。

进一步地,图3为本发明基于DOM树的信息分类方法第二实施例的流程示意图,如图3所示,基于第一实施例提出本发明基于DOM树的信息分类方法第二实施例,在本实施例中,所述步骤S20,具体包括以下步骤:

步骤S21、根据所述DOM树确定所述待分析页面中各页面信息块对应的节点路径。

可以理解的是,所述节点路径为某一节点到根节点的路径,根据所述DOM树可以确定所述待分析页面中各页面信息块对应的多条节点路径,即所述待分析页面中的各页面信息块在所述DOM树上有对应的节点路径。

步骤S22、对各节点路径进行分析,根据分析结果确定各页面信息块对应的页面内容综合密度。

需要说明的是,通过对各节点路径进行分析,即通过各节点路径反馈出的信息进行分析,可以根据分析结果可以推算出各页面信息块对应的页面内容综合密度。

进一步地,所述步骤S22具体包括以下步骤:

对各节点路径进行分析,生成分析结果;

根据所述分析结果获得各页面信息块的文本密度、标点符号密度和链接密度;

根据所述文本密度、所述标点符号密度和所述链接密度确定各页面信息块对应的页面内容综合密度。

可以理解的是,通过所述分析结果可以获得各页面信息块对应的文本密度,标点符号密度以及链接密度,所述文本密度为各页面信息块中文本的分布密度,所述标点符号密度为各页面信息块中标点符号对应的分布密度,所述链接密度为各页面信息块中超链接对应的分布密度,通过所述文本密度、所述标点符号密度和所述链接密度可以确定各页面信息块对应的页面内容综合密度。

进一步地,所述步骤根据所述分析结果获得各页面信息块的文本密度、标点符号密度和链接密度,具体包括以下步骤:

从所述分析结果中获得各页面信息块的各节点路径中各节点对应的文本长度和各节点路径上的文本节点数量;

根据所述文本长度和所述文本节点数量计算获得各页面信息块的文本密度;

从所述分析结果中获得各节点路径中各节点对应的标点符号长度;

根据所述标点符号长度和所述文本节点数量计算获得各页面信息块的标点符号密度;

从所述分析结果中获得各节点路径中各节点对应的链接文本长度;

根据所述链接文本长度和所述文本长度计算获得各页面信息块的链接密度。

需要说明的是,所述文本密度是指一条节点路径上文本节点所对应的文本长度之和的平均数,较高的文本密度意味着这条节点路径上的节点的文本更可能是正文文本,相反则代表着更可能是噪音信息;所述标点符号密度为一条节点路径上节点所包含标点符号的平均数,所述标点符号密度越高,则代表更有可能是正文信息,反之则为噪音信息;所述链接密度为一条节点路径上的链接文本与总文本长度的比值,链接密度越小则代表节点是正文信息的可能越大,反之则为噪音信息的可能越大。

进一步地,所述步骤根据所述文本密度、所述标点符号密度和所述链接密度确定各页面信息块对应的页面内容综合密度,具体包括以下步骤:

根据所述文本密度、所述标点符号密度和所述链接密度通过下式计算获得各页面信息块对应的页面内容综合密度:

ComDensity=TextDensity*PunctuaDensity*(1-LinkDensity)

其中,所述ComDensity为所述页面内容综合密度,TextDensity为所述文本密度,其中, PunctuaDensity为所述标点符号密度,其中, LinkDensity为所述链接密度,其中, Texti为n个节点中第i个节点的文本长度,n为节点路径上的文本节点数量,Punctuai为n个节点中第i个节点的标点符号长度,Linki为节点i的链接文本长度。

可以理解的是,所述页面内容综合密度为所述文本密度、所述标点符号密度和所述链接密度的融合,这样能够扩大每一项单独的影响值,提高了信息抽取的查全率和查准率。

本实施例通过上述方案,通过根据所述DOM树确定所述待分析页面中各页面信息块对应的节点路径;对各节点路径进行分析,根据分析结果确定各页面信息块对应的页面内容综合密度,提高了信息抽取的查全率和查准率,能够对页面信息进行快速准确的分类,有助于提高信息抽取的准确度和速度,节省信息抽取的时间,提升了用户体验。

进一步地,图4为本发明基于DOM树的信息分类方法第三实施例的流程示意图,如图4所示,基于第二实施例提出本发明基于DOM树的信息分类方法第三实施例,在本实施例中,所述步骤S40具体包括以下步骤:

步骤S41、在所述比较结果为当前页面信息块的页面内容综合密度大于所述预设密度阈值时,判定所述当前页面信息块为初始正文信息块。

可以理解的是,在所述当前页面信息块的页面内容综合密度大于所述预设密度阈值时,即此时可以初步判定为正文信息块,即当前页面信息块有较大可能是初始正文信息块。

步骤S42、获取所述初始正文信息块中各节点的节点类型,根据预设节点重要度查询表查询所述节点类型对应的节点重要度,所述预设节点重要度查询表反映各节点类型与各节点重要度的映射关系。

需要说明的是,根据预设节点重要度查询表可以查询所述节点类型对应的节点重要度,所述预设节点重要度查询表反映各节点类型与各节点重要度的映射关系,所述节点类型为对应HTML标签的节点类型,所述节点类型包括但不限于块级节点、内嵌节点、视觉节点和其他节点;其中,所述块级节点为HTML标签中块级元素对应的节点,所述块级元素是指本身属性为“display:block;”的元素,常用的有<div>、<p>、<ol>、<ul>、<dl>、<table>、<address>、<blockquote>和<form>等元素,由于这些元素可以将页面分成若干个块,块内承载着页面的主题信息,是承载正文的重要元素,所以一般可以将所述块级节点对应的节点重要度设置为10,当然也可以设置为其他数值,本实施例对此不加以限制;所述内嵌节点为HTML标签中内元素对应的节点,内元素是指本身属性为“display:inline;”的元素,常用的有<span>、<br>、<i>、<em>、<label>、<q>、<var>、<cite>和<code>等元素,由于这些元素可以用来进行文字、小图标或小结构的搭建,这些元素虽然承载的主题信息不多,但也可承载一些文本信息,所以一般可以将所述内嵌节点对应的节点重要度设置为8,当然也可以设置为其他数值,本实施例对此不加以限制;所述视觉节点为HTML标签中视觉元素对应的节点,所述视觉元素是指对其所含文本信息的一种修饰作用,起强调突出的作用的元素,常用的有<B>、<strong>和<h1>-<h6>等元素,这些元素通常不能承载主题信息和文本信息,但往往是页面着重想表现的内容,所以一般可以将所述视觉节点对应的节点重要度设置为6,当然也可以设置为其他数值,本实施例对此不加以限制;其他节点则为其他HTML标签对应的节点,其他节点对应的标签大多数不能承载主体和文本信息,因此,可以将其他元素对应的其他节点对应的节点重要度设置为2,当然也可以设置为其他数值,本实施例对此不加以限制。

步骤S43、根据各节点重要度确定所述初始正文信息块对应的节点路径重要度。

可以理解的是,通过各节点重要度可以确定所述初始正文信息块对应的多个节点的节点重要度,而将多个节点的节点重要度进行整合可以确定所述初始正文信息块对应的节点路径的节点路径重要度。

步骤S44、将所述节点路径重要度与预设重要度阈值进行对比,生成对比结果。

应当理解的是,所述预设重要度阈值为预先设置的用于与所述节点路径重要度进行比较的阈值,所述预设重要度阈值可以是通过大量实验数据训练获得的阈值,也可以是技术人员根据日常操作经验确定的阈值,当然还可以是通过其他方式确定的阈值,本实施例对此不加以限制。

步骤S45、在所述对比结果为所述节点路径重要度大于所述预设重要度阈值时,判定所述初始正文信息块为正文信息块。

可以理解的是,在所述节点路径重要度大于所述预设重要度阈值时,即此时节点路径为比较重要的节点路径,进而可以判定所述初始正文信息块为正文信息块。

步骤S46、在所述对比结果为所述节点路径重要度不大于所述预设重要度阈值时,判定所述初始正文信息块为噪音信息块。

应当理解的是,在所述节点路径重要度不大于所述预设重要度阈值时,即此时节点路径为不重要的节点路径,进而可以判定所述初始正文信息块为噪音信息块。

步骤S47、在所述比较结果为当前页面信息块的页面内容综合密度不大于所述预设密度阈值时,判定所述当前页面信息块为噪音信息块。

可以理解的是,在当前页面信息块的页面内容综合密度不大于所述预设密度阈值时,即此时当前页面信息块对应的页面内容的密度较为稀疏或没有文本密集排布,则此时判定所述当前页面信息块为噪音信息块。

本实施例通过上述方案,通过在所述比较结果为当前页面信息块的页面内容综合密度大于所述预设密度阈值时,判断所述当前页面信息块为初始正文信息块;获取所述初始正文信息块中各节点的节点类型,根据预设节点重要度查询表查询所述节点类型对应的节点重要度,所述预设节点重要度查询表反映各节点类型与各节点重要度的映射关系;根据各节点重要度确定所述初始正文信息块对应的节点路径重要度;将所述节点路径重要度与预设重要度阈值进行对比,生成对比结果;在所述对比结果为所述节点路径重要度大于所述预设重要度阈值时,判定所述初始正文信息块为正文信息块;在所述对比结果为所述节点路径重要度不大于所述预设重要度阈值时,判定所述初始正文信息块为噪音信息块;在所述比较结果为当前页面信息块的页面内容综合密度不大于所述预设密度阈值时,判定所述当前页面信息块为噪音信息块,进一步提高了信息抽取的准确度和速度,节省信息抽取的时间,提升了用户体验。

基于上述基于DOM树的信息分类方法的实施例,本发明进一步提供一种基于DOM树的信息分类装置。

参照图5,图5为本发明基于DOM树的信息分类装置第一实施例的功能模块图。

本发明基于DOM树的信息分类装置第一实施例中,该基于DOM树的信息分类装置包括:

DOM树获取模块10,用于获取待分析页面对应的DOM树。

需要说明的是,所述待分析页面为需要进行网页正文分析操作的网页,网页分析的目的是方便提取用户所需的信息,所述待分类页面中会存在不重要的信息,例如导航栏、广告以及版权信息等,这些信息即为噪音信息,这些噪音信息会给基于网页内容的研究工作带来困难,一般是通过对所述待分块网页进行去噪处理,可以将这些噪音信息进行去除,根据去噪后的网页生成DOM树,文档对象模型(Document Object Model,DOM),是W3C组织推荐的处理可扩展标志语言的标准编程接口;在网页上,组织页面(或文档)的对象被组织在一个树形结构中,用来表示文档中对象的标准模型就称为DOM;通过DOM树能够了解各个节点之间的层级关系,节点的类型包括文档节点、元素节点、文本节点和属性节点等,当然还可以包括其他类型的节点,本实施例对此不加以限制。

密度获取模块20,用于根据所述DOM树获取所述待分析页面中各页面信息块的页面内容综合密度。

可以理解的是,所述待分析页面中会被初步划分为不同大小的页面信息块,通过所述DOM树可以获得各页面信息块的页面内容综合密度,所述页面内容综合密度为用于表示不同页面信息块的内容密集程度,为后续页面分类做准备。

比较模块30,用于将所述页面内容综合密度与预设密度阈值比较,生成比较结果。

应当理解的是,所述预设密度阈值为预先设置的用于与各页面信息块的页面内容综合密度进行比较的密度阈值,所述预设密度阈值可以是通过大量实验数据训练获得,也可以是通过技术人员的日常操作经验确定的阈值,当然还可以是通过其他方式确定的阈值,本实施例对此不加以限制。

分类模块40,用于根据所述比较结果将所述待分析页面的页面信息块分类为正文信息块和噪音信息块。

可以理解的是,通过页面内容综合密度与预设密度阈值的比较结果,即以页面内容综合密度与预设密度阈值的大小关系为依据,确定可以将所述待分析页面的页面信息块进行分类,一般是分为两类,即正文信息块和噪音信息块,当然还可以是分为其他几类,本实施例对此不加以限制。

其中,基于DOM树的信息分类装置的各个功能模块实现的步骤可参照本发明基于DOM树的信息分类方法的各个实施例,此处不再赘述。

此外,本发明实施例还提出一种存储介质,所述存储介质上存储有基于DOM树的信息分类程序,所述基于DOM树的信息分类程序被处理器执行时实现如下操作:

获取待分析页面对应的DOM树;

根据所述DOM树获取所述待分析页面中各页面信息块的页面内容综合密度;

将所述页面内容综合密度与预设密度阈值比较,生成比较结果;

根据所述比较结果将所述待分析页面的页面信息块分类为正文信息块和噪音信息块。

进一步地,所述基于DOM树的信息分类程序被处理器执行时还实现如下操作:

根据所述DOM树确定所述待分析页面中各页面信息块对应的节点路径;

对各节点路径进行分析,根据分析结果确定各页面信息块对应的页面内容综合密度。

进一步地,所述基于DOM树的信息分类程序被处理器执行时还实现如下操作:

对各节点路径进行分析,生成分析结果;

根据所述分析结果获得各页面信息块的文本密度、标点符号密度和链接密度;

根据所述文本密度、所述标点符号密度和所述链接密度确定各页面信息块对应的页面内容综合密度。

进一步地,所述基于DOM树的信息分类程序被处理器执行时还实现如下操作:

从所述分析结果中获得各页面信息块的各节点路径中各节点对应的文本长度和各节点路径上的文本节点数量;

根据所述文本长度和所述文本节点数量计算获得各页面信息块的文本密度;

从所述分析结果中获得各节点路径中各节点对应的标点符号长度;

根据所述标点符号长度和所述文本节点数量计算获得各页面信息块的标点符号密度;

从所述分析结果中获得各节点路径中各节点对应的链接文本长度;

根据所述链接文本长度和所述文本长度计算获得各页面信息块的链接密度。

进一步地,所述基于DOM树的信息分类程序被处理器执行时还实现如下操作:

根据所述文本密度、所述标点符号密度和所述链接密度通过下式计算获得各页面信息块对应的页面内容综合密度:

ComDensity=TextDensity*PunctuaDensity*(1-LinkDensity)

其中,所述ComDensity为所述页面内容综合密度,TextDensity为所述文本密度,其中, PunctuaDensity为所述标点符号密度,其中, LinkDensity为所述链接密度,其中, Texti为n个节点中第i个节点的文本长度,n为节点路径上的文本节点数量,Punctuai为n个节点中第i个节点的标点符号长度,Linki为节点i的链接文本长度。

进一步地,所述基于DOM树的信息分类程序被处理器执行时还实现如下操作:

从所述页面内容综合密度中获取所述DOM树的各节点对应的节点页面内容综合密度;

根据各节点页面内容综合密度计算获得节点页面内容综合密度平均值;

通过下式根据所述节点页面内容综合密度和所述节点页面内容综合密度平均值计算获得预设密度阈值:

其中,σ为预设密度阈值,xi为节点i对应的节点页面内容综合密度, 为各节点页面内容综合密度的平均值,n为节点个数。

进一步地,所述基于DOM树的信息分类程序被处理器执行时还实现如下操作:

在所述比较结果为当前页面信息块的页面内容综合密度大于所述预设密度阈值时,判定所述当前页面信息块为初始正文信息块;

获取所述初始正文信息块中各节点的节点类型,根据预设节点重要度查询表查询所述节点类型对应的节点重要度,所述预设节点重要度查询表反映各节点类型与各节点重要度的映射关系;

根据各节点重要度确定所述初始正文信息块对应的节点路径重要度;

将所述节点路径重要度与预设重要度阈值进行对比,生成对比结果;

在所述对比结果为所述节点路径重要度大于所述预设重要度阈值时,判定所述初始正文信息块为正文信息块;

在所述对比结果为所述节点路径重要度不大于所述预设重要度阈值时,判定所述初始正文信息块为噪音信息块;

在所述比较结果为当前页面信息块的页面内容综合密度不大于所述预设密度阈值时,判定所述当前页面信息块为噪音信息块。

本实施例通过上述方案,通过获取待分析页面对应的DOM树;根据所述DOM树获取所述待分析页面中各页面信息块的页面内容综合密度;将所述页面内容综合密度与预设密度阈值比较,生成比较结果;根据所述比较结果将所述待分析页面的页面信息块分类为正文信息块和噪音信息块,提高了信息抽取的查全率和查准率,能够对页面信息进行快速准确的分类,有助于提高信息抽取的准确度和速度,节省信息抽取的时间,提升了用户体验。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

基于DOM树的信息分类方法、装置、设备及存储介质专利购买费用说明

专利买卖交易资料

Q:办理专利转让的流程及所需资料

A:专利权人变更需要办理著录项目变更手续,有代理机构的,变更手续应当由代理机构办理。

1:专利变更应当使用专利局统一制作的“著录项目变更申报书”提出。

2:按规定缴纳著录项目变更手续费。

3:同时提交相关证明文件原件。

4:专利权转移的,变更后的专利权人委托新专利代理机构的,应当提交变更后的全体专利申请人签字或者盖章的委托书。

Q:专利著录项目变更费用如何缴交

A:(1)直接到国家知识产权局受理大厅收费窗口缴纳,(2)通过代办处缴纳,(3)通过邮局或者银行汇款,更多缴纳方式

Q:专利转让变更,多久能出结果

A:著录项目变更请求书递交后,一般1-2个月左右就会收到通知,国家知识产权局会下达《转让手续合格通知书》。

动态评分

0.0

没有评分数据
没有评价数据
×

打开微信,点击底部的“发现”

使用“扫一扫”即可将网页分享至朋友圈

×
复制
用户中心
我的足迹
我的收藏

您的购物车还是空的,您可以

  • 微信公众号

    微信公众号
在线留言
返回顶部