专利转让平台_买专利_卖专利_中国高校专利技术交易-买卖发明专利上知查网

全部分类
全部分类
基于网络爬虫的链接提取方法、装置、设备及存储介质

基于网络爬虫的链接提取方法、装置、设备及存储介质

IPC分类号 : G06F16/951I,G06F16/9535I,G06F16/955I

申请号
CN201910670515.5
可选规格
  • 专利类型: 发明专利
  • 法律状态: 有权
  • 申请日: 2019-07-23
  • 公开号: CN110413861B
  • 公开日: 2019-11-05
  • 主分类号: G06F16/951
  • 专利权人: 中南民族大学

专利摘要

本发明涉及互联网技术领域,公开了一种基于网络爬虫的链接提取方法、装置、设备及存储介质。本发明通过基于路径聚合的锚多重属性集成方式,对待访问平台的第一URL链接和待爬取URL队列中的第二URL链接进行处理,得到第二URL链接对应的富文本格式的多重属性主题信息,并将待爬取URL队列中每一个第二URL链接对应的多重属性主题信息与农产品主题信息进行对比,提取与农产品主题信息相似度满足预设阈值的多重属性主题信息对应的第二URL链接,有效的保证了对特定URL链接提取的准确率,进而可以避免网络爬虫因无关链接的爬取造成的资源浪费,从而显著改善了网络爬虫的性能,使得网络爬虫能够快速精准的获取人们所需的信息,提升用户体验。

权利要求

1.一种基于网络爬虫的链接提取方法,其特征在于,所述方法包括以下步骤:

在接收到待分析农产品的数据抓取请求时,从所述数据抓取请求中提取待访问平台的第一统一资源定位符URL链接和与所述待分析农产品相关的农产品主题信息;

根据第一URL链接,向所述待访问平台发送访问请求;

在接收到所述待访问平台根据所述访问请求作出的响应后,抓取所述第一URL链接对应的页面中的数据信息;

对所述数据信息进行解析,得到所述页面中内嵌的第二URL链接,并将所述第二URL链接添加到待爬取URL队列;

基于路径聚合的锚多重属性集成方式,对所述第一URL链接和所述待爬取URL队列中的第二URL链接进行处理,得到所述第二URL链接对应的富文本格式的多重属性主题信息;

分别将所述待爬取URL队列中每一个第二URL链接对应的多重属性主题信息与所述农产品主题信息进行对比,提取与所述农产品主题信息相似度满足预设阈值的多重属性主题信息对应的第二URL链接;

所述基于路径聚合的锚多重属性集成方式,对所述第一URL链接和所述待爬取URL队列中的第二URL链接进行处理,得到所述第二URL链接对应的富文本格式的多重属性主题信息的步骤之前,所述方法还包括:

采用链接特征的计数布隆过滤器,并结合多重哈希对所述待爬取URL队列中的第二URL链接进行联合去重,使所述待爬取URL队列中的任意两个第二URL链接均不相同;

所述采用链接特征的计数布隆过滤器,并结合多重哈希对所述待爬取URL队列中的第二URL链接进行联合去重的步骤之前,所述方法还包括:

对所述待爬取URL队列进行遍历,对遍历到的当前第二URL链接进行特征分析,提取所述当前第二URL链接的协议类型部分、路径部分和询问部分;

根据所述协议类型部分、所述路径部分和所述询问部分,得到所述当前第二URL链接对应的整体特征URL链接;

建立所述当前第二URL链接与所述整体特征URL链接之间的对应关系,并将所述对应关系更新到所述待爬取URL队列中;

所述采用链接特征的计数布隆过滤器,并结合多重哈希对所述待爬取URL队列中的第二URL链接进行联合去重的步骤,包括:

对所述待爬取URL队列进行遍历,获取遍历到的当前第二URL链接对应的整体特征URL链接;

采用链接特征的计数布隆过滤器对所述整体特征URL链接进行整体查重,得到所述整体特征URL链接对应的查重标志;

根据所述查重标志,对所述整体特征URL链接进行特征识别,得到多个特征片段;

根据预设的URL链接重组规则,对所述多个特征片段进行重组,得到N个重组URL链接片段,所述N为大于等于1的整数;

对N个重组URL链接片段进行多重哈希查重,得到所述当前第二URL链接对应的查重结果;

根据所述查重结果,对所述待爬取URL队列中的第二URL链接进行保留或丢弃操作。

2.如权利要求1所述的方法,其特征在于,所述对所述数据信息进行解析,得到所述页面中内嵌的第二URL链接,并将所述第二URL链接添加到待爬取URL队列的步骤,包括:

对所述数据信息进行解析,得到所述页面中内嵌的第二URL链接;

对所述第二URL链接进行解析,得到所述第二URL链接对应的规范化标签;

根据所述规范化标签生成所述第二URL链接对应的抽象树;

基于DOM树匹配方法,将所述抽象树的节点内容与所述农产品主题信息进行匹配,去除不匹配的节点内容,得到与所述农产品主题信息匹配的第二URL链接;

将与所述农产品主题信息匹配的第二URL链接添加到待爬取URL队列。

3.如权利要求2所述的方法,其特征在于,所述基于路径聚合的锚多重属性集成方式,对所述第一URL链接和所述待爬取URL队列中的第二URL链接进行处理,得到所述第二URL链接对应的富文本格式的多重属性主题信息的步骤,包括:

根据所述第一URL链接和所述待爬取URL队列中的第二URL链接,生成所述待分析农产品对应的路径访问有向图;

基于路径聚合的锚多重属性集成方式,确定所述路径访问有向图中的最短访问路径,得到最短访问路径集合;

确定所述最短访问路径集合中每一条最短访问路径对应的锚文本,得到所述最短访问路径集合对应的访问路径锚文本集合,并为所述访问路径锚文本集合中每一个元素分配一个权重;

根据预设的权重标准化公式对,对所述访问路径锚文本集合中每一个元素对应的权重进行标准化;

对标准化后的权值进行降序排序,得到所述第二URL链接对应的富文本格式的多重属性主题信息。

4.如权利要求3所述的方法,其特征在于,所述分别将所述待爬取URL队列中每一个第二URL链接对应的多重属性主题信息与所述农产品主题信息进行对比的步骤,提取与所述农产品主题信息相似度满足预设阈值的多重属性主题信息对应的第二URL链接的步骤,包括:

从所述多重属性主题信息中提取多重属性主题特征词,对所述多重属性主题特征词进行哈希处理,得到第一哈希值,所述多重属性主题特征词为所述多重属性主题信息对应的访问路径锚文本集合中的一个元素;

从所述访问路径锚文本集合中获取所述多重属性主题特征词对应的权重,并结合所述权重将所述第一哈希值量化为第一向量;

从所述农产品主题信息中提取农产品主题特征词,并对所述农产品主题特征词进行哈希处理,得到第二哈希值;

根据为所述农产品主题特征词预设的权重将所述第二哈希值量化为第二向量;

将所述第一向量与所述第二向量进行对比,提取与所述农产品主题信息相似度满足预设阈值的多重属性主题信息对应的第二URL链接。

5.一种基于网络爬虫的链接提取装置,其特征在于,所述装置包括:

提取模块,用于在接收到待分析农产品的数据抓取请求时,从所述数据抓取请求中提取待访问平台的第一统一资源定位符URL链接和与所述待分析农产品相关的农产品主题信息;

发送模块,用于根据第一URL链接,向所述待访问平台发送访问请求;

抓取模块,用于在接收到所述待访问平台根据所述访问请求作出的响应后,抓取所述第一URL链接对应的页面中的数据信息;

解析模块,用于对所述数据信息进行解析,得到所述页面中内嵌的第二URL链接,并将所述第二URL链接添加到待爬取URL队列;

处理模块,用于基于路径聚合的锚多重属性集成方式,对所述第一URL链接和所述待爬取URL队列中的第二URL链接进行处理,得到所述第二URL链接对应的富文本格式的多重属性主题信息;

提取模块,用于分别将所述待爬取URL队列中每一个第二URL链接对应的多重属性主题信息与所述农产品主题信息进行对比,提取与所述农产品主题信息相似度满足预设阈值的多重属性主题信息对应的第二URL链接;

所述基于网络爬虫的链接提取装置还包括:采用链接特征的计数布隆过滤器,并结合多重哈希对所述待爬取URL队列中的第二URL链接进行联合去重,使所述待爬取URL队列中的任意两个第二URL链接均不相同;

所述基于网络爬虫的链接提取装置还包括:对所述待爬取URL队列进行遍历,对遍历到的当前第二URL链接进行特征分析,提取所述当前第二URL链接的协议类型部分、路径部分和询问部分;根据所述协议类型部分、所述路径部分和所述询问部分,得到所述当前第二URL链接对应的整体特征URL链接;建立所述当前第二URL链接与所述整体特征URL链接之间的对应关系,并将所述对应关系更新到所述待爬取URL队列中;

所述基于网络爬虫的链接提取装置还包括:对所述待爬取URL队列进行遍历,获取遍历到的当前第二URL链接对应的整体特征URL链接;采用链接特征的计数布隆过滤器对所述整体特征URL链接进行整体查重,得到所述整体特征URL链接对应的查重标志;根据所述查重标志,对所述整体特征URL链接进行特征识别,得到多个特征片段;根据预设的URL链接重组规则,对所述多个特征片段进行重组,得到N个重组URL链接片段,所述N为大于等于1的整数;对N个重组URL链接片段进行多重哈希查重,得到所述当前第二URL链接对应的查重结果;根据所述查重结果,对所述待爬取URL队列中的第二URL链接进行保留或丢弃操作。

6.一种基于网络爬虫的链接提取设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于网络爬虫的链接提取程序,所述基于网络爬虫的链接提取程序配置为实现如权利要求1至4中任一项所述的基于网络爬虫的链接提取方法的步骤。

7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有基于网络爬虫的链接提取程序,所述基于网络爬虫的链接提取程序被处理器执行时实现如权利要求1至4任一项所述的基于网络爬虫的链接提取方法的步骤。

说明书

技术领域

本发明涉及互联网技术领域,尤其涉及一种基于网络爬虫的链接提取方法、装置、设备及存储介质。

背景技术

随着网页形式和内容趋于多样化和复杂化,网页呈现的信息良莠不齐。网络爬虫不是要处理所有的页面链接,而是选择与主题相关的链接进行爬取。因此,网络爬虫在提取页面链接前应预判链接是否与主题相关。目前常见的主题链接提取方法有:基于规则的相关链接提取、基于网页分块和文档对象模型(Document Object Model,DOM)树的相关链接提取,以及基于机器学习的相关链接提取。

虽然,基于规则的相关链接提取方式能够有效去除链接中的噪声链接,但在实际应用中,由于每个网站的编写者不同,网页链接也不尽符合制定的提取规则,因而通用性不高,无法保持较高的准确率,从而严重影响了网络爬虫的性能。

而基于网页分块和DOM树的相关链接提取方式虽然可以实现主题相关链接的提取操作,但是该方法的实现需要根据网站布局特点用DOM树将页面按块状解析,并为不同位置的网页块赋予不同的重要度权值,同时结合页面标题与页面主题、链接锚文本来评判链接是否相关,因而实现过程相对复杂,并且准确率受赋予的重要度权值影响,从而严重影响了网络爬虫的性能。

而基于机器学习的相关链接提取方式虽然可以较为精确的提取页面的相关链接,但前期的训练数据集收集成本太大,而且页面相关链接抽取模式的扩展性不好,从而严重影响了网络爬虫的性能。

因此,亟需提供一种基于网络爬虫的主题相关链接的提取方式,以提升网络爬虫的性能,使得网络爬虫能够快速精准的获取人们所需的信息,进而提升用户体验。

上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种基于网络爬虫的链接提取方法、装置、设备及存储介质,旨在通过对链接提取方式的优化来改善网络爬虫的性能,从而保证网络爬虫能够快速精准的获取人们所需的信息,提升用户体验。

为实现上述目的,本发明提供了一种基于网络爬虫的链接提取方法,所述方法包括以下步骤:

在接收到待分析农产品的数据抓取请求时,从所述数据抓取请求中提取待访问平台的第一统一资源定位符URL链接和与所述待分析农产品相关的农产品主题信息;

根据所述第一URL链接,向所述待访问平台发送访问请求;

在接收到所述待访问平台根据所述访问请求作出的响应后,抓取所述第一URL链接对应的页面中的数据信息;

对所述数据信息进行解析,得到所述页面中内嵌的第二URL链接,并将所述第二URL链接添加到待爬取URL队列;

基于路径聚合的锚多重属性集成方式,对所述第一URL链接和所述待爬取URL队列中的第二URL链接进行处理,得到所述第二URL链接对应的富文本格式的多重属性主题信息;

分别将所述待爬取URL队列中每一个第二URL链接对应的多重属性主题信息与所述农产品主题信息进行对比,提取与所述农产品主题信息相似度满足预设阈值的多重属性主题信息对应的第二URL链接。

优选地,所述对所述数据信息进行解析,得到所述页面中内嵌的第二URL链接,并将所述第二URL链接添加到待爬取URL队列的步骤,包括:

对所述数据信息进行解析,得到所述页面中内嵌的第二URL链接;

对所述第二URL链接进行解析,得到所述第二URL链接对应的规范化标签;

根据所述规范化标签生成所述第二URL链接对应的抽象树;

基于DOM树匹配方法,将所述抽象树的节点内容与所述农产品主题信息进行匹配,去除不匹配的节点内容,得到与所述农产品主题信息匹配的第二URL链接;

将与所述农产品主题信息匹配的第二URL链接添加到待爬取URL队列。

优选地,所述基于路径聚合的锚多重属性集成方式,对所述第一URL链接和所述待爬取URL队列中的第二URL链接进行处理,得到所述第二URL链接对应的富文本格式的多重属性主题信息的步骤,包括:

根据所述第一URL链接和所述待爬取URL队列中的第二URL链接,生成所述待分析农产品对应的路径访问有向图;

基于路径聚合的锚多重属性集成方式,确定所述路径访问有向图中的最短访问路径,得到最短访问路径集合;

确定所述最短访问路径集合中每一条最短访问路径对应的锚文本,得到所述最短访问路径集合对应的访问路径锚文本集合,并为所述访问路径锚文本集合中每一个元素分配一个权重;

根据预设的权重标准化公式对,对所述访问路径锚文本集合中每一个元素对应的权重进行标准化;

对标准化后的权值进行降序排序,得到所述第二URL链接对应的富文本格式的多重属性主题信息。

优选地,其特征在于,所述分别将所述待爬取URL队列中每一个第二URL链接对应的多重属性主题信息与所述农产品主题信息进行对比的步骤,提取与所述农产品主题信息相似度满足预设阈值的多重属性主题信息对应的第二URL链接的步骤,包括:

从所述多重属性主题信息中提取多重属性主题特征词,对所述多重属性主题特征词进行哈希处理,得到第一哈希值,所述多重属性主题特征词为所述多重属性主题信息对应的访问路径锚文本集合中的一个元素;

从所述访问路径锚文本集合中获取所述多重属性主题特征词对应的权重,并结合所述权重将所述第一哈希值量化为第一向量;

从所述农产品主题信息中提取农产品主题特征词,并对所述农产品主题特征词进行哈希处理,得到第二哈希值;

根据为所述农产品主题特征词预设的权重将所述第二哈希值量化为第二向量;

将所述第一向量与所述第二向量进行对比,提取与所述农产品主题信息相似度满足预设阈值的多重属性主题信息对应的第二URL链接。

优选地,其特征在于,所述基于路径聚合的锚多重属性集成方式对所述待爬取URL队列中第二URL链接进行特征提取的步骤之前,所述方法还包括:

采用链接特征的计数布隆过滤器,并结合多重哈希对所述待爬取URL队列中的第二URL链接进行联合去重,使所述待爬取URL队列中的任意两个第二URL链接均不相同。

优选地,所述采用链接特征的计数布隆过滤器,并结合多重哈希对所述待爬取URL队列中的第二URL链接进行联合去重的步骤之前,所述方法还包括:

对所述待爬取URL队列进行遍历,对遍历到的当前第二URL链接进行特征分析,提取所述当前第二URL链接的协议类型部分、路径部分和询问部分;

根据所述协议类型部分、所述路径部分和所述询问部分,得到所述当前第二URL链接对应的整体特征URL链接;

建立所述当前第二URL链接与所述整体特征URL链接之间的对应关系,并将所述对应关系更新到所述待爬取URL队列中。

优选地,所述采用链接特征的计数布隆过滤器,并结合多重哈希对所述待爬取URL队列中的第二URL链接进行联合去重的步骤,包括:

对所述待爬取URL队列进行遍历,获取遍历到的当前第二URL链接对应的整体特征URL链接;

采用链接特征的计数布隆过滤器对所述整体特征URL链接进行整体查重,得到所述整体特征URL链接对应的查重标志;

根据所述查重标志,对所述整体特征URL链接进行特征识别,得到多个特征片段;

根据预设的URL链接重组规则,对所述多个特征片段进行重组,得到N个重组URL链接片段,所述N为大于等于1的整数;

对N个重组URL链接片段进行多重哈希查重,得到所述当前第二URL链接对应的查重结果;

根据所述查重结果,对所述待爬取URL队列中的第二URL链接进行保留或丢弃操作。

此外,为实现上述目的,本发明还提出一种基于网络爬虫的链接提取装置,所述装置包括:

提取模块,用于在接收到待分析农产品的数据抓取请求时,从所述数据抓取请求中提取待访问平台的第一统一资源定位符URL链接和与所述待分析农产品相关的主题信息;

发送模块,用于根据所述第一URL链接,向所述待访问平台发送访问请求;

抓取模块,用于在接收到所述待访问平台根据所述访问请求作出的响应后,抓取所述第一URL链接对应的页面中的数据信息;

解析模块,用于对所述数据信息进行解析,得到所述页面中内嵌的第二URL链接,并将所述第二URL链接添加到待爬取URL队列;

处理模块,用于基于路径聚合的锚多重属性集成方式,对所述第一URL链接和所述待爬取URL队列中的第二URL链接进行处理,得到所述第二URL链接对应的富文本格式的多重属性主题信息;

提取模块,用于分别将所述待爬取URL队列中每一个第二URL链接对应的多重属性主题信息与所述农产品主题信息进行对比,提取与所述农产品主题信息相似度满足预设阈值的多重属性主题信息对应的第二URL链接。

此外,为实现上述目的,本发明还提出一种基于网络爬虫的链接提取设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于网络爬虫的链接提取程序,所述基于网络爬虫的链接提取程序配置为实现如上文所述的基于网络爬虫的链接提取方法的步骤。

此外,为实现上述目的,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有基于网络爬虫的链接提取程序,所述基于网络爬虫的链接提取程序被处理器执行时实现如上文所述的基于网络爬虫的链接提取方法的步骤。

本发明提供的基于网络爬虫的链接提取方案,通过基于路径聚合的锚多重属性集成方式,对待访问平台的第一URL链接和待爬取URL队列中的第二URL链接进行处理,得到第二URL链接对应的富文本格式的多重属性主题信息,并将待爬取URL队列中每一个第二URL链接对应的多重属性主题信息与农产品主题信息进行对比,提取与农产品主题信息相似度满足预设阈值的多重属性主题信息对应的第二URL链接,有效的保证了对特定URL链接提取的准确率,进而可以避免网络爬虫因无关链接的爬取造成的资源浪费,从而显著改善了网络爬虫的性能,使得网络爬虫能够快速精准的获取人们所需的信息,提升用户体验。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的基于网络爬虫的链接提取设备的结构示意图;

图2为本发明基于网络爬虫的链接提取方法第一实施例的流程示意图;

图3为本发明基于网络爬虫的链接提取方法第一实施例中路径访问有向图的示意图;

图4为本发明基于网络爬虫的链接提取方法第二实施例的流程示意图;

图5为本发明基于网络爬虫的链接提取装置第一实施例的结构框图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

参照图1,图1为本发明实施例方案涉及的硬件运行环境的基于网络爬虫的链接提取设备结构示意图。

如图1所示,该基于网络爬虫的链接提取设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM)存储器,也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解,图1中示出的结构并不构成对基于网络爬虫的链接提取设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于网络爬虫的链接提取程序。

在图1所示的基于网络爬虫的链接提取设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明基于网络爬虫的链接提取设备中的处理器1001、存储器1005可以设置在基于网络爬虫的链接提取设备中,所述基于网络爬虫的链接提取设备通过处理器1001调用存储器1005中存储的基于网络爬虫的链接提取程序,并执行本发明实施例提供的基于网络爬虫的链接提取方法。

本发明实施例提供了一种基于网络爬虫的链接提取方法,参照图2,图2为本发明一种基于网络爬虫的链接提取方法第一实施例的流程示意图。

本实施例中,所述基于网络爬虫的链接提取方法包括以下步骤:

步骤S10,在接收到待分析农产品的数据抓取请求时,从所述数据抓取请求中提取待访问平台的第一统一资源定位符URL链接和与所述待分析农产品相关的农产品主题信息。

具体的说,本实施例的执行主体为任意部署或安装有网络爬虫系统的终端设备。

值得一提的是,在本实施例中,为了尽可能提高待分析农产品对应的数据的抓取速度、解析速度等操作,本实施例中所说的网络爬虫系统优选分布式网络爬虫系统。

此外,应当理解的是,在实际应用中所述终端设备可以是客户端设备,也可以是服务器端设备,此处不做限制。

此外,上述所说的待访问平台在实际应用中可以是展示有待分析农产品的网络商城。

相应地,所说统一资源定位符(Uniform Resource Locator,URL)即为访问所述网络商城所需的网络地址。

此外,应当理解的是,上述所说的待分析农产品只是对目前常见的各种农产品的一个统称,在实际应用中待分析农产品可以是茶产品、果蔬产品、粮食产品等等,此处不再一一列举,对此也不做任何限制。

为了便于理解,本实施例将茶产品作为待分析农产品。

相应地,上述所说的农产品主题信息则为茶产品主体信息,在实际应用中茶产品主体信息具体可以包括与所述待分析茶产品相关的特征信息,比如限定了待分析茶产品的种类是绿茶、产季为清明前、价格在500/kg~1000/kg等,此处不再一一列举,对此也不做任何限制。

步骤S20,根据所述第一URL链接,向所述待访问平台发送访问请求。

具体的说,在实际应用中,网络爬虫可以采用基于传输控制协议/因特网互联协议(Transmission Control Protocol/Internet Protocol,TCP/IP协议)来传输数据的超文本传输协议(HyperText Transfer Protocol,HTTP)向所述待访问平台(实质为该平台的服务器)发送访问请求。

应当理解的是,以上给出的仅为一种向所述待访问平台发送访问请求的具体实现方式,对本发明的技术方案并不构成任何限定,在实际应用中,本领域的技术人员可以根据需要进行设置,此处不做限制。

步骤S30,在接收到所述待访问平台根据所述访问请求作出的响应后,抓取所述第一URL链接对应的页面中的数据信息。

应当理解的是,在实际应用中,如果向所述待访问平台发送的访问请求成功,并且所述待访问平台对所述访问请求中携带的第一URL链接验证成功后,并会作出成功的响应,并反馈所述第一URL链接对应的页面中的数据信息。此时,网络爬虫并可以抓取所述待访问平台反馈的针对所述第一URL链接对应的页面中的数据信息。

步骤S40,对所述数据信息进行解析,得到所述页面中内嵌的第二URL链接,并将所述第二URL链接添加到待爬取URL队列。

应当理解的是,在实际应用中,第一URL链接对应的页面中除了会显示与所述待分析农产品相同的数据信息,还可能会显示多个与所述数据信息相关的URL链接,为了便于区分此处称为第二URL链接。

比如说,在第一URL链接对应的页面中显示的是包括所述待分析农产品的一个网络商城主页,在该主页中主要显示有农产品A、农产品B、农产品C以及农产品D等四大类农产品信息,同时每一大类农产品又对应有一个第二URL链接,该第二URL链接对应的页面中主要显示有对应农产品包括的小类农产品。

比如,农产品A对应的第二URL链接对应的页面中主要显示有农产品A-1、农产品A-2和农产品A-3;农产品B对应的第二URL链接对应的页面中主要显示有农产品B-1和农产品B-2;农产品C对应的第二URL链接对应的页面中主要显示有农产品C-1、农产品C-2、农产品C-3和农产品C4;农产品D对应的第二URL链接对应的页面中主要显示有农产品D-1和农产品D-2。

应当理解的是,以上仅为举例说明,对本发明的技术方案并不构成任何限定,在实际应用中,本领域的技术人员可以根据需要进行设置,此处不做限制。

此外,在本实施例中,之所以要将所述页面中内嵌的第二URL链接添加到待爬取URL队列,是因为在实际应用中网络爬虫爬取的数据较多,因而解析出来的第二URL链接数量相对庞大。而每爬取、解析一个第二URL链接均会消耗不少时间,因而大量的第二URL链接往往不能短时间内访问完,故需要将每次获取到的第二URL链接添加到待爬取URL队列中。

此外,上述所说的“第一URL链接”中的“第一”,以及“第二URL链接”中的“第二”仅仅是用于区别待访问平台对应的URL链接与该URL链接对应的页面中内嵌的URL链接,并不对URL链接本身造成限定。在实际应用中,任意一个“第二URL链接”相对于其对应的页面中内嵌的URL链接都可以看作是一个“第一URL链接”。

此外,值得一提的是,由于在实际应用中,一个第二URL链接对应的页面中除了会包括待分析农产品的相关信息,还会包括一些干扰信息,比如各种格式的广告(图片、音频、视频等)信息。因此,为了尽可能简化第二URL链接对应的页面的结构,同时方便网络爬虫金属数据爬取,在得到第二URL链接,并将第二URL链接添加到待爬取URL队列的时候,可以对第二URL链接进行去噪处理。

为了便于理解,本实施例给出一种具体的去噪方式,大致如下:

(1)对所述数据信息进行解析,得到所述页面中内嵌的第二URL链接。

(2)对所述第二URL链接进行解析,得到所述第二URL链接对应的规范化标签。

具体的说,在实际应用中,此处规范化的实质为第二URL链接对应的页面内的标签。

由于目前的网络页面通常是基于超文本标记语言(HyperText Markup Language,HTML)编译的。

此外,由于在实际应用中噪声链接通常是存在一些图片标签、标签定义的超链接,以及一些指定超链接目标的URL中,因此只需对这类标签进行规范化即可。

(3)根据所述规范化标签生成所述第二URL链接对应的抽象树。

(4)基于DOM树匹配方法,将所述抽象树的节点内容与所述农产品主题信息进行匹配,去除不匹配的节点内容,得到与所述农产品主题信息匹配的第二URL链接。

具体的说,由于所述抽象树时根据所述规范化标签生成的,因而抽象树的每一个节点实质就是一个规范化标签。故在将所述抽象树的节点内容与所述农产品主题信息进行匹配时,具体是提取该节点中的关键词和农产品主题信息中的关键词,然后将两个关键词进行对比,进而决定该节点是否需要去除。通过这种方式,在将所述抽象树中的每一个节点内容与所述农产品主题想进行匹配之后,便可以完成对噪声链接的去除,进而得到与所述农产品主题信息匹配的第二URL链接。

(5)将与所述农产品主题信息匹配的第二URL链接添加到待爬取URL队列。

应当理解的是,本实施例给出的仅为一种具体的去噪方式,对本发明的技术方案并不构成任何限定,在实际应用中,本领域的技术人员可以根据需要进行设置,此处不做限制。

步骤S50,基于路径聚合的锚多重属性集成方式,对所述第一URL链接和所述待爬取URL队列中的第二URL链接进行处理,得到所述第二URL链接对应的富文本格式的多重属性主题信息。

为了便于理解上述获取每一个所述第二URL链接对应的富文本格式的多重属性主题信息的操作,以下给出一种具体的实现方式,大致如下:

(1)根据所述第一URL链接和所述待爬取URL队列中的第二URL链接,生成所述待分析农产品对应的路径访问有向图。

具体的说,所述路径访问有向图的每个顶点就是一个URL链接对应的页面,以图3为例进行具体说明。

如图3所示,图中的源网页u实质就是第一URL链接对应的页面,茶类型和茶价格则为从该页面的数据信息中解析出的两个内嵌的第二URL链接对应的页面,目标页v1、目标页v2和目标页v3则是从上述两个第二URL链接对应的页面中解析出的下一层页面的第二URL链接。

(2)基于路径聚合的锚多重属性集成方式,确定所述路径访问有向图中的最短访问路径,得到最短访问路径集合。

具体的说,在实际应用中一个路径访问有向图中可能存在多条路径,并且其中的最短路径可能存在无环路径(不闭合的),也可能存在有环路径(闭合的)。

为了便于区分,在实际应用中,可以用不同的集合来表示最短路径究竟是有环的还是无环的。

为了便于理解,以下给出一种最短无环路径集合的具体表示方式。

比如针对源网页到目标页的M个最短无环路径,可以用如下集合表示:

应当理解的是,以上仅为举例说明,对本发明的技术方案并不构成任何限定,在实际应用中,本领域的技术人员可以根据需要进行设置,此处不做限制。

(3)确定所述最短访问路径集合中每一条最短访问路径对应的锚文本,得到所述最短访问路径集合对应的访问路径锚文本集合,并为所述访问路径锚文本集合中每一个元素分配一个权重。

在为所述访问路径锚文本集合中每一个元素分配一个权重时,具体可以按照如下方式进行:

首先,约定Pm是最短无环路径,m的取值范围满足:

然后,约定w(Pm)≤w(Pm+1),m的取值范围满足:

接着,约定w(Pm)≤w(P),P的取值范围满足:

最后,约定Pm在Pm+1之前确定,m的取值范围满足:

其中,W为权重,M取正整数。

起始规定每个元素(即每条边)的权重为1,因此若路径P经过m条有向边,那么w(P)=m。

应当理解的是,以上给出的仅为一种分配权重的具体实现方式,对本发明的技术方案并不构成任何限定,在实际应用中,本领域的技术人员可以根据需要进行设置,此处不做限制。

(4)根据预设的权重标准化公式对,对所述访问路径锚文本集合中每一个元素对应的权重进行标准化。

具体的说,本实施例中采用的权重标准化公式如下:

其中, 是元素e在 中的权重。

仍以图3所示的访问路径有向图为例,通过该权重标准公式,便可以修改原访问路径中从源网页u到目标页v1、目标页v2和目标页v3的锚文本中的元素权重。

(5)对标准化后的权值进行降序排序,得到所述第二URL链接对应的富文本格式的多重属性主题信息。

步骤S60,分别将所述待爬取URL队列中每一个第二URL链接对应的多重属性主题信息与所述农产品主题信息进行对比,提取与所述农产品主题信息相似度满足预设阈值的多重属性主题信息对应的第二URL链接。

为了便于理解基于网络爬虫的链接提取的操作,以下给出一种具体的实现方式,大致如下:

(1)从所述多重属性主题信息中提取多重属性主题特征词,对所述多重属性主题特征词进行哈希处理,得到第一哈希值,所述多重属性主题特征词为所述多重属性主题信息对应的访问路径锚文本集合中的一个元素。

(2)从所述访问路径锚文本集合中获取所述多重属性主题特征词对应的权重,并结合所述权重将所述第一哈希值量化为第一向量。

(3)从所述农产品主题信息中提取农产品主题特征词,并对所述农产品主题特征词进行哈希处理,得到第二哈希值。

(4)根据为所述农产品主题特征词预设的权重将所述第二哈希值量化为第二向量。

(5)将所述第一向量与所述第二向量进行对比,提取与所述农产品主题信息相似度满足预设阈值的多重属性主题信息对应的第二URL链接。

具体的说,本实施例通过将多重属性主题信息与所述农产品主题信息的对比过程转换为两个向量之间的对比,从而可以更加形象直观的得出对比结果,即方便了链接的提取,有保证了准确性。

通过上述描述不难发现,本实施例提供的基于网络爬虫的链接提取方法,通过基于路径聚合的锚多重属性集成方式,对待访问平台的第一URL链接和待爬取URL队列中的第二URL链接进行处理,得到第二URL链接对应的富文本格式的多重属性主题信息,并将待爬取URL队列中每一个第二URL链接对应的多重属性主题信息与农产品主题信息进行对比,提取与农产品主题信息相似度满足预设阈值的多重属性主题信息对应的第二URL链接,有效的保证了对特定URL链接提取的准确率,进而可以避免网络爬虫因无关链接的爬取造成的资源浪费,从而显著改善了网络爬虫的性能,使得网络爬虫能够快速精准的获取人们所需的信息,提升用户体验。

参考图4,图4为本发明一种基于网络爬虫的链接提取方法第二实施例的流程示意图。

基于上述第一实施例,本实施例基于网络爬虫的链接提取方法在所述步骤S50之前,还包括:

步骤S00,采用链接特征的计数布隆过滤器,并结合多重哈希对所述待爬取URL队列中的所述第二URL链接进行联合去重。

具体的说,上述所说的采用链接特征的计数布隆过滤器,并结合多重哈希对所述待爬取URL队列中的所述第二URL链接进行的联合去重,主要分为对所述URL链接对应的整体特征URL链接去重和对URL链接片段去重。

而URL链接片段则是根据整体特征URL链接得到的,因而为了保证上述联合去重的操作能够顺利进行,需要先确定第二URL链接与整体特征URL链接之间的对应关系。

为了便于理解,本实施例给出一种确定第二URL链接与整体特征URL链接之间对应关系的具体实现方式,大致如下:

(1)对所述待爬取URL队列进行遍历,对遍历到的当前第二URL链接进行特征分析,提取所述当前第二URL链接的协议类型部分、路径部分和询问部分。

具体的说,由于在实际应用中URL链接是用于唯一标识网络上的资源的。并且,一般来说,一个URL链接通常会包含如下五个组成部分:协议类型部分(通常用Protocol表示)、服务器地址部分(通常用户Host表示)、端口号部分(通常用Port表示)、路径部分(通常用Path表示)和询问部分(通常用Fragment表示)。

其中,协议类型部分、路径部分和询问部分这三个部分通常就可以体现一个URL链接的特征。

因而,本实施例通过对所述待爬取URL队列进行遍历,并对遍历到的当前第二URL链接进行特征分析,进而提取出当前第二URL链接的协议类型部分(为了便于后续说明以下用户p1表示)、路径部分(为了便于后续说明以下用户p2表示)和询问部分(为了便于后续说明以下用户p3表示)。

(2)根据所述协议类型部分、所述路径部分和所述询问部分,得到所述当前第二URL链接对应的整体特征URL链接。

具体的说,由于p1、p2和p3这三部分就可以体现当前第二URL链接的全部特征,因而通过对p1、p2和p3进行组合便可以得到当前第二URL链接对应的整体特征URL链接,以下用p1p2p3表示每个第二URL链接对应的整体特征URL链接。

(3)建立所述当前第二URL链接与所述整体特征URL链接之间的对应关系,并将所述对应关系更新到所述待爬取URL队列中。

具体的说,本实施例中之所以要建立所述当前第二URL链接与所述整体特征URL链接之间的对应关系,并将所述对应关系更新到所述待爬取URL队列中是为了方便后续对第二URL链接去重过程中,能够该对应关系快速找到当前第二URL链接对应的整体特征URL链接,进而根据整体URL链接得到当前第二URL链接对应的URL链接片段。

此外,在实际应用中,也可以不把所述对应关系更新到所述待爬取URL队列中,而是单独存放。当对待爬取URL队列中的第二URL链接进行联合去重时,根据遍历到的当前第二URL链接从单独存放的对应关系表中查找当前第二URL链接对应的整体特征URL链接即可。

应当理解的是,以上仅为举例说明,对本发明的技术方案并不构成任何限定,在实际应用中,本领域的技术人员可以根据需要进行设置,此处不做限制。

进一步地,在得到上述对应关系以及每个第二URL链接对应的整体特征URL链接之后,上述所说的采用链接特征的计数布隆过滤器,并结合多重哈希对所述待爬取URL队列中的所述第二URL链接进行联合去重的操作,具体可以如下所述:

(1)对所述待爬取URL队列进行遍历,获取遍历到的当前第二URL链接对应的整体特征URL链接。

具体的说,获取遍历到的当前第二URL链接对应的整体特征URL链接即为根据上述所说的对应关系获取。

(2)采用链接特征的计数布隆过滤器对所述整体特征URL链接进行整体查重,得到所述整体特征URL链接对应的查重标志。

具体的说,本实施例中所采用的计数布隆过滤器并非现有进行链接去重时采用的计数布隆器,而是基于URL链接的链接特征的计数布隆过滤器。

也就是说,本实施例的计算布隆过滤器在对链接进行去重时,具体是通过对待爬取URL队列中每一个第二URL链接对应的整体特征URL链接进行特征识别,然后根据识别到的特征进行整体查重,即在去重时是对每个第二入了链接进行特征对比,进而实现整体查重。

并且,为了方便识别后续根据特征片段重组后的URL链接片段,还会为整体特征URL链接分配对应的查重标志。

(3)根据所述查重标志,对所述整体特征URL链接进行特征识别,得到多个特征片段。

具体的说,仍以整体特征URL链接为p1p2p3为例,通过对所述整体特征URL链接进行特征识别后,得到的多个特征片段具体可以是分别包括协议类型部分、路径部分和询问部分的片段,即对特征片段p1、特征片段p2和特征片段p3

(4)根据预设的URL链接重组规则,对所述多个特征片段进行重组,得到N个重组URL链接片段。

应当理解的是,由于一个整体特征URL链接是由协议类型部分、路径部分和询问三部分组成的,因而至少会得到1个重组URL链接片段,故在本实施例中N为大于等于1的整数。

此外,在实际应用总,所述URL链接重组规则可以由本领域的技术人员根据需要进行设置,比如规定重组后的URL链接片段必须包括特征片段p1,或者重组后的URL链接片段不能包括特征片段p3等,此处不再一一列举,对此也不做任何限制。

相应地,如果URL链接重组规则为重组后的URL链接片段必须包括特征片段p1,则得到的重组URL链接片段大致包括仅包括p1特征片段的URL链接片段、仅包括p1特征片段和p2特征片段的URL链接片段,以及仅包括p1特征片段和p3特征片段的URL链接片段。

如果URL链接重组规则为重组后的URL链接片段不能包括特征片段p3,则得到的重组URL链接片段大致包括仅包括p1特征片段的URL链接片段和仅包括p1特征片段和p2特征片段的URL链接片段。

应当理解的是,以上仅为举例说明,对本发明的技术方案并不构成任何限定,在实际应用中,本领域的技术人员可以根据实际需要进行设置,此处不做限制。

(5)对N个重组URL链接片段进行多重哈希查重,得到所述当前第二URL链接对应的查重结果。

值得一提的是,由于在实际应用中,缓存在待爬取URL队列中的第二URL链接可能有大量,因而重组后得到的URL链接片段会更加多。因此,在本实施例中,为了尽可能降低对待爬取URL队列中缓存的第二URL链接对存储空间的占用,在根据预设的URL链接重组规则,对所述多个特征片段进行重组,得到N个重组URL链接片段之后,可以先基于MD5算法,对得到的N个重组URL链接片段分别进行压缩,进而得到N个重组URL链接片段对应的字符串密文,最终将所述字符串密文替换掉对应的重组URL链接片段中的内容。

应当理解的是,以上给出的仅为一种具体的压缩方式,对本发明的技术方案并不构成任何限定,在实际应用中,本领域的技术人员可以根据实际需要选取合适的压缩方法,此处不做限制。

相应地,上述对N个重组URL链接片段进行多重哈希查重,得到所述当前第二URL链接对应的查重结果的操作,具体为:

(5-1)提取N个重组URL链接片段对应的字符串密文,从N个字符串密文中选取任意一个字符串密文进行K次哈希处理,得到K个哈希值。

应当理解的是,由于本实施例提供的链接去重操作,在对链接进行联合去重时具体结合的是多重哈希,即对一个字符串密文至少需要进行2次哈希处理,故上述所说的K为大于等于2的整数。

(5-2)将K个哈希值散列到预先构建的位向量空间作为参考哈希值,并为每一个参考哈希值对应的空间可变计数器设置初始计数值。

具体的说,在本实施例中每个参考哈希值对应的空间可变计数器上显示的初始计数值用“0”表示。

(5-3)分别对剩余N-1个字符串密文进行K次哈希处理,得到每一个剩余字符串密文对应的K个哈希值。

(5-4)将每一个剩余字符串密文对应的K个哈希值随机散列到所述位向量空间,且与任意一个参考哈希值相邻。

具体的说,为了便于确定新散列到所述位向量空间中的哈希值究竟与那一个参考哈希值相邻,可以预先设置一个确定标准,比如在相邻两个参考哈希值之间插入新的哈希值时,可以选取距离新插入的哈希值最近的参考哈希值作为相邻的参考哈希值。

应当理解的是,以上仅为举例说明,对本发明的技术方案并不构成任何限定,在实际应用中,本领域的技术人员可以根据实际需要进行设置,此处不做限制。

(5-5)采用头插法在相邻的参考哈希值对应的初始计数值前为每一个新散列到所述位向量空间的哈希值插入一位预设字符。

具体的说,在本实施例中所述预设字符选用“1”表示。

比如说,对于一个参考哈希值,其对应的空间可变计数器上显示的初始计数值为“0”。当有一个新的哈希值散列到与其相邻的位置时,就需要采用头插法在“0”的前面插入一位预设字符“1”,此时空间可变计数器上显示的计数值变为“10”。

相应地,如果有两个新的哈希值散列到该参考哈希值的想了位置,则需要采用头插法在“0”的前面插入两位预设字符“1”,此时空间可变计数器上显示的计数值变为“110”。

(5-6)统计每一个参考哈希值对应的初始数值前预设字符的个数,根据所述预设字符的个数,确定所述当前第二URL链接对应的查重结果。

具体的说,确定的查重结果可以为:

若初始计数值“0”前面的预设字符“1”的个数大于1,则确定所述重组URL片段重复,需要丢弃;

否则,确定所述重组URL片段不重复,可以保留。

(6)根据所述查重结果,对所述待爬取URL队列中的第二URL链接进行保留或丢弃操作。

应当理解的是,以上给出的仅为一种联合去重的具体实现方式,对本发明的技术方案并不构成任何限定,在实际应用中,本领域的技术人员可以根据需要合理调整,此处不做限制。

此外,在实际应用中,为了进一步地降低对存储空间的占用,在采用链接特征的计数布隆过滤器,并结合多重哈希对所述待爬取URL队列中的所述第二URL链接进行联合去重之后,还可以基于MD5算法,对去重后的所述待爬取URL队列中的每一个第二URL链接进行压缩,进而得到每一个第二URL链接对应的字符串密文;最后将所述字符串密文替换掉对应的第二URL链接中的内容,从而尽可能的压缩待爬取URL队列中的第二URL链接,降低对存储空间的占用。

通过上述描述不难看出,本实施例提供的基于网络爬虫的链接提取方法,在对待爬取URL队列中的第二URL链接进行提取操作之前,通过对待爬取URL队列中的第二URL链接进行去重操作,从而进一步减少了链接提取过程中不必要的干扰,提高网络爬虫的提取效率。

此外,本实施例通过采用链接特征的计数布隆过滤器,并结合多重哈希对所述待爬取URL队列中缓存的第二URL链接进行整体和部分的联合去重,从而尽可能的降低了计数布隆过滤器的误判率,有效改善了网络爬虫的性能,使得网络爬虫能够快速精准的获取人们所需的信息,尽可能的提升了用户体验。

此外,在去重过程中,通过基于压缩算法,如MD5算法对URL链接进行压缩,从而尽可能的降低了对存储空间的占用。

此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有基于网络爬虫的链接提取程序,所述基于网络爬虫的链接提取程序被处理器执行时实现如上文所述的基于网络爬虫的链接提取方法的步骤。

参照图5,图5为本发明基于网络爬虫的链接提取装置第一实施例的结构框图。

如图5所示,本发明实施例提出的基于网络爬虫的链接提取装置包括:提取模块5001、发送模块5002、抓取模块5003、解析模块5004、处理模块5005和提取模块5006。

其中,提取模块5001,用于在接收到待分析农产品的数据抓取请求时,从所述数据抓取请求中提取待访问平台的第一统一资源定位符URL链接和与所述待分析农产品相关的主题信息;发送模块5002,用于根据所述第一URL链接,向所述待访问平台发送访问请求;抓取模块5003,用于在接收到所述待访问平台根据所述访问请求作出的响应后,抓取所述第一URL链接对应的页面中的数据信息;解析模块5004,用于对所述数据信息进行解析,得到所述页面中内嵌的第二URL链接,并将所述第二URL链接添加到待爬取URL队列;处理模块5005,用于基于路径聚合的锚多重属性集成方式,对所述第一URL链接和所述待爬取URL队列中的第二URL链接进行处理,得到所述第二URL链接对应的富文本格式的多重属性主题信息;提取模块5006,用于分别将所述待爬取URL队列中每一个第二URL链接对应的多重属性主题信息与所述农产品主题信息进行对比,提取与所述农产品主题信息相似度满足预设阈值的多重属性主题信息对应的第二URL链接。

应当理解的是,本实施例中所涉及到的各模块均为逻辑模块,在实际应用中,一个逻辑单元可以是一个物理单元,也可以是一个物理单元的一部分,还可以以多个物理单元的组合实现。此外,为了突出本发明的创新部分,本实施例中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入,但这并不表明本实施方式中不存在其它的单元。

此外,为了便于理解本实施例中提供的基于网络爬虫的链接提取装置在实际应用中各个功能模块的具体处理流程,以下针对解析模块5004、处理模块5005和提取模块5006的处理进行具体说明。

具体的,所述解析模块5004执行的对所述数据信息进行解析,得到所述页面中内嵌的第二URL链接,并将所述第二URL链接添加到待爬取URL队列的操作,在具体应用中实现流程大致如下:

首先,对所述数据信息进行解析,得到所述页面中内嵌的第二URL链接;

然后,对所述第二URL链接进行解析,得到所述第二URL链接对应的规范化标签;

接着,根据所述规范化标签生成所述第二URL链接对应的抽象树;

接着,基于DOM树匹配方法,将所述抽象树的节点内容与所述农产品主题信息进行匹配,去除不匹配的节点内容,得到与所述农产品主题信息匹配的第二URL链接;

最后,将与所述农产品主题信息匹配的第二URL链接添加到待爬取URL队列。

应当理解的是,以上给出的仅为一种对待爬取URL队列中的第二URL链接进行去噪的具体实现方式,对本发明的技术方案并不构成任何限定,在具体应用中,本领域的技术人员可以根据需要进行设置,本发明对此不做限制。

此外,所述处理模块5005执行的基于路径聚合的锚多重属性集成方式,对所述第一URL链接和所述待爬取URL队列中的第二URL链接进行处理,得到所述第二URL链接对应的富文本格式的多重属性主题信息的操作,在具体应用中实现流程大致如下:

首先,根据所述第一URL链接和所述待爬取URL队列中的第二URL链接,生成所述待分析农产品对应的路径访问有向图;

然后,基于路径聚合的锚多重属性集成方式,确定所述路径访问有向图中的最短访问路径,得到最短访问路径集合;

接着,确定所述最短访问路径集合中每一条最短访问路径对应的锚文本,得到所述最短访问路径集合对应的访问路径锚文本集合,并为所述访问路径锚文本集合中每一个元素分配一个权重;

接着,根据预设的权重标准化公式对,对所述访问路径锚文本集合中每一个元素对应的权重进行标准化;

最后,对标准化后的权值进行降序排序,得到所述第二URL链接对应的富文本格式的多重属性主题信息。

应当理解的是,以上给出的仅为一种获取待爬取URL队列中每个第二URL链接对应的富文本格式的多重属性主题信息的具体实现方式,对本发明的技术方案并不构成任何限定,在具体应用中,本领域的技术人员可以根据需要进行设置,本发明对此不做限制。

此外,所述提取模块5006执行的分别将所述待爬取URL队列中每一个第二URL链接对应的多重属性主题信息与所述农产品主题信息进行对比的步骤,提取与所述农产品主题信息相似度满足预设阈值的多重属性主题信息对应的第二URL链接操作,在具体应用中实现流程大致如下:

首先,从所述多重属性主题信息中提取多重属性主题特征词,对所述多重属性主题特征词进行哈希处理,得到第一哈希值,所述多重属性主题特征词为所述多重属性主题信息对应的访问路径锚文本集合中的一个元素;

然后,从所述访问路径锚文本集合中获取所述多重属性主题特征词对应的权重,并结合所述权重将所述第一哈希值量化为第一向量;

接着,从所述农产品主题信息中提取农产品主题特征词,并对所述农产品主题特征词进行哈希处理,得到第二哈希值;

接着,根据为所述农产品主题特征词预设的权重将所述第二哈希值量化为第二向量;

最后,将所述第一向量与所述第二向量进行对比,提取与所述农产品主题信息相似度满足预设阈值的多重属性主题信息对应的第二URL链接。

应当理解的是,以上给出的仅为一种从待爬取URL队列提取特定链接的具体实现方式,对本发明的技术方案并不构成任何限定,在具体应用中,本领域的技术人员可以根据需要进行设置,本发明对此不做限制。

通过上述描述不难发现,本实施例提供的基于网络爬虫的链接提取装置,通过基于路径聚合的锚多重属性集成方式,对待访问平台的第一URL链接和待爬取URL队列中的第二URL链接进行处理,得到第二URL链接对应的富文本格式的多重属性主题信息,并将待爬取URL队列中每一个第二URL链接对应的多重属性主题信息与农产品主题信息进行对比,提取与农产品主题信息相似度满足预设阈值的多重属性主题信息对应的第二URL链接,有效的保证了对特定URL链接提取的准确率,进而可以避免网络爬虫因无关链接的爬取造成的资源浪费,从而显著改善了网络爬虫的性能,使得网络爬虫能够快速精准的获取人们所需的信息,提升用户体验。

需要说明的是,以上所描述的工作流程仅仅是示意性的,并不对本发明的保护范围构成限定,在实际应用中,本领域的技术人员可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的,此处不做限制。

另外,未在本实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的链接去重方法,此处不再赘述。

基于上述基于网络爬虫的链接提取装置的第一实施例,提出本发明基于网络爬虫的链接提取装置第二实施例。

在本实施例中,所述基于网络爬虫的链接提取装置还包去重模块。

其中,去重模块,用于采用链接特征的计数布隆过滤器,并结合多重哈希对所述待爬取URL队列中的所述第二URL链接进行联合去重。

需要说明的是,本实施例中所涉及到的各模块均为逻辑模块,在实际应用中,一个逻辑单元可以是一个物理单元,也可以是一个物理单元的一部分,还可以以多个物理单元的组合实现。此外,为了突出本发明的创新部分,本实施例中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入,但这并不表明本实施方式中不存在其它的单元。

此外,值得一提的是,本实施例中去重模块在采用链接特征的计数布隆过滤器,并结合多重哈希对所述待爬取URL队列中的所述第二URL链接进行联合去重时,具体分为对所述URL链接对应的整体特征URL链接去重和对URL链接片段去重。

而URL链接片段则是根据整体特征URL链接得到的,因而为了保证去重模块能够顺利执行上述操作,需要先确定第二URL链接与整体特征URL链接之间的对应关系。

关于确定第二URL链接与整体特征URL链接之间对应关系的方式,大致可以如下所述:

首先,对所述待爬取URL队列进行遍历,对遍历到的当前第二URL链接进行特征分析,提取所述当前第二URL链接的协议类型部分、路径部分和询问部分;

然后,根据所述协议类型部分、所述路径部分和所述询问部分,得到所述当前第二URL链接对应的整体特征URL链接;

最后,建立所述当前第二URL链接与所述整体特征URL链接之间的对应关系,并将所述对应关系更新到所述待爬取URL队列中。

相应地,在得到上述对应关系之后,所述去重模块执行的操作,具体为:

首先,对所述待爬取URL队列进行遍历,获取遍历到的当前第二URL链接对应的整体特征URL链接;

然后,采用链接特征的计数布隆过滤器对所述整体特征URL链接进行整体查重,得到所述整体特征URL链接对应的查重标志;

接着,根据所述查重标志,对所述整体特征URL链接进行特征识别,得到多个特征片段;

接着,根据预设的URL链接重组规则,对所述多个特征片段进行重组,得到N个重组URL链接片段;

接着,对N个重组URL链接片段进行多重哈希查重,得到所述当前第二URL链接对应的查重结果;

最后,根据所述查重结果,对所述待爬取URL队列中的第二URL链接进行保留或丢弃操作。

需要说明的是,在本实施例中,上述所说的N为大于等于1的整数。

此外,应当理解的是,以上给出的仅为一种确定第二URL链接与整体特征URL链接之间对应关系,以及采用链接特征的计数布隆过滤器,并结合多重哈希对所述待爬取URL队列中的所述第二URL链接进行联合去重的具体实现方式,对本发明的技术方案并不构成任何限定,在具体应用中,本领域的技术人员可以根据需要进行设置,本发明对此不做限制。

进一步地,在实际应用中,为了尽可能降低对待爬取URL队列中缓存的第二URL链接对存储空间的占用,在根据预设的URL链接重组规则,对所述多个特征片段进行重组,得到N个重组URL链接片段之后,可以先基于MD5算法,对得到的N个重组URL链接片段分别进行压缩,进而得到N个重组URL链接片段对应的字符串密文,最终将所述字符串密文替换掉对应的重组URL链接片段中的内容。

相应地,所述对N个重组URL链接片段进行多重哈希查重,得到所述当前第二URL链接对应的查重结果的操作,具体为:

首先,提取N个重组URL链接片段对应的字符串密文,从N个字符串密文中选取任意一个字符串密文进行K次哈希处理,得到K个哈希值;

然后,将K个哈希值散列到预先构建的位向量空间作为参考哈希值,并为每一个参考哈希值对应的空间可变计数器设置初始计数值;

接着,分别对剩余N-1个字符串密文进行K次哈希处理,得到每一个剩余字符串密文对应的K个哈希值;

接着,将每一个剩余字符串密文对应的K个哈希值随机散列到所述位向量空间,且与任意一个参考哈希值相邻;

接着,采用头插法在相邻的参考哈希值对应的初始计数值前为每一个新散列到所述位向量空间的哈希值插入一位预设字符;

最后,统计每一个参考哈希值对应的初始数值前预设字符的个数,根据所述预设字符的个数,确定所述当前第二URL链接对应的查重结果。

需要说明的是,在本实施例中,上述所说的K为大于等于2的整数。

此外,应当理解的是,以上给出的仅为一种获取当前第二URL链接对应的查重结果的具体实现方式,对本发明的技术方案并不构成任何限定,在具体应用中,本领域的技术人员可以根据需要进行设置,本发明对此不做限制。

此外,在实际应用中,为了进一步地降低对存储空间的占用,在对所述待爬取URL队列中的第二URL链接进行联合去重之后,还可以基于MD5算法,对去重后的所述待爬取URL队列中的每一个第二URL链接进行压缩,进而得到每一个第二URL链接对应的字符串密文;最后将所述字符串密文替换掉对应的第二URL链接中的内容,从而尽可能的压缩待爬取URL队列中的第二URL链接,降低对存储空间的占用。

通过上述描述不难看出,本实施例提供的基于网络爬虫的链接提取装置,在对待爬取URL队列中的第二URL链接进行提取操作之前,通过对待爬取URL队列中的第二URL链接进行去重操作,从而进一步减少了链接提取过程中不必要的干扰,提高网络爬虫的提取效率。

此外,本实施例通过采用链接特征的计数布隆过滤器,并结合多重哈希对所述待爬取URL队列中缓存的第二URL链接进行整体和部分的联合去重,从而尽可能的降低了计数布隆过滤器的误判率,有效改善了网络爬虫的性能,使得网络爬虫能够快速精准的获取人们所需的信息,尽可能的提升了用户体验。

此外,在去重过程中,通过基于压缩算法,如MD5算法对URL链接进行压缩,从而尽可能的降低了对存储空间的占用。

需要说明的是,以上所描述的工作流程仅仅是示意性的,并不对本发明的保护范围构成限定,在实际应用中,本领域的技术人员可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的,此处不做限制。

另外,未在本实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的链接去重方法,此处不再赘述。

此外,需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器(Read Only Memory,ROM)/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

基于网络爬虫的链接提取方法、装置、设备及存储介质专利购买费用说明

专利买卖交易资料

Q:办理专利转让的流程及所需资料

A:专利权人变更需要办理著录项目变更手续,有代理机构的,变更手续应当由代理机构办理。

1:专利变更应当使用专利局统一制作的“著录项目变更申报书”提出。

2:按规定缴纳著录项目变更手续费。

3:同时提交相关证明文件原件。

4:专利权转移的,变更后的专利权人委托新专利代理机构的,应当提交变更后的全体专利申请人签字或者盖章的委托书。

Q:专利著录项目变更费用如何缴交

A:(1)直接到国家知识产权局受理大厅收费窗口缴纳,(2)通过代办处缴纳,(3)通过邮局或者银行汇款,更多缴纳方式

Q:专利转让变更,多久能出结果

A:著录项目变更请求书递交后,一般1-2个月左右就会收到通知,国家知识产权局会下达《转让手续合格通知书》。

动态评分

0.0

没有评分数据
没有评价数据
×

打开微信,点击底部的“发现”

使用“扫一扫”即可将网页分享至朋友圈

×
复制
用户中心
我的足迹
我的收藏

您的购物车还是空的,您可以

  • 微信公众号

    微信公众号
在线留言
返回顶部