首页> 中国专利> 网页关键词出现频次检测方法及装置

网页关键词出现频次检测方法及装置

摘要

本发明公开了一种网页关键词出现频次检测方法及装置。该网页关键词出现频次检测方法包括:确定第一待检测网页关键词和第二待检测网页关键词,其中,第一待检测网页关键词属于第二待检测网页关键词;对第二待检测网页关键词发出访问请求,并获取请求结果;分别获取多个链接地址对应的多个网页的网页内容;检测在多个网页的网页内容中出现第一待检测网页关键词的网页的个数。通过本发明,解决了对网页关键词的出现频次进行检测时效率较低的问题,进而通过获取多个链接地址对应的多个网页的网页内容,并检测在多个网页的网页内容中出现第一待检测网页关键词的网页的个数,达到了提高网页关键词的出现频次的检测效率的效果。

著录项

  • 公开/公告号CN104391977A

    专利类型发明专利

  • 公开/公告日2015-03-04

    原文格式PDF

  • 申请/专利权人 北京国双科技有限公司;

    申请/专利号CN201410742890.3

  • 发明设计人 谭紫萱;杨韬;王晓群;张松;

    申请日2014-12-05

  • 分类号G06F17/30;

  • 代理机构北京康信知识产权代理有限责任公司;

  • 代理人李志刚

  • 地址 100086 北京市海淀区双榆树小区知春路76号翠宫饭店8层A间

  • 入库时间 2023-12-17 04:19:09

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-06-28

    专利权质押合同登记的生效 IPC(主分类):G06F17/30 登记号:2019990000503 登记生效日:20190531 出质人:北京国双科技有限公司 质权人:深圳黑马天下投资咨询有限公司 发明名称:网页关键词出现频次检测方法及装置 授权公告日:20180403 申请日:20141205

    专利权质押合同登记的生效、变更及注销

  • 2018-04-03

    授权

    授权

  • 2015-04-01

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20141205

    实质审查的生效

  • 2015-03-04

    公开

    公开

说明书

技术领域

本发明涉及互联网领域,具体而言,涉及一种网页关键词出现频次检测方法及装 置。

背景技术

在互联网应用中,经常需要对网络关键词的出现频次进行统计,例如,对品牌词 曝光量进行统计。品牌词曝光量的统计是以量化的形式实现定期检测和统计品牌词在 互联网的曝光情况。随着互联网的不断发展和普及,品牌词在互联网中的曝光情况越 来越能反映一个品牌在互联网中的口碑和影响力,并且已经成为品牌广告主优化品牌 策划的一个重要的参考指标。

利用搜索引擎检索品牌广告主所提供的产品或服务,进而可以统计在自然搜索结 果中品牌名称的曝光率,同时可以对比竞争对手的品牌曝光率。品牌名称在自然搜索 结果中的曝光量统计,需要在自然搜索结果中所呈现的前N页的每一个网页中统计该 网页包含的指定的品牌词的个数。

现有技术是人工利用搜索引擎手动检索品牌广告主的产品名称或者服务名称,再 人工地从检索结果中点击进入每一个网页,查看品牌名称是否出现并进行计数,直到 前N个页面都统计完毕,再手动计算曝光率。

由于自然搜索结果是基于海量互联网数据检索的结果,数据量大,变化频率高, 因此,现有的解决方案不能大面积、快速地对自然搜索结果中品牌词的出现频率进行 检测,准确性和及时性都难以保证。同时,在某些情况下需要同时统计竞争对手品牌 名称的曝光频率,这也为统计人员带来了相当大的工作量。

针对相关技术中对网页关键词的出现频次进行检测时效率较低的问题,目前尚未 提出有效的解决方案。

发明内容

本发明的主要目的在于提供一种网页关键词出现频次检测方法及装置,以解决对 网页关键词的出现频次进行检测时效率较低的问题。

为了实现上述目的,根据本发明的一个方面,提供了一种网页关键词出现频次检 测方法。

根据本发明的网页关键词出现频次检测方法包括:确定第一待检测网页关键词和 第二待检测网页关键词,其中,第一待检测网页关键词属于第二待检测网页关键词; 对第二待检测网页关键词发出访问请求,并获取请求结果,其中,请求结果包括第二 待检测网页关键词对应的多个链接地址;分别获取多个链接地址对应的多个网页的网 页内容;检测在多个网页的网页内容中出现第一待检测网页关键词的网页的个数。

进一步地,检测在多个网页的网页内容中出现第一待检测网页关键词的网页的个 数之后,该方法还包括:分别检测第一待检测网页关键词在多个网页的网页内容中出 现时网页内容的情感倾向特征,其中,情感倾向特征包括正面情感倾向特征和负面情 感倾向特征;分别统计第一待检测网页关键词在多个网页的网页内容中出现时网页内 容的情感倾向特征为正面情感倾向特征和负面情感倾向特征的次数。

进一步地,检测在多个网页的网页内容中出现第一待检测网页关键词的网页的个 数之后,该方法还包括:统计第二待检测网页关键词对应的多个链接地址的个数;根 据在多个网页的网页内容中出现第一待检测网页关键词的网页的个数和第二待检测网 页关键词对应的多个链接地址的个数计算第一待检测网页关键词的出现比率。

进一步地,检测在多个网页的网页内容中出现第一待检测网页关键词的网页的个 数之后,该方法还包括:确定第三待检测网页关键词,其中,第三待检测网页关键词 属于第二待检测网页关键词,第三待检测网页关键词和第一待检测网页关键词为不同 的网页关键词;检测在多个网页的网页内容中出现第三待检测网页关键词的网页的个 数;将在多个网页的网页内容中出现第一待检测网页关键词的网页的个数和在多个网 页的网页内容中出现第三待检测网页关键词的网页的个数进行比较,并获取比较结果。

进一步地,分别获取多个链接地址对应的多个网页的网页内容包括:利用爬虫爬 取技术分别获取多个链接地址对应的多个网页的网页内容。

进一步地,对第二待检测网页关键词发出访问请求,并获取请求结果,其中,请 求结果包括第二待检测网页关键词对应的多个链接地址包括:确定预设参考数量,其 中,预设参考数量为预先设定的获取第二待检测网页关键词对应的链接地址的数量; 对第二待检测网页关键词发出访问请求,获取请求结果,其中,请求结果包括第二待 检测网页关键词对应的多个链接地址;按照搜索热度由强到弱的顺序,从第二待检测 网页关键词对应的多个链接地址中获取数量为预设参考数量的多个链接地址。

为了实现上述目的,根据本发明的另一方面,提供了一种网页关键词出现频次检 测装置。

根据本发明的网页关键词出现频次检测装置包括:第一确定单元,用于确定第一 待检测网页关键词和第二待检测网页关键词,其中,第一待检测网页关键词属于第二 待检测网页关键词;第一获取单元,用于对第二待检测网页关键词发出访问请求,并 获取请求结果,其中,请求结果包括第二待检测网页关键词对应的多个链接地址;第 二获取单元,用于分别获取多个链接地址对应的多个网页的网页内容;第一检测单元, 用于检测在多个网页的网页内容中出现第一待检测网页关键词的网页的个数。

进一步地,该装置还包括:第二检测单元,用于分别检测第一待检测网页关键词 在多个网页的网页内容中出现时网页内容的情感倾向特征,其中,情感倾向特征包括 正面情感倾向特征和负面情感倾向特征;第一统计单元,用于分别统计第一待检测网 页关键词在多个网页的网页内容中出现时网页内容的情感倾向特征为正面情感倾向特 征和负面情感倾向特征的次数。

进一步地,该装置还包括:第二统计单元,用于统计第二待检测网页关键词对应 的多个链接地址的个数;计算单元,用于根据在多个网页的网页内容中出现第一待检 测网页关键词的网页的个数和第二待检测网页关键词对应的多个链接地址的个数计算 第一待检测网页关键词的出现比率。

进一步地,该装置还包括:第二确定单元,用于确定第三待检测网页关键词,其 中,第三待检测网页关键词属于第二待检测网页关键词,第三待检测网页关键词和第 一待检测网页关键词为不同的网页关键词;第三检测单元,用于检测在多个网页的网 页内容中出现第三待检测网页关键词的网页的个数;第三获取单元,用于将在多个网 页的网页内容中出现第一待检测网页关键词的网页的个数和在多个网页的网页内容中 出现第三待检测网页关键词的网页的个数进行比较,并获取比较结果。

通过本发明,采用包括以下步骤的方法:确定第一待检测网页关键词和第二待检 测网页关键词,其中,第一待检测网页关键词属于第二待检测网页关键词;对第二待 检测网页关键词发出访问请求,并获取请求结果,其中,请求结果包括第二待检测网 页关键词对应的多个链接地址;分别获取多个链接地址对应的多个网页的网页内容; 检测在多个网页的网页内容中出现第一待检测网页关键词的网页的个数,解决了对网 页关键词的出现频次进行检测时效率较低的问题,进而通过获取多个链接地址对应的 多个网页的网页内容,并检测在多个网页的网页内容中出现第一待检测网页关键词的 网页的个数,达到了提高网页关键词的出现频次的检测效率的效果。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实 施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1是根据本发明的网页关键词出现频次检测方法的第一实施例的示意图;

图2是根据本发明的网页关键词出现频次检测方法的第二实施例的示意图;

图3是根据本发明的网页关键词出现频次检测方法的第三实施例的示意图;

图4是根据本发明的网页关键词出现频次检测装置的第一实施例的示意图;以及

图5是根据本发明的网页关键词出现频次检测装置的第二实施例的示意图。

具体实施方式

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相 互组合。下面将参考附图并结合实施例来详细说明本发明。

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的 附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例 仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领 域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于 本申请保护的范围。

需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第 二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这 样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语 “包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含 了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步 骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的 其它步骤或单元。

根据本发明的实施例,提供了一种网页关键词出现频次检测方法。

图1是根据本发明的网页关键词出现频次检测方法的第一实施例的示意图。如图 1所示,该方法包括步骤S102至步骤S108:

步骤S102,确定第一待检测网页关键词和第二待检测网页关键词,其中,第一待 检测网页关键词属于第二待检测网页关键词。

第一待检测网页关键词属于第二待检测网页关键词是指第二待检测网页是包含第 一待检测网页关键词的,如第二待检测网页为电脑,第一待检测网页关键词为某品牌 电脑。当在网络上搜索第二待检测网页关键词时,在搜索结果中可能出现第一待检测 网页关键词的相关信息。

以品牌广告为例进行说明。第二待检测网页关键词为产品词,比如奶粉;第一待 检测网页关键词为品牌词,比如雅培。当在网络上搜索关键词“奶粉”时,在搜索页 中可能会包含关键词“雅培”。

步骤S104,对第二待检测网页关键词发出访问请求,并获取请求结果,其中,请 求结果包括第二待检测网页关键词对应的多个链接地址。

当对第二待检测网页关键词展开访问请求时,在搜索页中会出现对应该关键词的 诸多的链接,每个链接对应的网页都是与第二待检测网页关键词相关的网页信息。

对第二待检测网页关键词发出访问请求,并获取请求结果,可以通过如下步骤实 现:确定预设参考数量,其中,预设参考数量为预先设定的获取第二待检测网页关键 词对应的链接地址的数量;对第二待检测网页关键词发出访问请求,获取请求结果, 其中,请求结果包括第二待检测网页关键词对应的多个链接地址;按照搜索热度由强 到弱的顺序,从第二待检测网页关键词对应的多个链接地址中获取数量为预设参考数 量的多个链接地址。

由于在大多数情况下,对应一个网页搜索关键词的网页链接数量是巨大的,因此, 需要预先设定获取数量,以提高检测效率。同样地,也可以设定搜索关键词后显示的 搜索页面的数量为参考数量。

步骤S106,分别获取多个链接地址对应的多个网页的网页内容。

优选地,可以利用爬虫爬取技术分别获取多个链接地址对应的多个网页的网页内 容。该方式获取网页内容的效率更高、准确性更好。

步骤S108,检测在多个网页的网页内容中出现第一待检测网页关键词的网页的个 数。

由于第一网页关键词是属于第二网页关键词的,只要在网页内容中出现了一次第 一网页关键词,就可以统计一次第一网页关键词被曝光的次数。需要说明的是,只要 第一网页关键词在一个网页中出现了,不论其出现了几次,也不论其在当时的语境中 的感情色彩如何,都认为第一网页关键词得到了曝光。通过检测在多个网页的网页内 容中出现第一待检测网页关键词的网页的个数,可以获知第一网页关键词被曝光的程 度。

检测在多个网页的网页内容中出现第一待检测网页关键词的网页的个数之后,还 可以进行如下步骤:分别检测第一待检测网页关键词在多个网页的网页内容中出现时 网页内容的情感倾向特征,其中,情感倾向特征包括正面情感倾向特征和负面情感倾 向特征;分别统计第一待检测网页关键词在多个网页的网页内容中出现时网页内容的 情感倾向特征为正面情感倾向特征和负面情感倾向特征的次数。

以品牌广告为例进行说明,在检索品牌名称出现频率时,可以对其出现时的语义 进行分析,进而可以判断所曝光的品牌名称在当时语义环境中的正、负面情感倾向特 征情况,用以评判品牌名称的曝光价值。表1是根据本发明的检测网页关键词情感倾 向特征的数据存储表。

表1

检测在多个网页的网页内容中出现第一待检测网页关键词的网页的个数之后,还 可以进行如下步骤:确定第三待检测网页关键词,其中,第三待检测网页关键词属于 第二待检测网页关键词,第三待检测网页关键词和第一待检测网页关键词为不同的网 页关键词;检测在多个网页的网页内容中出现第三待检测网页关键词的网页的个数; 将在多个网页的网页内容中出现第一待检测网页关键词的网页的个数和在多个网页的 网页内容中出现第三待检测网页关键词的网页的个数进行比较,并获取比较结果。

通常情况下,网页关键词投放者也会比较关注与其具有竞争关系的其他网页关键 词的曝光情况。这里的第三待检测网页关键词即为与第一网页关键词具有竞争关系的 网页关键词。以表1为例进行说明,品牌广告主通过广告宣传的产品为雅培奶粉。在 检测雅培奶粉的曝光量的同时,其竞争对象惠氏奶粉和明一奶粉的曝光量也是品牌广 告主想要获知的数据。基于上述数据,品牌广告主可以相应的进行广告宣传策略的优 化。

该实施例由于采用了以下步骤:确定第一待检测网页关键词和第二待检测网页关 键词,其中,第一待检测网页关键词属于第二待检测网页关键词;对第二待检测网页 关键词发出访问请求,并获取请求结果,其中,请求结果包括第二待检测网页关键词 对应的多个链接地址;分别获取多个链接地址对应的多个网页的网页内容;检测在多 个网页的网页内容中出现第一待检测网页关键词的网页的个数,解决了对网页关键词 的出现频次进行检测时效率较低的问题,进而通过获取多个链接地址对应的多个网页 的网页内容,并检测在多个网页的网页内容中出现第一待检测网页关键词的网页的个 数,达到了提高网页关键词的出现频次的检测效率的效果。

图2是根据本发明的网页关键词出现频次检测方法的第二实施例的示意图,该实 施例可以作为图1所示实施例的一种优选实施方式。如图2所示,该方法包括步骤S201 至步骤S206:

步骤S201,确定第一待检测网页关键词和第二待检测网页关键词,其中,第一待 检测网页关键词属于第二待检测网页关键词。

该步骤同步骤S102,这里不再赘述。

步骤S202,对第二待检测网页关键词发出访问请求,并获取请求结果,其中,请 求结果包括第二待检测网页关键词对应的多个链接地址。

该步骤同步骤S104,这里不再赘述。

步骤S203,分别获取多个链接地址对应的多个网页的网页内容。

该步骤同步骤S106,这里不再赘述。

步骤S204,检测在多个网页的网页内容中出现第一待检测网页关键词的网页的个 数。

该步骤同步骤S108,这里不再赘述。

步骤S205,统计第二待检测网页关键词对应的多个链接地址的个数。

步骤S206,根据在多个网页的网页内容中出现第一待检测网页关键词的网页的个 数和第二待检测网页关键词对应的多个链接地址的个数计算第一待检测网页关键词的 出现比率。

优选地,第一待检测网页关键词的出现比率为在多个网页的网页内容中出现第一 待检测网页关键词的网页的个数与第二待检测网页关键词对应的多个链接地址的个数 的比值。该比值代表了第一网页关键词的曝光情况的大小,该比值越大,说明第一网 页关键词的曝光率越高;该比值越小,说明第一网页关键词的曝光率越低。通过对第 一待检测网页关键词的出现比率的研究,可以帮助网页关键词投放者对自己的投放策 略进行价值评估,从而进行关键投放策略的优化。

以品牌广告为例进行说明。表2是网页关键词出现比率(曝光率)的数据记录表。

表2

网页关键词 记录条数 雅培曝光率 惠氏曝光率 明一曝光率 奶粉 10000000 28% 10% 75%

该实施例由于采用了以下步骤:确定第一待检测网页关键词和第二待检测网页关 键词,其中,第一待检测网页关键词属于第二待检测网页关键词;对第二待检测网页 关键词发出访问请求,并获取请求结果,其中,请求结果包括第二待检测网页关键词 对应的多个链接地址;分别获取多个链接地址对应的多个网页的网页内容;检测在多 个网页的网页内容中出现第一待检测网页关键词的网页的个数;统计第二待检测网页 关键词对应的多个链接地址的个数;根据在多个网页的网页内容中出现第一待检测网 页关键词的网页的个数和第二待检测网页关键词对应的多个链接地址的个数计算第一 待检测网页关键词的出现比率,解决了网页关键词的出现比率检测效率低的问题,通 过利用在多个网页的网页内容中出现第一待检测网页关键词的网页的个数和第二待检 测网页关键词对应的多个链接地址的个数计算第一待检测网页关键词的出现比率,可 以高效、准确地获知关键词的曝光情况。

图3根据本发明的网页关键词出现频次检测方法的第三实施例的示意图。该实施 例是以品牌词的曝光量的检测为例进行说明,为图1所示实施例的一种优选实施方式。

首先对其中涉及的一些参数进行解释:

KeywordList:存储待检索的产品词列表,为外部输入的数据;

BrandList:存储产品词对应的品牌广告主的品牌名称及其要对比的竞争对手品牌 名称列表,为外部输入的数据;

ResultCount:统计产品名称在搜索引擎检索结果指定的前N页的结果数,输出数 据,以供计算曝光率使用;

URLList:记录搜索结果前N页的结果中URL地址和提取的页面关键词集合,URL 对应的网页是统计品牌词曝光的目标页面;

CountList:记录每个产品词对应的每个品牌词的曝光次数,输出数据,以供计算 曝光率使用;

N:搜索结果页的限定范围,前N页,默认一页10条记录;

S:存储搜索结果页对应的每个页面的关键词集合。

如图3所示,该方法包括步骤S301至步骤S316:

步骤S301,创建KeywordList、BrandList、N。

步骤S302,遍历KeywordList,读取一个产品词。

步骤S303,向搜索引擎发出访问请求,查询该产品词,下载查询页。

需要说明的是,执行过程中只需要下载该产品词对应的查询页的前N页,以提高 执行效率。

步骤S304,判断查询页记录数是否为0。

步骤S305,如果查询页记录数不为0,则提取查询页的URL和URL对应页面的 关键词S,存入URLList。

URLList用于记录搜索结果前N页的结果中URL地址和提取的页面关键词集合, URL对应的网页是统计品牌词曝光的目标页面,是中间数据表。表3是URLList存储 表示例。

表3

字段名称 字段标识 存储内容 存储说明 目标网页地址 URL 字符串 目标网页地址 网页关键词集合 S 字符串 从目标网页提取的文本内容集合

步骤S306,遍历BrandList,为每一个品牌词创建ExposureCount=0。

步骤S307,遍历URLList,读取一条URL和对应的S。

步骤S308,判断品牌词是否在S中出现。

步骤S309,如果品牌词在S中出现,则ExposureCount=ExposureCount+1。

步骤S310,判断URLList是否遍历结束。

步骤S311,如果URLList遍历结束,则新增一条记录到CountList,存储产品词、 品牌词、ExposureCount。

CountList用于记录每个产品词对应的每个品牌词的曝光次数,输出数据,以供计 算曝光率使用。这里,当URLList遍历结束,说明对应该产品词的查询页的页面内容 已经获取完成,并且统计出了一个品牌词的曝光次数,可以新增一条记录到CountList (该条记录是对应一个品牌词的),并可以继续进行其他品牌词曝光次数的获取。需要 说明的是,所有产品词对应的不同品牌词的曝光次数都将存储于CountList中。

CountList用于记录所有产品词对应的所有品牌词的曝光次数,在计算过程中可以 创建和更新,是本发明的核心计算输出数据表。表4是CountList数据表示例。

表4

如果URLList没有遍历结束,则继续遍历URLList,读取下一条URL和其对应的 S。

步骤S312,判断BrandList是否遍历结束。

步骤S313,如果BrandList遍历结束,则判断KeywordList是否遍历结束。

如果BrandList没有遍历结束,则遍历BrandList,为下一个品牌词创建Exposure  Count=0。

步骤S314,如果KeywordList遍历结束,则获取ResultCount。

当所有产品词包含的所有品牌词的曝光次数都统计完毕之后,需要统计每个产品 词对应的URL的个数,并存储在ResultCount中,供计算每个品牌词的曝光率使用。

步骤S315,统计CountList,计算每个品牌词的曝光率。

每个品牌词的曝光率为ExposureCount与URLList中URL个数的比值。

步骤S316,如果查询页记录数为0,则创建新增记录至CountList,将该产品词的 所有品牌词曝光数记为0。

该实施例主要采用了如下的步骤:读取产品词列表、品牌词列表以及指定的前N 页;对每个产品词,向搜索引发起查询请求,得到前N页的搜索结果;提取前N页的 搜索结果对应的URL,同时利用爬虫爬取每个URL对应网页的文本内容,并进行存 储;遍历品牌词列表,检索每个品牌词在前N页的结果网页中出现的次数,得到每个 品牌词的曝光次数,并存储到CountList中;重复以上步骤,至产品词查询完毕。通过 利用搜索引擎爬虫模拟技术,自动的向搜索引擎发起查询请求,检索指定产品名称或 者服务名称,从得到的自然搜索结果中提取指定的前N页的网页URL,再利用网站爬 虫技术,提取网页中的文本信息,从中检索是否包含指定的品牌名称,最后对检索结 果进行统计,得出品牌名称的曝光率,从而实现了对大批量的产品名称(或者服务名 称)同时进行检索,并且利用网站爬虫技术抓取网页,能够针对多个品牌名称(即品 牌广告主指定的多个竞争对手)进行曝光率的统计,这样无论对检索的产品名称(或 服务名称)而言还是对待统计的品牌名称而言,都能够批量的进行,在大大提高统计 效率的同时,准确性和实效性也得到了保证。

根据本发明的实施例,提供了一种网页关键词出现频次检测装置。需要说明的是, 本发明实施例的网页关键词出现频次检测装置可以用于执行本发明实施例所提供的网 页关键词出现频次检测方法,本发明实施例的网页关键词出现频次检测方法也可以通 过本发明实施例所提供的网页关键词出现频次检测装置来执行。

图4是根据本发明的网页关键词出现频次检测装置的第一实施例的示意图。如图 4所示,该装置包括:第一确定单元10、第一获取单元20、第二获取单元30和第一 检测单元40。

第一确定单元10,用于确定第一待检测网页关键词和第二待检测网页关键词,其 中,第一待检测网页关键词属于第二待检测网页关键词。

第一获取单元20,用于对第二待检测网页关键词发出访问请求,并获取请求结果, 其中,请求结果包括第二待检测网页关键词对应的多个链接地址。

第二获取单元30,用于分别获取多个链接地址对应的多个网页的网页内容。

第一检测单元40,用于检测在多个网页的网页内容中出现第一待检测网页关键词 的网页的个数。

可选地,该装置还可以包括:第二检测单元,用于分别检测第一待检测网页关键 词在多个网页的网页内容中出现时网页内容的情感倾向特征,其中,情感倾向特征包 括正面情感倾向特征和负面情感倾向特征;第一统计单元,用于分别统计第一待检测 网页关键词在多个网页的网页内容中出现时网页内容的情感倾向特征为正面情感倾向 特征和负面情感倾向特征的次数。

可选地,该装置还可以包括:第二确定单元,用于确定第三待检测网页关键词, 其中,第三待检测网页关键词属于第二待检测网页关键词,第三待检测网页关键词和 第一待检测网页关键词为不同的网页关键词;第三检测单元,用于检测在多个网页的 网页内容中出现第三待检测网页关键词的网页的个数;第三获取单元,用于将在多个 网页的网页内容中出现第一待检测网页关键词的网页的个数和在多个网页的网页内容 中出现第三待检测网页关键词的网页的个数进行比较,并获取比较结果。

本实施例提供的网页关键词出现频次检测装置包括:第一确定单元10、第一获取 单元20、第二获取单元30和第一检测单元40。通过该装置,解决了对网页关键词的 出现频次进行检测时效率较低的问题,进而通过第二获取单元30获取多个链接地址对 应的多个网页的网页内容,并利用第一检测单元40检测在多个网页的网页内容中出现 第一待检测网页关键词的网页的个数,达到了提高网页关键词的出现频次的检测效率 的效果。

图5是根据本发明的网页关键词出现频次检测装置的第二实施例的示意图,该实 施例可以作为图4所示实施例的一种优选实施方式。如图5所示,该装置包括:第一 确定单元10、第一获取单元20、第二获取单元30、第一检测单元40、第二统计单元 50和计算单元60。其中,第一确定单元10、第一获取单元20、第二获取单元30和第 一检测单元40与图3所示相同,这里不再赘述。

第二统计单元50,用于统计第二待检测网页关键词对应的多个链接地址的个数。

计算单元60,用于根据在多个网页的网页内容中出现第一待检测网页关键词的网 页的个数和第二待检测网页关键词对应的多个链接地址的个数计算第一待检测网页关 键词的出现比率。

本实施例提供的网页关键词出现频次检测装置包括:第一确定单元10、第一获取 单元20、第二获取单元30、第一检测单元40、第二统计单元50和计算单元60。通过 该装置,解决了网页关键词的出现比率检测效率低的问题,通过计算单元60利用在多 个网页的网页内容中出现第一待检测网页关键词的网页的个数和第二待检测网页关键 词对应的多个链接地址的个数计算第一待检测网页关键词的出现比率,可以高效、准 确地获知关键词的曝光情况。

显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用 的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所 组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以 将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模 块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明 不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技 术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的 任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号