法律状态公告日
法律状态信息
法律状态
2013-09-11
授权
授权
2012-01-04
实质审查的生效 IPC(主分类):G06F17/30 申请日:20100521
实质审查的生效
2011-11-23
公开
公开
技术领域
本发明涉及网页过滤技术,更具体地说,涉及一种网站评级方法和网站评 级系统。
背景技术
互联网的出现大大改变了人们的生活,巨大的信息量使得互联网日益成为 人们获取信息的最主要来源。
然而,在向人们提供有用信息的同时,非法组织也在利用互联网来传播非 法信息。更为严重的是,随着移动互联网的日渐流行,非法信息在移动互联网 上的传播也正在加速进行。尽管采取了网站过滤等一些防范措施,但这些措施 的处理效率十分有限。例如调整面对互联网每日巨大的信息增量,大量非法信 息得以绕过防范措施而进入公众信息传播渠道。
因此,需要一种网站过滤机制,可有效克服现有网站信息过滤方案之中存 在的上述缺陷。
发明内容
本发明要解决的技术问题在于,针对现有网站过滤机制效率不高导致大量 非法信息得以绕过防范措施而进入公众信息传播渠道的缺陷,提供一种网站评 级方法和网站评级系统。
本发明解决其技术问题所采用的技术方案是:
一种网页评级方法,用于对网页内容进行评级,包括:
评分步骤,包括:
读取至少一个关键词;
爬取包含读取的该至少一个关键词的至少一个网页;
对于爬取的每一网页:
基于预先设置的评级模型来计算该网页的评分;
在判定评级表中不包含该网页时,将该网页的地址及评分写入评 级表中;
排序步骤,包括:
基于评分定期对评级表中的网页进行排序,并输出排序结果。
在本发明提供的网页评级方法中,对于爬取的每一网页,在算得其评分之 后,所述评分步骤进一步包括,在判定评级表中包含该网页时,基于算得的评 分对评级表中该网页的评分进行更新。
在本发明提供的网页评级方法中,在对评级表中的网页进行排序之后,所 述排序步骤还包括,基于评分对排序后的网页进行归类。
在本发明提供的网页评级方法中,所述评级模型是基于所述至少一个关键 词的关键词数量、针对每一关键词预先设置的权重以及所述至少一个关键词在 待评网页中的出现总次数来构建的。
在本发明提供的网页评级方法中,所述评级模型为:
其中:
其中,q为评分步骤中读取的关键词的数量,x为爬取的至少一个网页中的一 个网页x,score(x)为网页x的评分,coord(q)为q个关键词中在网页x中出 现的关键词的数量,frequency(i)为q个关键词中第i个关键词在网页x中的出 现次数;numpage为爬取的网页的数量,weight(q)为q个关键词组合后的权重, weight(x)为网页x在爬取的网页中的权重,weight(f)为网页x的第f个部分在网 页x中的权重,其中,网页x共包含d个部分,numofterm(f为第i个关键词在 网页x中的第f个部分中出现的次数。
一种网页评级系统,用于对网页内容进行评级,包括:
评分模块,用于:
读取至少一个关键词;
爬取包含读取的该至少一个关键词的至少一个网页;
对于爬取的每一网页:
基于预先设置的评级模型来计算该网页的评分;
在判定评级表中不包含该网页时,将该网页的地址及评分写入评 级表中;
排序模块,用于:
基于评分定期对评级表中的网页进行排序,并输出排序结果。
在本发明提供的网页评级方法中,对于爬取的每一网页,在算得其评分之 后,所述评分模块进一步用于,在判定评级表中包含该网页时,基于算得的评 分对评级表中该网页的评分进行更新。
在本发明提供的网页评级方法中,在对评级表中的网页进行排序之后,所 述排序模块还用于,基于评分对排序后的网页进行归类。
在本发明提供的网页评级方法中,所述评级模型是基于所述至少一个关键 词的关键词数量、针对每一关键词预先设置的权重以及所述至少一个关键词在 待评网页中的出现总次数来构建的。
在本发明提供的网页评级方法中,所述评级模型为:
其中:
其中,q为评分步骤中读取的关键词的数量,x为爬取的至少一个网页中的一 个网页x,score(x)为网页x的评分,coord(q)为q个关键词中在网页x中出 现的关键词的数量,frequency(i)为q个关键词中第i个关键词在网页x中的出 现次数;numpage为爬取的网页的数量,weight(q)为q个关键词组合后的权重, weight(x)为网页x在爬取的网页中的权重,weight(f)为网页x的第f个部分在网 页x中的权重,其中,网页x共包含d个部分,numofterm(f)为第i个关键词在 网页x中的第f个部分中出现的次数。
实施本发明的技术方案,具有以下有益效果:本发明提供的技术方案通过 读取关键词列表中的多个关键词来爬取包含这些关键词的网页。对于爬取的每 一网页,本发明提供的技术方案基于预先设置的评级模型来计算该网页的评 分,然后基于评分对爬取的网页进行排序。基于以上排序结果,便可基于预设 的过滤标准来自动判定哪些网页属于非法网页。此外,在排序之后,本发明提 供的技术方案还可进一步基于评分来对网页进行分类,从而便于工作人员基于 归类来手动认定非法网页。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是依据本发明一较佳实施例的网页评级方法的示范性流程图;
图2是依据本发明一较佳实施例的网页评级系统的逻辑结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实 施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅 仅用以解释本发明,并不用于限定本发明。
本发明提供了一种网页评级方法和网页评级系统,通过读取关键词列表中 的多个关键词来爬取包含这些关键词的网页。对于爬取的每一网页,本发明提 供的技术方案基于预先设置的评级模型来计算该网页的评分,然后基于评分对 爬取的网页进行排序。基于以上排序结果,便可基于预设的过滤标准来自动判 定哪些网页属于非法网页。此外,在排序之后,本发明提供的技术方案还可进 一步基于评分来对网页进行分类,从而便于工作人员基于归类来手动认定非法 网页。下面就结合附图和具体实施例来对本发明提供的技术方案进行详细描 述。
图1是依据本发明一较佳实施例的网页评级方法100的示范性流程图。本 发明提供的网页评级方法100用于对网页内容进行评级,以协助审查在网页内 容之中是否包含非法信息。具体说来,本发明提供的网页评级方法100基于一 个或多个关键字来对网页内容进行搜索,以确定网页中包含上述关键字的情 况,例如但不限于包含关键字的种类数量,以及各关键字出现的次数等等。基 于上述搜索结果,本发明提供的网页评级方法100对网页进行评分,以指示该 网页所包含内容的合法/违法程度。
如图1所示,方法100开始于步骤102。
随后,在下一步骤104,读取至少一个关键词。在具体实现过程中,可从 预先设置的包含多个关键词的关键词列表中读取这些关键词。这些关键词是已 经认定的极有可能涉及非法信息的敏感词。
随后,在下一步骤106,爬取包含读取的该至少一个关键词的至少一个网 页。在具体实现过程中,基于关键词来爬取包含该关键词的网页的相关技术已 经在现有技术之中做了清楚的描述,因此此处不再赘述。
随后,在下一步骤108,对于爬取的每一网页,基于预先设置的评级模型 来计算该网页的评分。
在具体实现过程中,上述评级模型是基于所述至少一个关键词的关键词数 量、针对每一关键词预先设置的权重以及所述至少一个关键词在待评网页中的 出现总次数来构建的。
具体来说,可采用下列公式作为评级模型来计算网页的评分:
其中:
在上述公式中,q为评分步骤中读取的关键词的数量,x为爬取的至少一个网 页中的一个网页x,score(x)为网页x的评分,coord(q)为q个关键词中在网 页x中出现的关键词的数量(在具体实现过程中,爬取的网页不一定包含全部 q个关键词,也可能仅包含q个关键词中的一部分关键词),frequency(i)为q 个关键词中第i个关键词在网页x中的出现次数;numpage为爬取的网页的数 量,weight(q)为q个关键词组合后的权重(在具体实现过程中,除了为每个关 键词设置权重外,还可将读取的q个关键词作为一个整体,为其设置一个权重, 例如该权重可以是q个关键词中所有关键词权重的和或者乘积),weight(x)为 网页x在爬取的网页中的权重(可预先设置网页x的权重),weight(f)为网页x 的第f个部分在网页x(网页x共包含d个部分)中的权重(例如网页的标题 部分和正文部分分别对应不同的权重),numofterm(f)为第i个关键词在网页x 中的第f个部分中出现的次数。
随后,在下一步骤110,对于爬取的每一网页,判断该网页是否包含在评 级表中,若是,则转到步骤112,否则转到步骤114。
如上文所述,若在步骤110,判定该网页已经包含在评级表中,则转到步 骤112,基于算得的评分对评级表中该网页的评分进行更新。随后,方法100 转到步骤116。
如上文所述,若在步骤110,判定该网页尚未包含在评级表中,则转到步 骤114,将该网页的地址及评分写入评级表中。随后,方法100转到步骤116。
随后,在下一步骤116,基于评分定期对评级表中的网页进行排序,并输 出排序结果。作为可选的,在对评级表中的网页进行排序之后,步骤116还可 包括基于评分对排序后的网页进行归类,即基于网页的评分将其划归到不同的 类别中。例如,如30分以下为D级网站,30-49分属于C级网站,50-79 分属于B级网站,80-100分属于A级网站。
经过排序,便可基于以上排序结果,基于预设的过滤标准来自动判定哪些 网页属于非法网页。例如可将过滤标准设置为评分在预设值之下的为非法网 页。
此外,在将网页进行归类之后,还可输出归类结果,以便工作人员根据归 类情况来手动查找非法网页。
最后,方法100结束于步骤118。
在具体实现过程中,步骤102-114可称为评分步骤,步骤116可称为排 序步骤。
本发明还提供了一种网页评级系统,下面就结合图2对其进行详细的描 述。
图2是依据本发明一较佳实施例的网页评级系统200的逻辑结构示意图。 本发明提供的网页评级系统200用于对网页内容进行评级,以协助审查在网页 内容之中是否包含非法信息。具体说来,本发明提供的网页评级系统200基于 一个或多个关键字来对网页内容进行搜索,以确定网页中包含上述关键字的情 况,例如但不限于包含关键字的种类数量,以及各关键字出现的次数等等。基 于上述搜索结果,本发明提供的网页评级系统200对网页进行评分,以指示该 网页所包含内容的合法/违法程度。
如图2所示,网站评级系统200包括评分模块202和排序模块204。
评分模块202用于读取至少一个关键词。
在具体实现过程中,可从预先设置的包含多个关键词的关键词列表中读取 这些关键词。这些关键词是已经认定的极有可能涉及非法信息的敏感词。
评分模块202还用于爬取包含读取的该至少一个关键词的至少一个网页。 在具体实现过程中,基于关键词来爬取包含该关键词的网页的相关技术已经在 现有技术之中做了清楚的描述,因此此处不再赘述。此外,评分模块202还用 于基于预先设置的评级模型来计算该网页的评分。
此外,评分模块202还用于对于爬取的每一网页,基于预先设置的评级模 型来计算该网页的评分。
在具体实现过程中,上述评级模型是基于所述至少一个关键词的关键词数 量、针对每一关键词预先设置的权重以及所述至少一个关键词在待评网页中的 出现总次数来构建的。
具体来说,可采用下列公式作为评级模型来计算网页的评分:
其中:
在上述公式中,q为评分步骤中读取的关键词的数量,x为爬取的至少一 个网页中的一个网页x,score(x)为网页x的评分,coord(q)为q个关键词中 在网页x中出现的关键词的数量(在具体实现过程中,爬取的网页不一定包含 全部q个关键词,也可能仅包含q个关键词中的一部分关键词),frequency(i) 为q个关键词中第i个关键词在网页x中的出现次数;numpage为爬取的网页 的数量,weight(q)为q个关键词组合后的权重(在具体实现过程中,除了为每 个关键词设置权重外,还可将读取的q个关键词作为一个整体,为其设置一个 权重,例如该权重可以是q个关键词中所有关键词权重的和或者乘积), weight(x)为网页x在爬取的网页中的权重(可预先设置网页x的权重),weight(f) 为网页x的第f个部分在网页x(网页x共包含d个部分)中的权重(例如网 页的标题部分和正文部分分别对应不同的权重),numofterm(f)为第i个关键词 在网页x中的第f个部分中出现的次数。
对于爬取的每一网页,评分模块202还用于判断该网页是否包含在评级表 中,若是,则基于算得的评分对评级表中该网页的评分进行更新;否则将该网 页的地址及评分写入评级表中。
排序模块204,用于基于评分定期对评级表中的网页进行排序,并输出排 序结果。作为可选的,在对评级表中的网页进行排序之后,排序模块204还可 用于基于评分对排序后的网页进行归类,即基于网页的评分将其划归到不同的 类别中。例如,如30分以下为D级网站,30-49分属于C级网站,50-79 分属于B级网站,80-100分属于A级网站。
经过排序,便可基于以上排序结果,基于预设的过滤标准来自动判定哪些 网页属于非法网页。例如可将过滤标准设置为评分在预设值之下的为非法网 页。
此外,在将网页进行归类之后,还可输出归类结果,以便工作人员根据归 类情况来手动查找非法网页。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发 明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明 的保护范围之内。
机译: 机器学习方法相对于其对等网络的网页性能评级方法和系统
机译: 基于网页浏览的评级方法
机译: 通信系统的动态评级方法及一种