首页> 中国专利> 一种基于贪心策略和启发式算法搜索候选类别的方法

一种基于贪心策略和启发式算法搜索候选类别的方法

摘要

本发明公开的基于贪心策略和启发式算法搜索候选类别的方法,属于互联网技术领域,用以于大规模层次分类问题中搜索出包含待分类文档真实类别的候选类别,它采用评价指标Vk对搜索出的候选类别进行量化评价,且采用贪心策略和启发式算法得出最大的评价指标Vk值,并求出具有最大Vk值的特征权重矩阵G,进而,准确地搜索出候选类别,且经验证本发明提供的基于贪心策略和启发式算法搜索候选类别的方法搜索的候选类别集合较已有方法在准确率上提高了大约7.5%。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-09-01

    授权

    授权

  • 2014-09-10

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20130906

    实质审查的生效

  • 2014-01-01

    公开

    公开

说明书

技术领域

本发明属于互联网技术领域,具体涉及一种基于贪心策略和启发式算法搜 索候选类别的方法。

背景技术

以互联网为代表的信息革命极大改变了人们的生活、生产方式,社会对网 络信息系统的依赖也日益增强。然而,互联网的自由性、开放性、迅捷性以及 低廉的成本和高额的利润同时也使其成为了有害信息发育繁殖的沃土。各种令 人不安的信息如湍急暗流隐藏在互联网信息大潮下,包括色情、邪教、赌博、 毒品、虚假新闻、宣扬暴力在内的各种有害信息充斥于互联网上。因此,对网 络和信息的安全管理与控制尤为关键。

基于互联网分类目录的网络访问控制是网络安全管理的一种重要技术手 段,通过建立全面、精确的互联网分类目录,可以实现快速、精细的网络访问 控制。互联网分类目录按照一个概念或主题类别层次将海量网页信息组织为网 络资源分类目录,以更好地搜索、访问和管理这些网络资源,例如开放目录专 案(Open Directory Project,简称ODP目录)、雅虎目录(Yahoo!Directory) 等。要自动构建网络资源目录,就需要实现对互联网上未知类别信息的分类, 这里的信息类别一般被组织为一个层次式结构,典型的是一棵树(tree)或者有 向无环图(Directed Acyclic Graph),这种类别层次一般规模巨大,其类别数 目可以达到数千、甚至数万之多。面向网页的大规模层次分类技术(large scale  hierarchical classification)就是研究如何按照这样一个规模巨大的类别层 次对网页进行准确分类,因此,大规模层次分类技术是构建互联网分类目录的 基础,是构建健康、和谐的互联网环境的重要技术手段,同时也是很多网络应 用的基础,包括绿色上网、网络信誉管理、安全过滤等。

类别层次规模巨大是大规模层次分类技术面临的一个主要挑战,大规模层 次分类问题求解方法的不同主要体现在对这一挑战性问题的处理策略上,目前 有三种处理策略:全局处理策略(overall-conquer)、分而治之的策略 (divide-and-conquer)和化繁为简的策略(reduce-and-conquer)。整体处理策 略将所有类别作为一个整体,在整个数据集上进行分类的学习,然后对待分类 文档进行分类。分而治之策略按照类别层次将一个大规模的全局分类问题分解 为一个个小规模的局部分类问题,然后分别进行分类的学习,对待分类文档进 行自上而下的分类。化繁为简的策略通过搜索类别层次中所有与待分类文档相 关的类别,然后在所有候选类别上进行分类的学习和预测,将一个大规模的分 类问题降低为一个小规模的分类问题。

采用化繁为简策略的分类方法:首先根据待分类文档搜索候选类别,然后 根据候选类别的样本训练分类器并对待分类文档进行分类,因此,这种方法又 被称为两阶段分类方法,其核心思想是通过减小分类器学习的类别数目以提高 分类准确率。两阶段方法基于这样一个假设:在一棵大规模类别层次树中,给 定一个文档,其相关类别数量远少于不相关类别。两阶段分类方法的优点是通 过候选搜索有效减小了数据规模,因此可以灵活的选择分类方法和分类器,分 类准确率比较高,因此在大规模层次分类问题中应用的较为广泛。但是这种优 点是建立在候选类别搜索正确的前提之上的,因为其中的分类依赖于候选搜索 的准确性,要确保分类正确,就应当使计算出来的候选类别集合包含待分类文 档的真实类别,因此,候选类别搜索是大规模层次分类中的一项关键技术,然 而已有的两阶段分类方法并未对候选搜索方法进行深入研究。

发明内容

针对现有技术存在的问题,本发明旨在提供一种基于贪心策略和启发式算 法搜索候选类别的方法,用以于大规模层次分类问题中搜索出包含待分类文档 真实类别的候选类别,它采用评价指标Vk对搜索出的候选类别进行量化评价, 且采用贪心策略和启发式算法得出最大的评价指标Vk值,进而,准确地搜索出 候选类别。

本发明提供的一种基于贪心策略和启发式算法搜索候选类别的方法,用以 从测试文档中搜索出候选类别,其包括以下步骤:

步骤S01、输入已知信息:提供样本集合I={d1,d2,...,dn},特征集合 F={f1,f2,...fm},类别集合L={l1,l2,...lr};

步骤S02、初始化评价指标Vk及特征权重矩阵G:采用词频向量初始化类别 的特征权重矩阵G,通过统计每个词在同一类别li所有文档中的出现次数得到该 类别的词频向量,从而,为每个类别li建立一个词频向量wi,wij为特征fj关于类 别li的权重,并对词频向量进行标准化,使得每个词频向量wi满足通 过对样本集合I进行一次遍历即可生成初始类别的特征权重矩阵 G={w1,w2,...,wi...wr}T,并计算出初始评价指标Vk值;

步骤S03、采用贪心策略和启发式算法更新评价指标Vk及特征权重矩阵G, 并求出具有最大Vk值的特征权重矩阵G,具体包括以下步骤:

S031、启发式优化解:采用步骤S02求得的初始类别的特征权重矩阵G依 次对每个样本文本d进行候选搜索测试,计算样本文本d的候选类别集合E(d), 如果即当前解不能正确搜索到样本文本d的候选类别,则按照权重更新 方法Correct-Error(c,d)更新G,通过运行Correct-Error(c,d),可以保证 c∈E(d),即通过执行该更新算法,使当前样本文本能够被正确地搜索到其候选类 别,其中,Correct-Error包括三步:(1)计算样本最大类别相关性得分 (score(d)max)和样本类别相关性得分(scorec(d))之差Δ=score(d)max-scorec(d);(2) 计算样本类别的每个特征值的并用g(Δ,tj)对样本类别 的特征向量进行更新wcj’=wcj+g(Δ,tj);(3)对更新后的向量进行标准化 其中,所述类别相关性得分采用内积或者余弦相似度计算,采用 词频向量〈t1,t2,...tm〉表示样本文本d,d的真实类别为c,d关于类别c的相似性 得分为scorec,d在所有类别L={l1,l2,...lr}中的最高的相似性得分为scoremax,Δ是二 者的分差,g(Δ,tj)是更新wcj时的增加量,ρ是调节因子且默认取值为1;

S032、迭代终止判定:在每次遍历整个样本集合I之后计算Vk,如果得到了 一个可接受的解Vk即该Vk大于或等于一常数,或者迭代次数达到设定上限值, 则迭代终止;

步骤S04、根据步骤S03得出的最大Vk值的特征权重矩阵G,计算出相应的 候选类别集合,即为要找到候选类别集合;

其中,其中,|I|为样本总数,Vk(di)可根据以下算出:对于 候选搜索算法Γ和测试文档d,由算法Γ搜索的候选类别集合为E,假设E的大 小为k,对于单标签分类问题,如果E包含d的真实类别,则Vk(d)=1,否则为0; 对于多标签分类问题,如果E中包含a个d的真实类别,则Vk(d)=a/ld,其中,ld是d的真实类别数目。

本发明提供的一种基于贪心策略和启发式算法搜索候选类别的方法,其具 有以下技术效果:

本发明提供的基于贪心策略和启发式算法搜索候选类别的方法,用以于大 规模层次分类问题中搜索出包含待分类文档真实类别的候选类别,它采用评价 指标Vk对搜索出的候选类别进行量化评价,且采用贪心策略和启发式算法得出 最大的评价指标Vk值,并求出具有最大Vk值的特征权重矩阵G,进而,准确地 搜索出候选类别,且经验证本发明提供的基于贪心策略和启发式算法搜索候选 类别的方法搜索的候选类别集合较已有方法在准确率上提高了大约7.5%。

附图说明

图1为本发明提供的基于贪心策略和启发式算法搜索候选类别的方法的流 程简图;

图2为本发明提供的基于贪心策略和启发式算法搜索候选类别的方法的应 用实施例中的测试数据的类别分布图;

图3为本发明提供的基于贪心策略和启发式算法搜索候选类别的方法的应 用实施例中的测试数据的文档分布图;

图4为本发明提供的基于贪心策略和启发式算法搜索候选类别的方法的应 用实施例中的测试结果。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案:

针对现有技术存在的问题,本发明旨在提供一种基于贪心策略和启发式算 法搜索候选类别的方法,用以于大规模层次分类问题中搜索出包含待分类文档 真实类别的候选类别,它采用评价指标Vk对搜索出的候选类别进行量化评价, 且采用贪心策略和启发式算法得出最大的评价指标Vk值,进而,准确地搜索出 候选类别。

请参阅图1,针对现有技术存在的问题,本发明旨在提供一种基于贪心策 略和启发式算法搜索候选类别的方法,用以于大规模层次分类问题中搜索出包 含待分类文档真实类别的候选类别,它采用评价指标Vk对搜索出的候选类别进 行量化评价,且采用贪心策略和启发式算法得出最大的评价指标Vk值,进而, 准确地搜索出候选类别。

本发明提供的一种基于贪心策略和启发式算法搜索候选类别的方法,用以 从测试文档中搜索出候选类别,其包括以下步骤:

步骤S01、输入已知信息:提供样本集合I={d1,d2,...,dn},特征集合 F={f1,f2,...fm},类别集合L={l1,l2,...lr};

步骤S02、初始化评价指标Vk及特征权重矩阵G:采用词频向量初始化类别 的特征权重矩阵G,通过统计每个词在同一类别li所有文档中的出现次数得到该 类别的词频向量,从而,为每个类别li建立一个词频向量wi,wij为特征fj关于类 别li的权重,并对词频向量进行标准化,使得每个词频向量wi满足通 过对样本集合I进行一次遍历即可生成初始类别的特征权重矩阵 G={w1,w2,...,wi...wr}T,并计算出初始评价指标Vk值;

步骤S03、采用贪心策略和启发式算法更新评价指标Vk及特征权重矩阵G, 并求出具有最大Vk值的特征权重矩阵G,具体包括以下步骤:

S031、启发式优化解:采用步骤S02求得的初始类别的特征权重矩阵G依 次对每个样本文本d进行候选搜索测试,计算样本文本d的候选类别集合E(d), 如果即当前解不能正确搜索到样本文本d的候选类别,则按照权重更新 方法Correct-Error(c,d)更新G,通过运行Correct-Error(c,d),可以保证 c∈E(d),即通过执行该更新算法,使当前样本文本能够被正确地搜索到其候选类 别,其中,Correct-Error包括三步:(1)计算样本最大类别相关性得分 (score(d)max)和样本类别相关性得分(scorec(d))之差Δ=score(d)max-scorec(d);(2) 计算样本类别的每个特征值的并用g(Δ,tj)对样本类别 的特征向量进行更新wcj’=wcj+g(Δ,tj);(3)对更新后的向量进行标准化 其中,所述类别相关性得分采用内积或者余弦相似度计算,采用 词频向量〈t1,t2,...tm〉表示样本文本d,d的真实类别为c,d关于类别c的相似性 得分为scorec,d在所有类别L={l1,l2,...lr}中的最高的相似性得分为scoremax,Δ是二 者的分差,g(Δ,tj)是更新wcj时的增加量,ρ是调节因子且默认取值为1;

S032、迭代终止判定:在每次遍历整个样本集合I之后计算Vk,如果得到了 一个可接受的解Vk即该Vk大于或等于一常数,或者迭代次数达到设定上限值, 则迭代终止;

步骤S04、根据步骤S03得出的最大Vk值的特征权重矩阵G,计算出相应的 候选类别集合,即为要找到候选类别集合;

其中,其中,|I|为样本总数,Vk(di)可根据以下算出:对于 候选搜索算法Γ和测试文档d,由算法Γ搜索的候选类别集合为E,假设E的大 小为k,对于单标签分类问题,如果E包含d的真实类别,则Vk(d)=1,否则为0; 对于多标签分类问题,如果E中包含a个d的真实类别,则Vk(d)=a/ld,其中,ld是d的真实类别数目。

以下为启发式算法程序化过程:

Algorithm Heuristic-Learning(I,F,L,k)

Initial weight-matrix G according I,F and L.

Compute Vk for G.

WHILE((Vk<δ)&&(iterations count<N)):

FOR each document d∈I:

FOR each category l∈L:

scorel(d)=Inner Product(d,wl).

Sort descending categories in L by score(d).

E(d)=the top-k categories.

FOR each category c∈label(d):

IF c∈E(d),THEN

Correct-Error(c,d).

Compute Vk.

END.

以下为贪心策略程序化过程:

Algorithm Correct-Error(c,d)

Δ=score(d)max-scorec(d).

FOR each fj∈F,

g(Δ,tj)=ρ*(tjΣi=1mti2*Δ).

wcj’=wcj+g(Δ,tj).

FOR each fj∈F,

wcj=wcj,Σi=1mwci,.

应用实施例

由于大规模层次分类问题目前还没有公认的测试数据集和评价标准,本实施 例根据大规模层次分类问题在实际应用中的需求以及国家对互联网内容安全监 管的需要,采用ODP简体中文网站作为实验对象,以Vk作为候选搜索算法的评 价标准,本应用实施例包括数据预处理和候选搜索方法测试比较两部分。

ODP简体中文网站目录是一个深度为6层的类别层次树,包括参考、商业、 休闲、体育、健康、计算机、新闻、家庭、社会、游戏、艺术、购物、科学13 个大类,1763个类别,整个目录包括24570个网站。我们按照ODP中的网站URL 进行爬取,然后对采集到的网页进行解析、分词和停用词过滤,最终将每个网 站表示为一个文档,测试数据的类别分布图如图2和文档分布图如图3所示。

网页文档是一种高维数据,我们所采用的数据集在数据预处理之后包含大约 20万个中文单词,因此需要进行特征降维以解决文本特征向量高维问题,本实 施例采用特征词子集选择方法以实现特征降维,且具体采用基于词频逆文档频 率值的方法,另外我们发现在实验中,当特征词数量大于3500时,通过增加特 征词数量已经难以有效提高算法的性能,因此取特征词数目为3500。

实验使用的是一台处理器为P8700,内存8G的PC机,实验时,先将数据集 随机分为10份,其中1份为测试集,其余作为训练集,然后计算Vk,如此反复 10次,以这10次的平均值作为最终结果,并与已有候选搜索方法进行测试比 较,这些方法包括词频向量方法TF(具体可参见[1])、TFIDF(具体可参见[2]和 [3])、IG&DF(具体可参见[4])、DFICF(具体可参见[5])以及HSVM(具体可参见 [6]),对于这些方法,我们分别按照相关工作中所述算法进行了实现,SVM采 用的是台湾大学林智仁教授的LibLinear(具体可参见[7])的Java版本,具体 为LibLinear类型4的多类别线性SVM分类器,为了提高算法效率,修改了算 法的语料读取接口。为了便于比较HL算法的收敛性,我们还实现了一个基本算 法SH(Simple-Heuristic algorithm),最终得到的不同候选搜索方法的测试 结果如图4的表格所示,包括V1、V10、学习时间和测试时间,参数p表示算 法的迭代次数。

由图4可知:HSVM的V1值最大,但其V10并不理想,这是因为HSVM在自 上而下的递归求解过程中,难以找到全局的top-k类别,HL算法V10值最大, 达到了0.905,相比已有方法提高了7.5%左右。显然,对于候选搜索问题,V10 相比V1更具参考价值,因为候选搜索的最终目标是根据候选类别训练分类器以 对待分类文档分类,所以应该以V10作为评价候选搜索方法好坏的主要指标。

本发明提供的一种基于贪心策略和启发式算法搜索候选类别的方法,其具 有以下技术效果:

本发明提供的基于贪心策略和启发式算法搜索候选类别的方法,用以于大 规模层次分类问题中搜索出包含待分类文档真实类别的候选类别,它采用评价 指标Vk对搜索出的候选类别进行量化评价,且采用贪心策略和启发式算法得出 最大的评价指标Vk值,并求出具有最大Vk值的特征权重矩阵G,进而,准确地 搜索出候选类别,且经验证本发明提供的基于贪心策略和启发式算法搜索候选 类别的方法搜索的候选类别集合较已有方法在准确率上提高了大约7.5%。

[1]Xue GR,Xing DK,Yang Q,et al.Deep classification in large-scale  text hierarchies//Proceedings of the31st Annual International ACM  SIGIR Conference on Research and Development in Information Retrieval. Singapore,2008:619–626

[2]Oh H,Choi Y,Myaeng S.Combining global and local information for  enhanced deep classification//Proceedings of the25th ACM SIGAPP  Symposium on Applied Computing.Sierre,Switzerland,2010:1760–1767

[3]Xing Dikan,Xue Gui-Rong,Yang Qiang,et al.Deep classifier: automatically categorizing search results into large-scale  hierarchies//Proceedings of the1st ACM International Conference on  Web Search and Data Mining.New York,USA,2008:139-148

[4]Malik H,Fradkin D,Moerchen F.Singe pass text classification by  direct feature weighting.Knowledge and Information Systems,2011,28: 79–98

[5]Guan Hu,Zhou Jingyu,Guo Minyi.A class-feature-centroid classifier  for text categorization//Proceedings of the 18th international  conference on World Wide Web.Madrid,Spain,2009:201-210

[6]Malik H.Improving hierarchical SVMs by hierarchy flattening and lazy  classification//Proceedings of the Large-Scale Hierarchical  Classification Workshop in 32nd European Conference on Information  Retrial.Milton Keynes,UK,2010:1-12

[7]Fan Ronf-En,Chang Kai-Wei,Hsieh Cho-Jui,et al.LIBLINEAR:a  library for large linear classification.Journal of Machine Learning  Research,2008,9:1871-1874

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号