首页> 中国专利> 一种对互联网上的同名人物信息进行分类的方法及装置

一种对互联网上的同名人物信息进行分类的方法及装置

摘要

本发明实施例公开了一种对互联网上的同名人物信息进行分类的方法及装置,所述方法包括:针对输入的人物名称信息,检索包括所述人物名称信息的相关网页;分别抽取所述相关网页的人物属性特征和网页主题特征;利用上下位词典和/或同义词词典分别对所述人物属性特征和网页主题特征进行泛化;按照泛化后的人物属性特征获取所述相关网页的初始关系结果,并按照泛化后的网页主题特征获取所述相关网页的初始聚类结果;融合所述初始关系结果和所述初始聚类结果,以得到所述相关网页的最终分类结果。通过本发明实施例,能够更为精确和准确地对包括同样的人物名称的不同的相关网页进行聚类,从而得到更为准确的实际人物的分类结果。

著录项

  • 公开/公告号CN102831128A

    专利类型发明专利

  • 公开/公告日2012-12-19

    原文格式PDF

  • 申请/专利权人 富士通株式会社;

    申请/专利号CN201110171903.2

  • 申请日2011-06-15

  • 分类号G06F17/30;

  • 代理机构北京集佳知识产权代理有限公司;

  • 代理人杨林森

  • 地址 日本神奈川县

  • 入库时间 2023-12-18 07:46:04

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-05-31

    未缴年费专利权终止 IPC(主分类):G06F17/30 授权公告日:20150325 终止日期:20180615 申请日:20110615

    专利权的终止

  • 2015-03-25

    授权

    授权

  • 2013-02-06

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20110615

    实质审查的生效

  • 2012-12-19

    公开

    公开

说明书

技术领域

本发明一般地涉及互联网数据处理技术领域,尤其是一种对互联网 上的同名人物信息进行分类的方法及装置。

背景技术

随着互联网的发展,越来越多的人物都采用网络进行例如通信或者商 业洽谈等,因此互联网上的人物信息资源极大丰富。但是因为人物名称在 实际应用中存在重名现象,所以互联网上的重名现象也越来越严重。因此, 在互联网上采用何种数据处理方法对这些同名的人物进行区分就变的非 常重要。

目前现有技术中,人物名称信息分类的方案都是采用基于词的网页 聚类的方法,即是将包含相同人物名称的相似网页进行聚类。然而,因为 同一个人物可能涉及到不同的事件,而且自然语言的表达方式多样且同义 词较多,导致现有技术如果单单从用词来区分人物名称,就很难将不同人 物的网页内容区别开来,所以本来属于同一个人物的网页也很难聚为一 类。

进一步的,如果对于人物名称信息的区别不够准确,就会使得需要获 取准确的人物名称信息的人物不得不重复提交查询请求,这将会导致互联 网服务器对于人物重复提交的请求需要不断地响应,从而也增加了互联网 服务器的数据处理负担,降低了互联网服务器的性能。

发明内容

有鉴于此,本发明实施例提供了一种对互联网上的同名人物信息进 行分类的方法及装置,能够比现有技术更为准确的区别同名的人物, 进一步的,能够减轻互联网服务器的处理负担,提升互联网服务器的性 能。

根据本发明实施例的一个方面,提供一种对互联网上的同名人物信 息进行分类的方法,包括:针对输入的人物名称信息,检索包括所述 人物名称信息的相关网页;分别抽取所述相关网页的人物属性特征和 网页主题特征;利用上下位词典和/或同义词词典分别对所述人物属性 特征和网页主题特征进行泛化;按照泛化后的人物属性特征获取所述 相关网页的初始关系结果,并按照泛化后的网页主题特征获取所述相 关网页的初始聚类结果;融合所述初始关系结果和所述初始聚类结果, 以得到所述相关网页的最终分类结果。

根据本发明实施例的另一个方面,提供一种对互联网上的同名人物 信息进行分类的装置,包括:检索模块,用于针对输入的人物名称信 息,检索包括所述人物名称信息的相关网页;抽取模块,用于分别抽 取所述相关网页的人物属性特征和网页主题特征;泛化模块,用于利 用上下位词典和/或同义词词典分别对所述人物属性特征和网页主题特 征进行泛化;关系挖掘模块,用于按照泛化后的人物属性特征获取所 述相关网页的初始关系结果,并按照泛化后的网页主题特征获取初始 聚类结果;结果融合模块,用于融合所述初始关系结果和所述初始聚 类结果,以得到所述相关网页的最终分类结果。

另外,根据本发明的另一方面,还提供了一种存储介质。所述存储介 质包括机器可读的程序代码,当在信息处理设备上执行所述程序代码时, 所述程序代码使得所述信息处理设备执行根据本发明的上述一种对互联 网上的同名人物信息进行分类的方法。

此外,根据本发明的再一方面,还提供了一种程序产品。所述程序产 品包括机器可执行的指令,当在信息处理设备上执行所述指令时,所述指 令使得所述信息处理设备执行根据本发明的上述一种对互联网上的同名 人物信息进行分类的方法。

根据本发明实施例的上述一种方法,通过同义词词典和上下位词典的 引入,可以比现有技术更为准确的区别互联网上同名的不同人物,使得 对于同名人物的区分效率和精确度大大提升;进一步的,还能够减轻 互联网服务器的处理负担,提升互联网服务器的性能。

在下面的说明书部分中给出本发明实施例的其他方面,其中,详细说 明用于充分地公开本发明实施例的优选实施例,而不对其施加限定。

附图说明

下面结合具体的实施例,并参照附图,对本发明实施例的上述和其它 目的和优点做进一步的描述。在附图中,相同的或对应的技术特征或部件 将采用相同或对应的附图标记来表示。

图1是示出作为本发明实施例提供的第一种方法的流程图;

图2是示出作为第一种方法的步骤S102中抽取人物属性特征的流程 图;

图3是示出作为第一种方法的步骤S102中抽取网页主题特征的流程 图;

图4是示出作为第一种方法的步骤S103中对人物属性特征进行泛化 的流程图;

图5是示出作为第一种方法的步骤S103中对网页主题特征进行泛化 的流程图;

图6是示出作为第一种方法的步骤S104中按照泛化后的网页主题特 征获取初始聚类结果的流程图;

图7是示出作为第一种方法的步骤S105中一种情况的流程图;

图8是示出作为第一种方法的步骤S105中另一种情况的流程图;

图9是示出作为本发明实施例提供的另一种方法的流程图;

图10是示出作为另一种方法中获取到的初始关系结果的示意图;

图11是示出作为另一种方法中利用泛化后的网页主题特征的且调 整了类别数量的初始聚类结果的示意图;

图12为将图10所示的初始关系结果和图11所示的调整了类别数 量的初始聚类结果进行融合之后的最终分类结果的示意图;

图13是示出作为本发明实施例提供的第一种装置的示意图;

图14是示出作为第一种装置中抽取模块1302的一种示意图;

图15是示出作为第一种装置中抽取模块1302的另一种示意图;

图16是示出作为第一种装置中泛化模块1303的一种示意图;

图17是示出作为第一种装置中泛化模块1303的另一种示意图;

图18是示出作为第一种装置中结果融合模块1305的一种示意图;

图19是示出作为本发明实施例提供的另一种装置的示意图;

图20是示出作为本发明的实施例中所采用的信息处理设备的个人计 算机的示例性结构的框图。

具体实施方式

下面参照附图来说明本发明的实施例。

本发明实施例针对现有技术的问题,提供了第一种对互联网上的同 名人物信息进行分类的方法,参见图1,具体可以包括:

S101:针对输入的人物名称信息,检索包括所述人物名称信息的相 关网页。

在本实施例中,在通过浏览器输入人物名称信息的情况下,需要 以所述人物名称信息作为查询关键词通过搜索引擎进行检索,从而得 到包含所述人物名称信息的相关网页。其中,搜索引擎的具体实现不 影响本发明实施例的实现,例如:输入的人物名称如果为“李想”,将 会得到大量包含“李想”这个名字的网页。

需要说明的是,因为这些网页中提及的“李想”可能并非实际中 的同一个人,而是对应着若干个不同的人,例如泡泡网的首席执行官 “李想”,天津人民广播电台的主持人“李想”,以及岑溪市计委系统 党委副书记“李想”,等等;所以在本发明实施例中提供了一种人物名 称的分类方法,用于更准确及精确的对上述相关网页进行分类。

S102:分别抽取所述相关网页的人物属性特征和网页主题特征。

在得到包括人物名称的相关网页之后,需要分别抽取相关网页中 与人物名称相关的人物属性特征,以及与相关网页本身内容相关的网 页主题特征。

参考图2所示,其中所述的抽取所述相关网页的人物属性特征的 步骤,具体可以包括:

S201:分析所述相关网页的正文以得到所述相关网页中的相关词 语,其中,所述分析包括:分句、分词、词性标注和/或命名实体识别。

在抽取所述相关网页的人物属性特征的过程中,首先需要对获得 的网页正文进行分句、分词、词性标注和/或命名实体识别等浅层分析。 其中,分句、分词、词形标注和/或命名实体识别均可采用现有技术中 的工具实现,而其中的命名实体识别,即是识别出相关网页中的例如 人物名称(即是人名)、机构名称和地名等实体。

为了方便本领域技术人员更好的理解本步骤,下面举出一个人物 属性特征抽取的具体例子。例如,检索得到的相关网页原文包括如下 内容:“李想是80后的典型代表,泡泡网(北京泡泡信息技术有限公 司)首席执行官。他的泡泡网是一家从事电脑硬件、个人和办公数码 产品的信息服务的网站。”

那么对上述相关网页原文经过分词和词性标注可以得到如下结 果:“李想/nr是/v80后/n的/p典型/a代表/n,/pu泡泡网/n(/pu 北京/n泡泡/n信息/n技术/n有限/n公司/n)/pu首席/a执行官/n。 他/pr的/p泡泡网/n是/v一/nu家/qu从事/v电脑/n硬件/n、/pu 个人/v和/pr办公/n数码/n产品/n的/p信息/n服务/n的/p网站 /n。/pu”。

再对上述分词和词性标注结果进行命名实体识别,可以得到如下 内容:“李想/nr是/v 80后/n的/p典型/a代表/n,/pu泡泡网/n(/pu 北京/n 泡泡/n信息/n技术/n有限/n公司/n)/pu首席/a执行官/n。 /pu他/pr的/p泡泡网/n是/v一/nu家/qu从事/v电脑/n硬件/n、 /pu个人/v和/pr办公/n数码/n产品/n的/p信息/n服务/n的/p 网站/n。/pu”。

其中,“李想”表示人名,“北京”表示地名,“泡泡网”和“泡泡/n信息/n技术/n有限/n公司/”表示机构名称,而“首席/a执行官”表示职业或职位。

S202:获取所述相关词语中与人物名称信息相关的属性关键词, 所述属性关键词包括下述各项中的一项或多项:职称、单位、住址、 特长和专业。

而得到相关词语之后,需要从其中获取到与人物名称相关的属性 关键词,该属性关键词反映人物属性,可以包括人物的职称、单位、 住址、特长和/或专业等关键词,例如,可以预先选定人物的职称和单 位作为人物属性。

S203:在所述属性关键词中选取与人物名称信息的出现位置的距 离小于预设阈值的属性关键词,作为与相关网页对应的人物属性特征 集。

根据预先选取的人物属性,可以采用人物名称就近匹配原则抽取 与人物名称距离最近的职称名称和单位名称。那么基于上述属性关键 词以及人物名称“李想”,在上述例子中可以抽取出如下的人物名称属 性为:“职位:首席执行官;工作单位:泡泡网”。

与获取人物属性特征不同的是,网页主题特征用来反映对于一个 相关网页的主题,抽取网页主题特征的目的是计算网页中每个相关词 语对于本网页的表征程度,从而可以抽取出一个相关词语向量来表示 此网页。参考图3所示,所述抽取所述相关网页的网页主题特征的步 骤,具体可以包括:

S301:分析所述相关网页的正文以得到所述相关网页中的相关词 语,其中,所述分析包括:进行分句、分词、词性标注和/或命名实体 识别。

本步骤的具体实现方式可以与步骤S201相同,在此不再赘述。

S302:分别对各个相关网页的所述相关词语进行加权计算以获取 各个相关词语的权重值。

在得到了相关词语之后,可以再对各个相关网页中的词语进行加 权计算,得到权重值高的词语作为能够表征主题的词语。可以采用 TF-IDF(Term Frequency-Inverse Document Frequency,词频-倒排网 页频率)方法来计算权重值。下面简单介绍一下TF-IDF的原理,方便 本领域技术人员在实际应用中的具体实施。

TF-IDF是一种统计方法,用以评估一个字或词对于一个文件集或 一个语料库中的其中一份文件的重要程度。字或词的重要性随着它在 文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频 率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件 与人物查询之间相关程度的度量或评级。TF-DF的主要思想是:如果 某个词或短语在一篇文章中出现的频率(TF)高,并且在其他文章中 很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来 分类。TF-IDF实际上可以理解为TF*IDF,TF表示词条在网页中出现 的频率,而对于IDF来讲,如果包含某个词条t的网页越少,则IDF 越大,因为说明该词条t具有很好的类别区分能力。

TF的计算方式可以为:一个词语出现的次数除以该文件的总词语 数。例如,一篇文件的总词语数是100个,而词语“网站”出现了3次, 那么“网站”一词在该文件中的TF就是0.03(计算方式为:3/100)。而 计算文件频率(DF)的方法可以是:测定在网页集合中总共有多少份 文件出现过“网站”一词,然后除以文件集里包含的文件总数。所以, 如果“网站”一词在10份文件出现过,而网页集合中的文件总数是10000 份的话,其网页频率就是0.001(计算方式为:10/10000)。最后,TF-IDF 的值就可以由计算得到的词频除以网页频率而得到。以上面的例子来 说,“网站”一词在该文件集的TF-IDF分数会是30(计算方式为: 0.03/0.001)。

S303:针对各个相关网页,选取权重值高于预设阈值的相关词语作 为所述相关网页的网页主题特征向量。

在得到各个相关词语的权重值之后,就选取高于预设阈值的相关 词语作为能够表征这个相关网页的网页主题特征向量。仍以上述相关 网页原文的内容为例,经过主题特征抽取,抽取出来的网页特征向量 就可以为如下内容:“<李想/50是/0.180后/10的/0.01典型/1代表/2 泡泡网/40北京/20泡泡/30信息/15技术/7有限/5公司/4首席/20 执行官/30他/0.6一/1家/2从事/4电脑/8硬件/8个人/4和/0.7办 公/7数码/8产品/4服务/12网站/30>”。其中,每个相关词语后面的数 字是它对应的权重值。例如,李想这个相关词语的权重值为50。

S103:利用上下位词典和/或同义词词典分别对所述人物属性特征 和网页主题特征进行泛化。

在本发明实施例中,抽取出人物属性特征和网页主题特征之后, 还需要利用上下位词典和同义词词典,对于抽取出的人物属性特征和 网页主题特征进行泛化扩展。例如,将相关词语<任教>可以泛化为< 教授,就职,教师>,而相关词语<北大>可以泛化为<北京大学,PKU>。

其中的同义词词典可以例如:《同义词词林》、《Hownet》等,而从 《Hownet》中我们可以发现例如“首席执行官”和“CEO”具有相同 的意思,因此,“首席执行官”和“CEO”就是同义词。而上下位词则 可以从现有的较为常见的综合词典如《中文概念词典》(参考文献:于 江生,俞士汶,中文概念词典的结构,中文信息学报.2002,16(4))得到,例 如:高管-首席执行官,以及北京-朝阳区,等等。

参考图4所示,所述利用上下位词典和/或同义词词典对所述人物 属性特征进行泛化的步骤,具体可以包括:

S401:从所述上下位词典和/或同义词词典中获取所述人物属性特 征集中属性关键词的上位词和/或同义词。

在利用上下位词典和/或同义词词典对所述人物属性特征进行泛化 的过程中,需要从下位词典中获取人物属性特征集中属性关键词的上 位词。需要说明的是,在利用上下位词典进行泛化时,因为上位词的 数量要远小于下位词的数量,因此只需要考虑相关的上位词即可。

S402:依据所述属性关键词的上位词和/或同义词扩充所述相关网 页的人物属性特征。

将从上下位词典中获取到的上位词,以及从同义词词典中获取到 的同义词,全部加入原始的人物属性特征中,得到泛化后的人物属性 特征。例如,步骤S203抽取得到的人物属性特征经过泛化之后的结果 为:“职位:首席执行官,CEO,高管;工作单位:泡泡网”。

参考图5所示,所述利用上下位词典和/或同义词词典对所述网页 主题特征进行泛化的步骤,具体可以包括:

S501:从所述上下位词典和/或所述同义词词典中获取所述网页主 题特征向量中相关词语的上位词和/或同义词。

S502:依据所述网页主题特征向量中相关词语的上位词和/或同义 词扩充所述相关网页的网页主题特征。

经过同义词词典和上下位词典的泛化,原始的相关词语和泛化后 的相关词条的对应关系的示例可以如下所示:北京-首都,信息-IT,首 席执行官-CEO、高管,电脑-计算机,个人-私人,数码-电子。

而步骤S303中抽取的网页主题特征经过泛化之后,其结果可以如 下内容所示:“<李想/50是/0.180后/10的/0.01典型/1代表/2泡泡网 /40北京/20泡泡/30信息/15技术/7有限/5公司/4首席/20执行官 /30他/0.6一/1家/2从事/4电脑/8硬件/8个人/4和/0.7办公/7数 码/8产品/4服务/12网站/30首都/10IT/10CEO/15高管/1.5计算机 /4私人/2电子/1>”。

S104:按照泛化后的人物属性特征获取所述相关网页的初始关系 结果,并按照泛化后的网页主题特征获取所述相关网页的初始聚类结 果。

当对人物属性特征和网页主题特征进行泛化之后,可以按照泛化 后的人物属性特征确定各个相关网页的直接关系,以及按照泛化后的 网页主题特征对所述相关网页进行聚类。

其中,所述按照泛化后的人物属性特征获取所述相关网页的初始 关系结果的实现方式,具体可以为:依据扩充后的不同的相关网页之 间人物属性特征集的关系,确定不同的相关网页之间的初始关系;所 述初始关系表示不同的相关网页是否属于实际中同一个人物。在确定 初始关系的过程中可以采用不同的判定规则,其中一种可能的判定规 则例如:如果两个相关网页的人物属性特征中具有相同或者有一定上 下位关系的工作单位,则这两个相关网页表示同一个人物的概率较高; 或者,如果两个相关网页的人物属性特征中包括在同一个单位具有相 同或有一定上下位关系的职业或特长的属性关键词,则这两个相关网 页是同一个人物的概率较高。类似地,本领域技术人员可以根据实际 需求对判定规则进行适应性调整。

例如,相关网页A泛化后的人物属性特征为:“职位:首席执行官、 CEO、高管;工作单位:泡泡网”,而网页B泛化后的人物属性特征为: “职位:高管、创始人,工作单位:泡泡网”。在上述两个人物属性特 征中,工作单位相同,而且职位有交集,则可以确定网页A和网页B 中描述的“李想”指的是同一个人物。

在步骤S104中,所述按照泛化后的网页主题特征获取初始聚类结 果的实现方式,参考图6所示,可以包括:

S601:依据扩充后的相关网页的网页主题特征向量,采用层次凝 聚聚类算法对所述相关网页进行分类。

在对泛化后的网页主题特征进行聚类时,可以采用传统的聚类方 法对各个相关网页的相似程度进行衡量。例如,采用余弦相似度算法 计算网页主题特征之间的相似度,并采用层次凝聚聚类算法(HAC) (参考文献:N.Jardine and C.J.van Rijsbergen.The use of hierarchic  clustering in information retrieval.Information Storage and Retrieval, 7:217-240,1971)来对所述相关网页进行聚类。

S602:将层次凝聚聚类算法的分类结果作为初始聚类结果。

将所述层次凝聚聚类算法的分类结果作为初始的聚类结果。

S105:融合所述初始关系结果和所述初始聚类结果,以得到所述 相关网页的最终分类结果。

需要说明的是,根据人物属性特征确定的初始关系因为没有考虑 网页主题特征所以可能不够精确,而根据网页主题特征进行分类的相 关网页的初始聚类结果也可能不够准确,所以通过将所述初始关系结 果和所述初始聚类结果进行合理的融合,从而可以得到更为准确和精 确的相关网页的最终分类结果。

可以理解的是,因为根据人物属性特征确定的初始关系是基于人 物属性执行的结果,所以初始关系在某种程度上更为符合实际情况。 因此,在实际应用中,可以参考着初始关系结果来调整所述初始聚类 结果。

在实际应用中,所述融合所述初始关系结果和所述初始聚类结果 的步骤,存在两种情况,第一种情况参考图7所示,具体可以包括:

S701:在所述初始关系表示不同的相关网页属于实际中同一个人 物的情况下,判断所述属于实际中同一个人物的不同的相关网页在初 始聚类结果中是否为同一个类别,如果是,则不作处理,如果不是, 则执行步骤S702。

在两个相关网页的初始关系表示这两个相关网页属于实际中同一 个人物的情况下,需要判断属于实际中同一个人物的这两个相关网页 在初始聚类结果中有没有分为同一个类别。如果已经分为一类了,则 对这两个相关网页不做任何处理。

S702:将属于实际中同一个人物的不同的相关网页调整为一类。

而如果这两个表示同一个人物的相关网页没有被分为同一类,则 将这两个属于同一个人物的相关网页调整为一类。按照上述融合方式 对所有的相关网页进行结果融合步骤。

S703:将调整后的初始聚类结果作为所述相关网页的最终聚类结 果;所述最终聚类结果表示不同的相关网页是否属于实际中同一个人 物。

最后将所有相关网页融合之后的初始聚类结果,作为相关网页的最后 聚类结果。而最后得到的聚类结果则更加准确和精确的反映了不同的相关 网页是否属于实际中同一个人物。

另一种情况参考图8所示,所述融合所述初始关系结果和所述初 始聚类结果的步骤,具体可以包括:

S801:在所述初始关系表示不同的相关网页不属于实际中同一个 人物的情况下,判断所述不同的相关网页在初始聚类结果中是否为不 同类别,如果是,则不作处理,如果否,则执行步骤S802。

在两个相关网页表示不属于实际中同一个人物的情况下,则判断 这两个相关网页在初始聚类结果中是否分为不同类别,如果已经不在 同一个类别中,则对该两个相关网页不做任何处理。

S802:将上述不属于实际中同一个人物的不同的相关网页调整为 不同类别。

而如果上述两个相关网页在初始聚类结果中被分在同一个类别 中,则将上述不属于实际中同一个人物的两个相关网页调整为不同类 别。

S803:将调整后的初始聚类结果作为所述相关网页的最终聚类结 果;所述最终聚类结果表示不同的相关网页是否属于实际中同一个人 物。

通过上述第一种对互联网上的同名人物信息进行分类的方法,可以 利用同义词词典和/或上下位词典对抽取得到的人物属性特征和网页主 题特征进行泛化,而泛化后的人物属性特征和网页主题特征因为更能 准确地反映不同的相关网页是否表示同一个人物的结果,所以本实施 例也能够更为精确和准确地对包括同样的人物名称的不同的相关网页 进行聚类,从而得到更为准确的实际人物的分类结果。

参见图9,本发明实施例还提供了另一种对互联网上的同名人物信 息进行分类的方法,具体可以包括:

S901:针对输入的人物名称信息,检索包括所述人物名称信息的 相关网页。

在本实施例中与第一种实施例的步骤相同的步骤,因为第一种实施例 已经详细介绍,在此不再赘述。

S902:分别抽取所述相关网页的人物属性特征和网页主题特征。

S903:利用上下位词典和/或同义词词典分别对所述人物属性特征 和网页主题特征进行泛化。

S904:按照泛化后的人物属性特征获取所述相关网页的初始关系 结果。

在实际应用中,所述获取到的初始关系结果可以如图10所示。在 图10中,有连线的相关网页1和3,以及4和6所表征的是同一人物, 因此,应该属于同一个类别,而没有连线的相关网页1和2,以及5和 6等,所表征的是不同人物,因此不应属于同一个类别。

S905:获取所述人物名称信息的知名程度参数。

在本实施例中,在步骤S906进行初始聚类结果的分类之前,还需 要利用网页检索结果或者网络百科全书等资源获取输入的人物名称的 知名程度参数,例如,拥有此人物名称的名人及其属性等,知名程度 参数可以辅助获得更准确的初始聚类结果,使得最终聚类结果能够达 到更好的效果。

具体的在获取知名程度参数的过程中,例如通过搜索引擎获得包 括人物名称“李想”的相关网页数量为3210000个。而通过常见人名 表,可以得到检索人名的知名程度参数。例如,经过计算,人物名称 “李想”的知名程度参数为0.6;其中,假设知名程度参数的取值范围 为0-1,1表示最不知名(即是最常见到的)的人物名称,例如“张伟”, 而0表示最知名(即是最不常见的)人名。

例如,预先设定的单位网页数为10000000,那么通过预先设定的 单位网页数与知名程度参数的乘积则为10000000*0.6=6000000,通过 将这个结果与实际相关网页数量比较可以得知,单位网页数与知名程 度参数的乘积大于实际的相关网页数量3210000,那么就可以判定“李 想”为一个不太知名的人物名称(即是常见人名)。否则,就认为检索 人名是一个知名的人物名称(即是非常见人名),确认该人物名称中有 名人;这里有名人的含义可以理解为:相对于这个人物名称来说,有 没有少数个体的相关网页占总网页很大的比重。

S906:依据所述知名程度参数调整初始聚类结果中类别数量,并 按照泛化后的网页主题特征获取所述相关网页的调整了类别数量的初 始聚类结果,所述调整的规则为:所述知名程度参数越大,所述初始 聚类结果的类别就越少。

在得到知名程度之后,可以根据所述知名程度参数来调整初始聚 类结果中类别数量。例如:在聚类过程中,对于所述人物名称包括有 主要知名人物的相关网页(即为非常见人名),其知名程度参数高,则 聚类结果的类别就少;而所述人物名称不包括有主要知名人物的相关 网页(即为常见人名),其知名程度参数小,则聚类结果的类别就多。

假设使用的初始聚类方法是层次凝聚聚类算法,因为相似度阈值 的设定将会影响聚类的类别数量,因此调整聚类的类别可以通过调整 预先设定的相似度阈值来实现。相似度阈值越高则聚类结果中类别越 少。例如原始的相似度阈值为T,相关网页数/(单位网页数*常见程度) =a.那么新的阈值T1=T/a。

因此在本步骤中,对于常见人名来说,相似度阈值将被调高,最 终聚类结果中的类别就多;而对于有名人的非常见人名来说,阈值将 被调低,最终聚类结果中类别就少。参考图11所示,为利用泛化后的 网页主题特征的且调整了类别数量的初始聚类结果的示意图。在图11 中,存在连线关系的相关网页1、2和3属于实际中的同一个人物,而 4和5所表征的也是实际中的同一个人物。

S907:融合所述初始关系结果和所述调整了类别数量的初始聚类 结果,以得到所述相关网页的最终分类结果。

在进行结果融合时,可以采用初始关系结果修改所述调整了类别 数量的初始聚类结果,也可以直接将初始关系结果和所述调整了类别 数量的初始聚类结果进行合并。参考图12所示,为将图10所示的初 始关系结果和图11所示的调整了类别数量的初始聚类结果进行融合之 后的最终分类结果。其中,1、2和3归为一类相关网页,即是1、2和 3表征了实际中的同一个人物,而4、5和6归为一类相关网页,即是 4、5和6表征了实际中的同一个人物。

S908:按照类别将所述最终分类结果进行展示。

在本实施例中,将阐述同一个人的网页归为一类输出,对于多个 同名人物生成了多个类别。例如,根据上面步骤的融合结果,可以得 出如下的聚类结果:属于人物A的相关网页包括:1、2和3;而属于 人物B的相关网页包括:4、5和6。

总之,通过另外一种对互联网上的同名人物信息进行分类的方法, 可以通过引入的知名程度参数,可以根据人物知名程度来对包含相同 的人物名称的不同的相关网页进行分类,这样分类的最终聚类结果与 具体的人物名称的知名程度或者常见程度有关,因此更符合实际中的 人物名称的取名情况,从而也能够更准确和有效的对人物名称进行分 类;并且,本实施例进一步还将最终聚类结果进行展示,也能够方便 其他人实时通过更为准确和有效的分类结果进行后续应用。

与本发明实施例提供的第一种对互联网上的同名人物信息进行分 类的方法相对应,本发明实施例还提供了第一种对互联网上的同名人 物信息进行分类的装置,参见图13,该装置具体可以包括:

检索模块1301,用于针对输入的人物名称信息,检索包括所述人 物名称信息的相关网页。

抽取模块1302,用于分别抽取所述相关网页的人物属性特征和网 页主题特征。

其中,参考图14所示,所述抽取模块1302可以包括:

分析子模块1401,用于分析所述相关网页的正文内容以得到所述 相关网页中的相关词语,其中,所述分析包括:分句、分词、词性标 注和/或命名实体识别。

第一获取子模块1402,用于获取所述相关词语中与人物名称信息 相关的属性关键词,所述属性关键词包括下述各项中的一项或多项: 职称、单位、住址、特长和专业。

第一选取子模块1403,用于在所述属性关键词中选取与人物名称 信息的出现位置的距离小于预设阈值的属性关键词,作为与相关网页 对应的人物属性特征集。

参考图15所示,所述抽取模块1302具体也可以包括:

分析子模块1401,应用分析所述相关网页的正文内容以得到所述 相关网页中的相关词语,其中,所述分析包括:进行分句、分词、词 性标注和/或命名实体识别;

计算子模块1501,用于分别对各个相关网页的所述相关词语进行 加权计算以获取各个词语的权重值;

第二选取子模块1502,用于针对各个相关网页,选取权重值高于 预设阈值的相关词语作为所述相关网页的网页主题特征向量。

泛化模块1303,用于利用上下位词典和/或同义词词典分别对所述 人物属性特征和网页主题特征进行泛化。

其中,参考图16所示,所述泛化模块1303具体可以包括:

第二获取子模块1601,用于从所述上下位词典和/或同义词词典中 获取所述人物属性特征集中属性关键词的上位词和/或同义词。

第一扩充子模块1602,用于依据所述属性关键词的上位词和/或同 义词扩充所述相关网页的人物属性特征。

其中,参考图17所示,所述泛化模块1303包括:

第三获取子模块1701,用于从所述上下位词典和/或同义词词典中 获取所述网页主题特征向量中相关词语的上位词和/或同义词。

第二扩充子模块1702,用于依据所述网页主题特征向量中相关词 语的上位词和/或同义词扩充所述相关网页的网页主题特征。

关系挖掘模块1304,用于按照泛化后的人物属性特征获取所述相 关网页的初始关系结果,并按照泛化后的网页主题特征获取初始聚类 结果。

其中,所述关系挖掘模块1304可以包括:依据扩充后的不同的相 关网页之间人物属性特征集的关系,确定不同的相关网页之间的初始 关系;所述初始关系表示不同的相关网页是否属于实际中同一个人物。

所述关系挖掘模块1304也可以包括:依据扩充后的相关网页的网 页主题特征向量,采用层次凝聚聚类算法对所述相关网页进行分类, 并将分类结果作为初始聚类结果。

结果融合模块1305,用于融合所述初始关系结果和所述初始聚类 结果,以得到所述相关网页的最终分类结果。

其中,参考图18所示,所述结果融合模块1305具体可以包括:

第一判断子模块1801,用于在所述初始关系表示不同的相关网页 属于实际中同一个人物的情况下,判断所述属于实际中同一个人物的 不同的相关网页在初始聚类结果中是否为同一个类别,如果不是,则 将属于实际中同一个人物的不同的相关网页调整为一类;或,

第二判断子模块1802,用于在所述初始关系表示不同的相关网页 不属于实际中同一个人物的情况下,判断所述不同的相关网页在初始 聚类结果中是否为不同类别,如果否,则将上述不属于实际中同一个 人物的不同的相关网页调整为不同类别;以及

确定子模块1803,用于将所有的相关网页的调整后的类别结果作 为相关网页的最终聚类结果;所述最终聚类结果表示不同的相关网页 是否属于实际中同一个人物。

通过本发明实施例提供的上述装置,因为采用了同义词词典和/或上 下位词典引入的方式,可以比现有技术更为准确的区别互联网上同名的 不同人物,使得对于同名人物的区分效率和精确度大大提升;进一步 的,还能够减轻互联网服务器的处理负担,提升互联网服务器的性能。

与本发明实施例提供的另一种对互联网上的同名人物信息进行分 类的方法相对应,本发明实施例还提供了另一种对互联网上的同名人 物信息进行分类的装置,参考图19所示,具体可以包括:

检索模块1301,用于针对输入的人物名称信息,检索包括所述人 物名称信息的相关网页。

抽取模块1302,用于分别抽取所述相关网页的人物属性特征和网 页主题特征。

泛化模块1303,用于利用上下位词典和/或同义词词典分别对所述 人物属性特征和网页主题特征进行泛化。

知名程度获取模块1901,用于获取所述人物名称信息的知名程度 参数。

关系挖掘模块1304,具体配置为:依据所述知名程度参数调整所 述初始聚类结果中类别数量,并按照泛化后的网页主题特征获取所述 相关网页的调整了类别数量的初始聚类结果,所述调整的规则为:所 述知名程度参数越大,所述初始聚类结果的类别就越少。

结果融合模块1305,用于融合所述初始关系结果和所述初始聚类 结果,以得到所述相关网页的最终分类结果。

展示模块1902,用于按照类别将所述最终分类结果进行展示。

通过上述这种对互联网上的同名人物信息进行分类的装置,可以 通过引入的知名程度参数,根据人物知名程度来对包含相同的人物名 称的不同的相关网页进行分类,这样分类的最终聚类结果与具体的人 物名称的知名程度或者常见程度有关,因此更符合实际中的人物名称 的取名情况,从而也能够更准确和有效的对人物名称进行分类;并且, 本实施例进一步还将最终聚类结果进行展示,也能够方便其他人实时 通过更为准确和有效的分类结果进行后续应用。

另外,还应该指出的是,上述系列处理和装置也可以通过软件和/或 固件实现。在通过软件和/或固件实现的情况下,从存储介质或网络向具 有专用硬件结构的计算机,例如图20所示的通用个人计算机2000安装构 成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等等。

在图20中,中央处理单元(CPU)2001根据只读存储器(ROM)2002 中存储的程序或从存储部分2008加载到随机存取存储器(RAM)2003的 程序执行各种处理。在RAM 2003中,也根据需要存储当CPU2001执行 各种处理等等时所需的数据。

CPU 2001、ROM2002和RAM 2003经由总线2004彼此连接。输入/ 输出接口2005也连接到总线2004。

下述部件连接到输入/输出接口2005:输入部分2006,包括键盘、鼠 标等等;输出部分2007,包括显示器,比如阴极射线管(CRT)、液晶显示 器(LCD)等等,和扬声器等等;存储部分2008,包括硬盘等等;和通信部 分2009,包括网络接口卡比如LAN卡、调制解调器等等。通信部分2009 经由网络比如因特网执行通信处理。

根据需要,驱动器2010也连接到输入/输出接口2005。可拆卸介质 2011比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱 动器2010上,使得从中读出的计算机程序根据需要被安装到存储部分 2008中。

在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介 质比如可拆卸介质2011安装构成软件的程序。

本领域的技术人物员应当理解,这种存储介质不局限于图20所示的 其中存储有程序、与设备相分离地分发以向人物提供程序的可拆卸介质 2011。可拆卸介质2011的例子包含磁盘(包含软盘(注册商标))、光盘(包 含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘 (MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 2002、 存储部分2008中包含的硬盘等等,其中存有程序,并且与包含它们的设 备一起被分发给人物。

还需要指出的是,执行上述系列处理的步骤可以自然地按照说明的顺 序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤可以 并行或彼此独立地执行。

虽然已经详细说明了本发明及其优点,但是应当理解在不脱离由所附 的权利要求所限定的本发明的精神和范围的情况下可以进行各种改变、替 代和变换。而且,本发明实施例的术语“包括”、“包含”或者其任何其他变 体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物 品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或 者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多 限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述 要素的过程、方法、物品或者设备中还存在另外的相同要素。

关于包括以上实施例的实施方式,还公开下述附记:

附记1、一种对互联网上的同名人物信息进行分类的方法,包括:

针对输入的人物名称信息,检索包括所述人物名称信息的相关网 页;

分别抽取所述相关网页的人物属性特征和网页主题特征;

利用上下位词典和/或同义词词典分别对所述人物属性特征和网页 主题特征进行泛化;

按照泛化后的人物属性特征获取所述相关网页的初始关系结果, 并按照泛化后的网页主题特征获取所述相关网页的初始聚类结果;

融合所述初始关系结果和所述初始聚类结果,以得到所述相关网 页的最终分类结果。

2、根据附记1所述的方法,其中,所述抽取所述相关网页的人物 属性特征的步骤,包括:

分析所述相关网页的正文以得到所述相关网页中的相关词语,其 中,所述分析包括:分句、分词、词性标注和/或命名实体识别;

获取所述相关词语中与人物名称信息相关的属性关键词,所述属 性关键词包括下述各项中的一项或多项:职称、单位、住址、特长和 专业;以及

在所述属性关键词中选取与人物名称信息的出现位置的距离小于 预设阈值的属性关键词,作为与相关网页对应的人物属性特征集。

3、根据附记2所述的方法,其中,所述利用上下位词典和/或同义 词词典对所述人物属性特征进行泛化的步骤,包括:

从所述上下位词典和/或同义词词典中获取所述人物属性特征集 中属性关键词的上位词和/或同义词;以及

依据所述属性关键词的上位词和/或同义词扩充所述相关网页的 人物属性特征。

4、根据附记3所述的方法,其中,所述按照泛化后的人物属性特 征获取所述相关网页的初始关系结果的步骤,包括:

依据扩充后的不同的相关网页之间人物属性特征集的关系,确定 不同的相关网页之间的初始关系,所述初始关系表示不同的相关网页 是否属于实际中同一个人物。

5、根据附记1所述的方法,其中,所述抽取所述相关网页的网页 主题特征的步骤,包括:

分析所述相关网页的正文以得到所述相关网页中的相关词语,其 中,所述分析包括:进行分句、分词、词性标注和/或命名实体识别;

分别对各个相关网页的所述相关词语进行加权计算以获取各个 相关词语的权重值;以及

针对各个相关网页,选取权重值高于预设阈值的相关词语作为所 述相关网页的网页主题特征向量。

6、根据附记5所述的方法,其中,所述利用上下位词典和/或同义 词词典对所述网页主题特征进行泛化的步骤,包括:

从所述上下位词典和/或所述同义词词典中获取所述网页主题特 征向量中相关词语的上位词和/或同义词;以及

依据所述网页主题特征向量中相关词语的上位词和/或同义词扩 充所述相关网页的网页主题特征向量。

7、根据附记6所述的方法,其中,所述按照泛化后的网页主题特 征获取初始聚类结果的步骤,包括:

依据扩充后的相关网页的网页主题特征向量,采用层次凝聚聚类 算法对所述相关网页进行分类,并将分类结果作为初始聚类结果。

8、根据附记1所述的方法,其中,所述按照泛化后的网页主题特 征获取初始聚类结果之前,还包括:

获取所述人物名称信息的知名程度参数;

则所述按照泛化后的网页主题特征获取初始聚类结果的步骤,包 括:

依据所述知名程度参数调整所述初始聚类结果中类别数量,并按 照泛化后的网页主题特征获取所述相关网页的调整了类别数量的初始 聚类结果;所述调整的规则为:所述知名程度参数越大,所述初始聚 类结果的类别就越少。

9、根据附记1所述的方法,其中,所述融合所述初始关系结果和 所述初始聚类结果的步骤,包括:

在所述初始关系表示不同的相关网页属于实际中同一个人物的情 况下,判断所述属于实际中同一个人物的不同的相关网页在初始聚类 结果中是否为同一个类别,如果不是,则将属于实际中同一个人物的 不同的相关网页调整为一类;或,

在所述初始关系表示不同的相关网页不属于实际中同一个人物的 情况下,判断所述不同的相关网页在初始聚类结果中是否为不同类别, 如果否,则将上述不属于实际中同一个人物的不同的相关网页调整为 不同类别;以及

将调整后的初始聚类结果作为所述相关网页的最终聚类结果;所 述最终聚类结果表示不同的相关网页是否属于实际中同一个人物。

10、根据附记1所述的方法,其中,在所述得到相关网页的最终 聚类结果之后,还包括:

按照类别将所述最终分类结果进行展示。

11、一种对互联网上的同名人物信息进行分类的装置,包括:

检索模块,用于针对输入的人物名称信息,检索包括所述人物名 称信息的相关网页;

抽取模块,用于分别抽取所述相关网页的人物属性特征和网页主 题特征;

泛化模块,用于利用上下位词典和/或同义词词典分别对所述人物 属性特征和网页主题特征进行泛化;

关系挖掘模块,用于按照泛化后的人物属性特征获取所述相关网 页的初始关系结果,并按照泛化后的网页主题特征获取初始聚类结果;

结果融合模块,用于融合所述初始关系结果和所述初始聚类结果, 以得到所述相关网页的最终分类结果。

12、根据附记11所述的装置,其中,所述抽取模块包括:

分析子模块,用于分析所述相关网页的正文内容以得到所述相关 网页中的相关词语,其中,所述分析包括:分句、分词、词性标注和/ 或命名实体识别;

第一获取子模块,用于获取所述相关词语中与人物名称信息相关 的属性关键词,所述属性关键词包括下述各项中的一项或多项:职称、 单位、住址、特长和专业;以及

第一选取子模块,用于在所述属性关键词中选取与人物名称信息 的出现位置的距离小于预设阈值的属性关键词,作为与相关网页对应 的人物属性特征集。

13、根据附记12所述的装置,其中,所述泛化模块包括:

第二获取子模块,用于从所述上下位词典和/或同义词词典中获取 所述人物属性特征集中属性关键词的上位词和/或同义词;以及

第一扩充子模块,用于依据所述属性关键词的上位词和/或同义词 扩充所述相关网页的人物属性特征。

14、根据附记13所述的装置,其中,所述关系挖掘模块包括:依 据扩充后的不同的相关网页之间人物属性特征集的关系,确定不同的 相关网页之间的初始关系,所述初始关系表示不同的相关网页是否属 于实际中同一个人物。

15、根据附记11所述的装置,所述抽取模块包括:

分析子模块,应用分析所述相关网页的正文以得到所述相关网页 中的相关词语;其中,所述分析包括:进行分句、分词、词性标注和 /或命名实体识别;

计算子模块,用于分别对各个相关网页的所述相关词语进行加权 计算以获取各个词语的权重值;以及

第二选取子模块,用于针对各个相关网页,选取权重值高于预设 阈值的相关词语作为所述相关网页的网页主题特征向量。

16、根据附记15所述的装置,所述泛化模块包括:

第三获取子模块,用于从所述上下位词典和/或所述同义词词典中 获取所述网页主题特征向量中相关词语的上位词和/或同义词;以及

第二扩充子模块,用于依据所述网页主题特征向量中相关词语的 上位词和/或同义词扩充所述相关网页的网页主题特征。

17、根据附记16所述的装置,所述关系挖掘模块包括:

依据扩充后的相关网页的网页主题特征向量,采用层次凝聚聚类 算法对所述相关网页进行分类,并将分类结果作为初始聚类结果。

18、根据附记11所述的装置,还包括:

知名程度获取模块,用于获取所述人物名称信息的知名程度参数;

则所述关系挖掘模块,具体配置为:

依据所述知名程度参数调整所述初始聚类结果中类别数量,并按 照泛化后的网页主题特征获取所述相关网页的调整了类别数量的初始 聚类结果;所述调整的规则为:所述知名程度参数越大,所述初始聚 类结果的类别就越少。

19、根据附记11所述的装置,其中,所述结果融合模块包括:

第一判断子模块,用于在所述初始关系表示不同的相关网页属于 实际中同一个人物的情况下,判断所述属于实际中同一个人物的不同 的相关网页在初始聚类结果中是否为同一个类别,如果不是,则将属 于实际中同一个人物的不同的相关网页调整为一类;或,

第二判断子模块,用于在所述初始关系表示不同的相关网页不属 于实际中同一个人物的情况下,判断所述不同的相关网页在初始聚类 结果中是否为不同类别,如果否,则将上述不属于实际中同一个人物 的不同的相关网页调整为不同类别;以及

确定子模块,用于将所有的相关网页的调整后的类别结果作为相 关网页的最终聚类结果;所述最终聚类结果表示不同的相关网页是否 属于实际中同一个人物。

20、根据附记11所述的装置,还包括:

展示模块,用于按照类别将所述最终分类结果进行展示。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号