首页> 中国专利> 互联网信息中重名人物的处理方法及系统

互联网信息中重名人物的处理方法及系统

摘要

本发明提供了一种互联网信息中重名人物的处理方法及系统,所述方法包括:获取互联网历史信息,提取所述互联网历史信息中的类别信息;根据所述类别信息构造类别信息层次树;根据所述类别信息层次树对互联网信息中的重名人物进行处理。采用本发明提供的互联网信息中重名人物的处理方法及系统,能准确区分出互联网信息中的重名人物,使得基于该互联网信息进行关系搜索输出的搜索结果更准确。

著录项

  • 公开/公告号CN102063428A

    专利类型发明专利

  • 公开/公告日2011-05-18

    原文格式PDF

  • 申请/专利权人 腾讯科技(深圳)有限公司;

    申请/专利号CN200910193987.2

  • 发明设计人 李务斌;贾自艳;

    申请日2009-11-17

  • 分类号G06F17/30;

  • 代理机构广州华进联合专利商标代理有限公司;

  • 代理人何平

  • 地址 518044 广东省深圳市福田区振兴路赛格科技园2栋东403室

  • 入库时间 2023-12-18 02:21:58

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2014-10-15

    授权

    授权

  • 2013-11-13

    专利申请权的转移 IPC(主分类):G06F17/30 变更前: 变更后: 登记生效日:20131022 申请日:20091117

    专利申请权、专利权的转移

  • 2012-10-17

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20091117

    实质审查的生效

  • 2011-05-18

    公开

    公开

说明书

技术领域

本发明涉及一种网络数据处理技术领域,更具体地说,涉及一种互联网信息中重名人物的处理方法及系统。

背景技术

关系搜索(Relationship Search)是指通过搜索引擎关键字组合搜索并返回页面数结果,对页面结果进行比较分析而获得特定对象间关系的一种搜索方法。关系搜索的数据来源包括各种互联网信息,例如新闻、博客或者论坛数据等,其中,基于新闻数据的关系搜索比较精确。基于姓名及特定关键词的组合搜索可以挖掘人与人之间关系或人与事件的关系。然而,互联网数据中存在大量的重名人物,例如,名叫“孙悦”的知名人物中有两个,一个是体育篮球明星,男性;而另一个是娱乐歌手,女性。互联网信息中的重名人物会使得根据互联网信息进行关系搜索得到的结果不准确,因此需要区分互联网信息中的重名人物。

发明内容

基于此,有必要提供一种互联网信息中重名人物的处理方法,能准确区分互联网新闻数据中的重名人物。

此外,还有必要提供一种互联网信息中重名人物的处理系统,能准确区分互联网新闻数据中的重名人物。

所述互联网信息中重名人物的处理方法包括:获取互联网历史信息,提取互联网历史信息中的类别信息;根据类别信息构造类别信息层次树;根据类别信息层次树对互联网信息中的重名人物进行处理。

构造类别信息层次树的步骤具体可以是:对类别信息进行预处理,得到类别信息串集合;根据类别信息串集合初始化类别信息层次树;计算类别信息层次树中的类别作为各根类别的子类的概率。

该计算类别信息层次树中的类别作为各根类别的子类的概率的步骤具体可以是:计算类别信息层次树中的任意上下两层类别父子关系的概率;递归任一类别到根类别的路径,得到该类别到根类别经过的路径中所有上下两层类别父子关系的概率乘值,计算该类别为根类别的子类的概率为该类别到根类别经过的所有路径中概率乘值的总和。

另外,该方法还科包括:获取重名人物列表,重名人物列表中记录了重名人物的姓名及区分层次、信息类别和区分信息。

而根据类别信息层次树对重名人物进行处理的步骤具体可以是:A.获取待处理人物的姓名,查找所述重名人物列表中是否存在所述待处理人物的姓名,若是,则进入步骤B,否则结束;B.获取所述待处理人物所在互联网信息的类别信息,判断所述类别信息是否存在,若是,则进入步骤C,否则进入步骤D;C.根据所述类别信息层次树获取所述类别信息中各类别作为根类别的子类的概率,取所述概率最大的根类别对应的互联网信息作为输出结果;D.检索待处理人物所在互联网信息中的区分信息,根据所述区分信息输出相应的互联网信息。

步骤D中根据区分信息输出对应的新闻数据的步骤可包括:当检索到互联网信息中有区分信息时,根据重名人物列表,获取所述检索到的区分信息所在的类别,将该类别对应的互联网信息作为输出结果。

所述互联网信息中重名人物的处理系统包括:数据库,用于存储互联网历史信息;类别信息提取单元,获取数据库中存储的互联网历史信息,提取互联网历史信息中的类别信息;类别信息层次树构造单元,根据类别信息构造类别信息层次树;重名人物处理单元,根据类别信息层次树对互联网信息中的重名人物进行处理。

该类别信息层次树构造单元可包括:预处理模块,用于对类别信息进行预处理,得到类别信息串集合;类别信息层次树初始化模块,根据类别信息串集合初始化类别信息层次树;概率计算模块,计算类别信息层次树中的类别作为各根类别的子类的概率。

该概率计算模块进一步计算类别信息层次树中的任意上下两层类别父子关系的概率,并递归任一类别到根类别的路径,得到该类别到根类别经过的路径中所有上下两层类别父子关系的概率乘值,计算该类别为根类别的子类的概率为该类别到根类别经过的所有路径中概率乘值的总和。

该系统还可包括:重名人物列表获取单元,用于获取重名人物列表,重名人物列表中记录了重名人物的姓名及对应的区分层次、信息类别和区分信息。

该重名人物处理单元进一步获取待处理人物的姓名,从重名人物列表中查找到待处理人物的姓名时,获取待处理人物所在互联网信息的类别信息,并根据类别信息层次树获取类别信息中的每一个类别作为根类别的子类的概率,取概率最大的根类别对应的互联网信息作为输出结果。

该重名人物处理单元还可用于检索互联网信息中待处理人物的区分信息,根据重名人物列表,获取检索到的区分信息所在的类别,将该类别对应的互联网信息作为输出结果。

上述互联网新闻中重名人物的处理方法及系统,通过提取互联网历史信息中的类别信息,根据该类别信息构造类别信息层次树,该类别信息层次树中描述了互联网历史信息中的类别之间的父子关系以及类别之间是父子关系的概率,当待处理人物的姓名在重名人物列表中存在时,根据该类别信息层次树输出概率最大的根类别对应的互联网信息,所输出的互联网信息将会更准确。因此上述方法及系统,能准确区分出互联网数据中的重名人物,使得基于该互联网数据进行关系搜索输出的搜索结果更准确。

附图说明

图1是一个实施例中互联网信息中重名人物的处理方法的流程图;

图2是一个实施例中构造类别信息层次树的方法流程图;

图3是一个实施例中初始化得到的类别信息层次树的示意图;

图4是一个实施例中类别信息层次树的示意图;

图5是一个实施例中根据类别信息层次树处理重名人物的方法流程图;

图6是一个实施例中互联网信息中重名人物的处理系统的结构示意图;

图7是一个实施例中类别信息层次树构造单元的结构示意图。

具体实施方式

图1示出了一个实施例中互联网信息中重名人物的处理方法流程,具体过程如下:

在步骤S10中,获取互联网历史信息,提取所述互联网历史信息中的类别信息。互联网历史信息即当前从互联网上获取的信息,包括各种新闻、博客或论坛数据等。类别信息描述了互联网信息所属类别。在一个实施方式中,从互联网的数据库上获取历史新闻数据,新闻的类别信息可通过搜索引擎在抓取新闻数据时,根据新闻的入口地址以及页面上的导航信息进行分析得到的。在一个实施例中,类别信息可由类别标签和特殊分隔符号组成,例如:“财经:股票市场:大盘”、“娱乐:音乐:音乐新闻”等。在类别信息中,特殊分隔符号之后的类别标签是分隔符前的类别标签的子类,如上例中,“股票市场”是“财经”的子类,而“音乐新闻”是“音乐”的子类。应当说明的是,上述类别信息仅是一个实施例,其形式并不受此限制。

在步骤S20中,根据类别信息构造类别信息层次树。该类别信息层次树能形象的表示出各类别之间的父子关系,并可对各类别之间是父子关系的概率进行统计。图2示出了一个实施例中构造类别信息层次树的方法流程,具体过程如下:

在步骤S200中,对类别信息进行预处理,得到类别信息串集合。在一个实施方式中,预处理的过程包括去掉不合格的字符串等。经过预处理后,则能得到规范的类别信息串集合,该类别信息串集合中包括了从所有互联网信息中所得到的类别信息。该类别信息形如“A:B”或“A:B:C”等,例如“体育:国际:篮球NBA”,其中,A、B、C等都为类别标签。

在步骤S202中,根据所述类别信息串集合初始化类别信息层次树。类别信息层次树是一个能描述类别之间的父子关系的树形结构。在一个实施方式中,根据类别信息串集合中的所有类别信息串以及类别信息串中各类别之间的父子关系初始化得到的类别信息层次树如图3所示,该类别信息层次树能形象表示出互联网信息的类别信息中各类别之间的父子关系。在一个实施例中,从该类别信息层次树中选取出所有的根类别,得到根类别集合,这里的根类别是指不存在其父类的类别,如图3中的类别A和类别G。

在步骤S204中,计算所述类别信息层次树中的类别作为各根类别的子类的概率。在一个实施方式中,步骤S204的过程具体为:

(1)计算类别信息层次树中的任意上下两层类别父子关系的概率,具体过程为:首先解析上述类别信息串集合中的类别信息串,对于任意两个类别A和B,统计出B为A的子类的次数为T(A,B)。例如,T(体育,篮球)=4563,表示“篮球”作为“体育”的子类的次数是4563次。然后进行概率归一化,计算得到任意两个类别A和B,类别B作为类别A的子类的概率为:

P(A,B)=T(A,B)ΣaT(a,B)

其中,P(A,B)表示类别B作为类别A的子类的概率,T(A,B)为上述计算得到的类别B作为类别A的子类的次数,表示类别B作为其它类别的子类的次数之和。如图4所示,上下两层类别父子关系的概率体现在两个类别之间的路径上,例如:类别F作为类别A的子类的概率是0.6,类别F作为类别C的子类的概率是0.2等。

(2)递归任意一类别到根类别的路径,得到该类别到根类别经过的路径中所有上下两层类别父子关系的概率乘值,计算该类别为根类别的子类的概率为该类别到根类别经过的所有路径中所述概率乘值的总和。如图4所示,在一个实施例中,该类别信息层次树中的根类别集合包括类别A和类别G,对于其中的任意一类别,例如类别F,计算类别F为类别A的子类的概率的过程为:递归类别F到根类别A的路径,其中包括F-A和F-C-A两条路径,得到这两条路径中上下两层类别父子关系的概率乘值,其中F-A路径中该概率乘值即为0.6,而F-C-A路径中该概率乘值为0.2*0.8=0.16,则计算类别F作为根类别A的子类的概率为上述得到的两个概率乘值的总和(即0.6+0.16=0.76);递归类别F到根类别G的路径,包括F-H-G路径,该路径中的概率乘值为0.3*0.2=0.06,则类别F是根类别G的子类的概率即为0.06。计算得到的类别信息层次树中各类别作为根类别的子类的概率可用于后续的判断待处理重名人物所属信息类别的过程中。

在一个实施方式中,在获取互联网历史信息之前,还需获取重名人物列表。重名人物列表中记录了重名人物的姓名及对应的区分层次、信息类别和区分信息。在一个实施例中,重名人物列表中记录的重名人物格式形如:“人物姓名#区分层次#信息类别#区分信息1#区分信息2.....”,其中,区分层次是指能对重名人物进行区分所涉及的信息类别的层次。例如,对新闻数据,重名人物“孙悦”,一个是“体育”类人物,一个是“娱乐”类人物,只需区分到具体类别即可,因此重名人物“孙悦”的区分层次是1;又例如,重名人物“李静”有三人,有一人属于体育类,另外两人属于娱乐类,而在娱乐类中,一个是演员,另一个是主持人,则进区分到类别不足以将这几个人物彻底区分,需具体到区分信息才能进行区分,因此重名人物“李静”的区分层次为2。区分信息是指将重名人物进行区分的信息汇总,这些信息可以是经常与人物共同出现在互联网信息中的字眼。例如,体育类新闻中经常出现的“篮球”、“NBA”等词汇,娱乐类新闻中经常出现的“献唱”等词汇。在一个实施例中,上述两个重名人物在重名人物列表中记录如下:“孙悦#1#体育#”、“孙悦#1#娱乐”、“李静#2#体育#”、“李静#2#娱乐#演员#”、“李静#2#娱乐#主持人#主持#”。应当说明的是,上述重名人物列表所记录的内容仅是一个实施例,但并不限于此。

图5示出了一个实施例中根据类别信息层次树处理重名人物的方法流程,具体过程如下:

在步骤S400中,获取待处理人物的姓名。该待处理人物的姓名可从要处理的互联网信息中获取。例如,获取某一个新闻数据中的待处理人物的姓名等。

在步骤S402中,查找重名人物列表,判断所述重名人物列表中是否存在该待处理人物的姓名,若是,则进入步骤S404,否则结束。

在步骤S404中,获取待处理人物所在互联网信息的类别信息。如上所示,在一个实施例中,要获取某一新闻数据中的新闻类别信息,则可根据新闻的入口地址以及页面上的导航信息进行分析得到的。在一个实施方式中,类别信息可由类别标签和特殊分隔符号组成。

在步骤S406中,判断所述类别信息是否存在,若是,则进入步骤S408,否则进入步骤S412。

在步骤S408中,根据类别信息层次树获取类别信息中各类别为根类别的子类的概率。类别信息层次树可通过前述方法根据互联网历史信息构建得到,对于待处理人物所在互联网信息的类别信息中的各类别,从前述构建的类别信息层次树即可得到各类别为各根类别的子类的概率。

在步骤S410中,取所述概率最大的根类别对应的互联网信息作为输出结果。在一个实施例中,对于某一个新闻数据,待处理人物姓名为:“李静”,其所在新闻数据的类别信息为:“娱乐:影视:电视剧”,根据类别信息层次树,得到“影视”类别为根类别“娱乐”的子类的概率最大,则将根类别“娱乐”对应的新闻数据作为输出结果。

在步骤S412中,检索待处理人物所在互联网信息中的区分信息。当互联网信息的类别信息不存在时(可能由于某种原因缺失),则可检索该互联网信息中的区分信息,该区分信息为经常与人物共同出现在信息中的字眼。例如,对于新闻数据,体育类新闻中经常出现的“篮球”、“NBA”等词汇,娱乐类新闻中经常出现的“献唱”等词汇。

在步骤S414中,判断重名人物列表中是否存在所述区分信息,若是,则进入步骤S415,否则结束。

在步骤S416中,将区分信息所在类别对应的互联网信息作为输出结果。在一个实施例中,当重名人物列表中查找到与上述检索到的区分信息一致的区分信息时,表明该待处理人物根据区分信息可区分,因此可获取重名人物列表中记录的该区分信息对应的信息类别,并将该信息类别对应的互联网信息作为输出结果。例如,当检索到待处理人物“李静”所在新闻数据中的区分信息为“演员”,而重名人物列表中查找如下记录:“李静#2#娱乐#演员”,则将区分信息“演员”的新闻类别“娱乐”对应的历史新闻数据作为输出结果。

图6示出了一个实施例中互联网新闻中重名人物处理的系统,该系统包括数据库10、类别信息提取单元20、类别信息层次树构造单元30和重名人物处理单元40,其中:

数据库10用于存储互联网历史信息。

类别信息提取单元20与数据库10相连,用于获取数据库10中存储的互联网历史信息,提取所述互联网历史信息中的类别信息。如上所述,在一个实施例中,对于历史新闻数据,其类别信息可在搜索引擎抓取新闻数据时,根据新闻的入口地址以及页面上的导航信息进行分析得到。在一个实施方式中,类别信息可由类别标签和特殊分隔符号组成。

类别信息层次树构造单元30与类别信息提取单元20相连,用于根据类别信息构造类别信息层次树。在一个实施方式中,如图7所示,类别信息层次树构造单元30包括预处理模块300、类别信息层次树初始化模块302和概率计算模块304。其中:

预处理模块300用于对类别信息进行预处理,得到类别信息串集合。预处理模块300对类别信息进行的预处理包括去掉不合格的字符串等。经过预处理后,能得到规范的信息串集合。该信息串集合中包括了所有互联网历史信息的类别信息。

类别信息层次树初始化模块302与预处理模块300相连,用于根据类别信息串集合初始化类别信息层次树。在一个实施例中,根据类别信息串集合中的所有类别信息串以及类别信息串中各类别之间的父子关系初始化得到的类别信息层次树如图3所示,该类别信息层次树能形象表示互联网信息的类别信息中各类别之间的父子关系。类别信息层次树初始化模块302初始化得到类别信息层次树后,进一步从该类别信息层次树中选取中所有的根类别,得到根类别集合。

概率计算模块304用于计算类别信息层次树中的类别作为各根类别的子类的概率。具体地,概率计算模块304首先计算类别信息层次树中的任意上下两层类别父子关系的概率,具体的计算过程为:首先解析上述类别信息串集合中的类别信息串,对于任意两个类别A和B,统计出B为A的子类的次数为T(A,B)。例如,T(体育,篮球)=4563,表示“篮球”作为“体育”的子类的次数是4563次。然后进行概率归一化,计算得到任意两个类别A和B,类别B作为类别A的子类的概率为:

P(A,B)=T(A,B)ΣaT(a,B)

其中,P(A,B)表示类别B作为类别A的子类的概率,T(A,B)为上述计算得到的类别B作为类别A的子类的次数,表示类别B作为其它类别的子类的次数之和。如图4所示,上下两层类别父子关系的概率体现在两个类别之间的路径上,例如:类别F作为类别A的子类的概率是0.6,类别F作为类别C的子类的概率是0.2等。

其次,概率计算模块304递归任意一类别到根类别的路径,得到该类别到根类别经过的路径中所有上下两层类别父子关系的概率乘值,计算该类别为根类别的子类的概率为该类别到根类别经过的所有路径中所述概率乘值的总和。如图4所示,在一个实施例中,该类别信息层次树中的根类别集合包括类别A和类别G,对于其中的任意一类别,例如类别F,计算类别F为类别A的子类的概率的过程为:递归类别F到根类别A的路径,其中包括F-A和F-C-A两条路径,得到这两条路径中上下两层类别父子关系的概率乘值,其中F-A路径中该概率乘值即为0.6,而F-C-A路径中该概率乘值为0.2*0.8=0.16,则计算类别F作为根类别A的子类的概率为上述得到的两个概率乘值的总和(即0.6+0.16=0.76);递归类别F到根类别G的路径,包括F-H-G路径,该路径中的概率乘值为0.3*0.2=0.06,则类别F是根类别G的子类的概率即为0.06。概率计算模块304计算得到的类别信息层次树中的类别作为各根类别的子类的概率用于后续的重名人物处理过程中。计算得到的类别信息层次树中各类别作为根类别的子类的概率可用于后续的判断待处理重名人物所属信息类别的过程中。

在一个实施方式中,互联网新闻中重名人物的处理系统除了包括上述数据库10、类别信息提取单元20、类别信息层次树构造单元30和重名人物处理单元40外,还包括重名人物列表获取单元50(图中未示出),重名人物列表获取单元50用户获取重名人物列表,该重名人物列表中记录了重名人物的姓名及对应的区分层次、信息类别和区分信息。在一个实施例中,重名人物列表中记录的重名人物格式形如:“人物姓名#区分层次#信息类别#区分信息1#区分信息2.....”,其中,区分层次是指能对重名人物进行区分所涉及的信息类别的层次。区分信息是指将重名人物进行区分的信息汇总,这些信息可以是经常与人物共同出现在互联网信息中的字眼。

在一个实施方式中,重名人物处理单元40获取待处理人物的姓名,并查找重名人物列表,当重名人物列表中存在该待处理人物的姓名时,获取待处理人物所在互联网信息的类别信息。当待处理人物所在互联网信息的类别信息存在时,重名人物处理单元40则根据类别信息层次树构造单元30构造得到的类别信息层次树获取类别信息中各类别为根类别的子类的概率,并取概率最大的根类别对应的互联网信息作为输出结果。当待处理人物所在互联网信息的类别信息可能由于某种原因缺失时,则重名人物处理单元40检索待处理人物所在互联网信息中的区分信息,在重名人物列表中查找是否存在该区别信息,若存在,则表明该待处理人物根据区分信息可区分,则获取重名人物列表中记录的该区分信息对应的信息类别,并将该类别对应的互联网信息作为输出结果。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号