首页> 中国专利> 数字化数据集中按照分类信息搜索目标文档的方法和装置

数字化数据集中按照分类信息搜索目标文档的方法和装置

摘要

本发明公开了一种用于在已经按照第1层至第N层逐步地被细分类的数字化数据集中依次按照第1层至第M层的分类信息搜索目标文档的方法和装置,该方法包括步骤:计算当前关键词序列中的关键词分别对于当前层的分类信息所指的分类中的每一个分类的区分度;基于所述关键词中的每一个对于当前层的分类信息所指的每一个分类的区分度,计算目标文档在当前层的每一个分类中出现的概率;如果当前层号小于M,则将下一层作为当前层并执行上述步骤,否则通过合成所计算的每个关键词分别对于各个层的每个分类的区分度和所计算的目标文档分别在各个层的每个分类中出现的概率得到当前关键词序列中的每个关键词在第1层至第M层上对于目标文档的集成区分度。

著录项

  • 公开/公告号CN1987849A

    专利类型发明专利

  • 公开/公告日2007-06-27

    原文格式PDF

  • 申请/专利权人 株式会社理光;

    申请/专利号CN200510022963.2

  • 申请日2005-12-19

  • 分类号G06F17/30(20060101);

  • 代理机构11105 北京市柳沈律师事务所;

  • 代理人郭定辉;邵亚丽

  • 地址 日本东京都

  • 入库时间 2023-12-17 18:46:19

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-02-10

    未缴年费专利权终止 IPC(主分类):G06F17/30 授权公告日:20080917 终止日期:20141219 申请日:20051219

    专利权的终止

  • 2008-09-17

    授权

    授权

  • 2007-08-22

    实质审查的生效

    实质审查的生效

  • 2007-06-27

    公开

    公开

说明书

技术领域

本发明涉及在已经按照至少一层逐步地被细分类的数字化数据集中按照所述分层的分类信息搜索目标文档,更具体地说,涉及在已经按照至少一层逐步地被细分类的数字化数据集中按照所述分层的分类信息搜索目标文档的方法和装置。

背景技术

在最近几年,我们可以看到越来越多的文本文档出现在因特网,数字图书馆、新闻、以及公司的局域网上,为了管理这些电子化的数据人们也越来越重视文本数字信息的检索。如今的数字信息检索也越来越智能。数字信息检索也不像以前一样封闭、固定,现在新的数字信息是开放的,动态的,更新非常快,同时这些数字信息一般还都是分布的。数字信息系统的用户也从原来的专业查询员扩展到一般用户,其中包括商业人员,管理人员,学生等等。这样对数字信息系统带来了各种各样的个性的需要。个性化和智能化是数字信息检索系统的一个新的需求。

我们可以看到现在的数字信息有一个非常重要的特点,那就是很多数字信息都是被预先分类的。例如数字图书馆分类(如:ACM,IEEE等),web分类(如:Yahoo,Google,Sina等),然而,现在的数字信息检索系统很少能利用这些分类数字信息来提高查询的准确度。

发明内容

有鉴于上述情况,本发明的目的是提供了能有效利用分类数字信息,通过对关键词的权重进行估计从而提高查询的准确度的方法和装置。

为了实现上述目的,根据本发明的一个方面提供了一种用于在已经按照第1层至第N层逐步地被细分类的数字化数据集中依次按照第1层至第M层的分类信息搜索目标文档的方法,其中N≥1,N≥M≥1,包括步骤:(a)根据用户所输入的查询,提取包括至少一个关键词的关键词序列作为当前关键词序列;(b)从所述数字化数据集得到分别对应于作为当前层的第1层的分类信息;(c)计算当前关键词序列中的关键词分别对于当前层的分类信息所指的分类中的每一个分类的区分度;(d)基于所述关键词中的每一个对于当前层的分类信息所指的每一个分类的区分度,计算目标文档在当前层的每一个分类中出现的概率;(e)如果当前层号小于M,则将当前层号加1并且返回(c),否则通过合成在步骤(c)中所计算的每个关键词分别对于各个层的每个分类的区分度和在步骤(d)中所计算的目标文档分别在各个层的每个分类中出现的概率得到当前关键词序列中的每个关键词在第1层至第M层上对于目标文档的集成区分度;以及(f)基于所述集成区分度的大小搜索该目标文档。

根据本发明的另一个方面提供了一种用于在已经按照第1层至第N层逐步地被细分类的数字化数据集中依次按照第1层至第M层的分类信息搜索目标文档的装置,其中N≥1,N≥M≥1,包括部件:抽词器,根据用户所输入的查询,提取包括至少一个关键词的关键词序列作为当前关键词序列;类别选择/细分模块,从所述数字化数据集得到分别对应于作为当前层的第1层的分类信息;区分度计算器,计算当前关键词序列中的关键词分别对于当前层的分类信息所指的分类中的每一个分类的区分度;目标文档估计器,基于所述关键词中的每一个对于当前层的分类信息所指的每一个分类的区分度,计算目标文档在当前层的每一个分类中出现的概率;区分度合成模块,通过合成区分度计算器所计算的每个关键词分别对于各个层的每个分类的区分度和目标文档估计器所计算的目标文档分别在各个层的每个分类中出现的概率得到当前关键词序列中的每个关键词在第1层至第M层上对于目标文档的集成区分度;搜索引擎,基于所述集成区分度的大小搜索该目标文档;和处理器,如果当前层号小于M,则所述区分度计算器和所述目标文档估计器对当前层执行所述的操作,否则,所述区分度合成模块和所述搜索引擎执行所述的操作。

采用根据本发明的分类信息搜索目标文档的方法和装置,有效地提高了信息检索的精度。该方法和装置能有效地利用电子化数据集中包括分类在内的辅助信息,所以能估计出相对准确的关键词权重。同时,实验表明本发明能够有效提高查询的准确度。

附图说明

图1示出根据本发明优选实施例的目标文档搜索装置的方框图;

图2示出根据本发明优选实施例的目标文档搜索方法的流程图;

图3示出根据本发明进行目标文档搜索的流程示意图;

图4示出区分度计算器的流程示意图;

图5示出区目标文档估计器的流程示意图;

具体实施方式

下面将结合附图详细描述本发明的优选实施例。在下面的描述中,现有数字信息搜索方法/系统中公知的步骤/单元将不再详细描述,以免不必要的细节混淆本发明。

图1示出根据本发明优选实施例的目标文档搜索装置的方框图。如图1所示的在已经按照第1层至第N层逐步地被细分类的数字化数据集中依次按照第1层至第M层的分类信息搜索目标文档的装置,其中M表示用户根据需要而设定的搜索的层数,即虽然该数字化数据集已经被分为N层,但是用户仍然可以只搜索其中的M层,该装置包括:抽词器(TE)101,根据用户所输入的查询,提取包括至少一个关键词的关键词序列作为当前关键词序列;关键词选择模块(TSM)102,基于当前层分类的关键词序列、与其相应的区分度和词频来去掉当前关键词序列中的噪声,从而确定对于当前层的下一层的分类来讲的所述关键词;类别选择/细分模块(CSM)103,从数字化数据集得到分别对应于作为当前层的第1层的分类信息;区分度计算器(DPC)104,计算当前关键词序列中的关键词分别对于当前层的分类信息所指的分类中的每一个分类的区分度;目标文档估计器(PRE)105,基于所述关键词中的每一个对于当前层的分类信息所指的每一个分类的区分度,计算目标文档在当前层的每一个分类中出现的概率;区分度合成模块(DIM)106,通过合成区分度计算器所计算的每个关键词分别对于各个层的每个分类的区分度和目标文档估计器所计算的目标文档分别在各个层的每个分类中出现的概率得到当前关键词序列中的每个关键词在第1层至第M层上对于目标文档的集成区分度;分类定位器(CL)107,基于所述文档在当前层分类的每个分类中的概率来去掉噪声分类,从而确定对于当前层的下一层的分类来讲的所述分类信息;权重合并模块108(TWC),合成全局区分度;搜索引擎109,基于所述集成区分度的大小搜索该目标文档;其中,在按照第1层至第M层的分类信息搜索目标文档的过程中,如果当前层号小于M,则所述区分度计算器和所述目标文档估计器对当前层执行所述的操作,否则,控制所述区分度合成模块和所述搜索引擎执行所述的操作。该目标文档搜索装置使用基于分类的关键词权重计算方法可以有效提高查询的精确度。

图1仅作为本发明的优选实施例来说明本发明,并非对本发明进行限制。比如,本领域的技术人员应当了解本发明的目标文档搜索装置的主要技术效果在于:利用数字化数据集中包括分类在内的辅助信息,估计出相对准确的关键词权重,从而有效地提高了信息检索的精度。由于关键词选择模块(TSM)102的技术效果是:通过在处理过程中去除关键词噪音来提高精度和减少响应时间,所以在缺少关键词选择模块(TSM)102的条件下,即,区分度计算器(DPC)104直接从抽词器(TE)101接收关键词序列,同样能够实现本发明。同理,由于分类定位器(CL)107和权重合并模块108(TWC)的技术效果分别是:通过在处理过程中去除分类噪音来提高查询精度和减少响应时间以及通过计算关键词权重的时候集合全局关键词权重计算方法来提高查询精度和提高系统的普遍适用性,所以,在缺少分类定位器(CL)107和权重合并模块108(TWC)的条件下,即,目标文档估计器(PRE)105不通过分类定位器(CL)107向类别选择/细分模块(CSM)103反馈去掉噪声分类的信息以及搜索引擎109直接从区分度合成模块(DIM)106接收关键词序列的集成区分度,同样能够实现本发明。其中关键词可以是一个词或者一个短语。

本发明的搜索文档的装置还兼容没有分类的数字化数据集并且合成模块还合成区分度计算器所计算的全部区分度,以便提高系统的普遍适用性,其中最好基于概率计算全局关键词。

最好,关键词对分类的区分能力按照如下标准确定:

(1)根据关键词对分类的区分能力估算的。

(2)根据关键词对不同分类的描述能力不同估算的。

(3)根据关键词在类中的出现频率同时考虑了分类本身的属性得到的。

图2示出根据本发明优选实施例的目标文档搜索方法的流程图。如图2所示的用于在已经按照第1层至第N层逐步地被细分类的数字化数据集中依次按照第1层至第M层的分类信息搜索目标文档的方法,其中N≥1,N≥M≥1,包括步骤:根据用户所输入的查询,提取包括至少一个关键词的关键词序列作为当前关键词序列(S201);从所述数字化数据集得到分别对应于作为当前层的第1层的分类信息(S202);计算当前关键词序列中的关键词分别对于当前层的分类信息所指的分类中的每一个分类的区分度(S203);基于所述关键词中的每一个对于当前层的分类信息所指的每一个分类的区分度,计算目标文档在当前层的每一个分类中出现的概率(S204);如果当前层号小于M(S205),则将下一层作为当前层(S206),其中基于当前层分类的关键词序列、与其相应的区分度和词频来去掉当前关键词序列中的噪声,从而确定对于当前层的下一层的分类来讲的所述关键词(S207),基于所述文档在当前层分类的每个分类中的概率来去掉噪声分类,从而确定对于当前层的下一层的分类来讲的所述分类信息(S208),否则通过合成在步骤S203中所计算的每个关键词分别对于各个层的每个分类的区分度和在步骤S204中所计算的目标文档分别在各个层的每个分类中出现的概率得到当前关键词序列中的每个关键词在第1层至第M层上对于目标文档的集成区分度(S209);合成全局区分度(S210);基于所述集成区分度的大小搜索该目标文档(S211)。

图2仅作为本发明的优选实施例来说明本发明,并非对本发明进行限制。比如,本领域的技术人员应当了解本发明的目标文档搜索方法的主要技术效果在于:利用数字化数据集中包括分类在内的辅助信息,估计出相对准确的关键词权重,从而有效地提高了信息检索的精度。由于步骤S207的技术效果是:通过在处理过程中去除关键词噪音来提高精度和减少响应时间,所以在缺少步骤S207的条件下,即,从步骤S206直接到达步骤S208,同样能够实现本发明。同理,由于步骤S208和步骤S210的技术效果分别是:通过在处理过程中去除分类噪音来提高查询精度和减少响应时间以及通过计算关键词权重的时候集合全局关键词权重计算方法来提高查询精度和提高系统的普遍适用性,所以,在缺少步骤S208和步骤S210的条件下,即,从步骤S206直接到达步骤S203以及从步骤S209直接到达步骤S211,同样能够实现本发明。其中关键词可以是一个词或者一个短语。

本发明的搜索文档的方法还兼容没有分类的数字化数据集并且合成模块还合成区分度计算器所计算的全部区分度,以便提高系统的普遍适用性,其中最好基于概率计算全局关键词。

最好,关键词对分类的区分能力按照如下标准确定:

(1)根据关键词对分类的区分能力估算的。

(2)根据关键词对不同分类的描述能力不同估算的。

(3)根据关键词在类中的出现频率同时考虑了分类本身的属性得到的。

图3示出根据本发明进行目标文档搜索的流程示意图。下面通过结合图3,将本发明的装置和方法相结合进行说明。

首先用户输入一个查询,该查询充分表现了用户的查询意图,在本系统中可以是几个词语,一个句子,一段描述,甚至是一篇文章。

系统的抽词模块首先对用户的查询进行,抽词处理,得到一个用户查询相对应的词语序列:

T=(t1,t2...tm)

在本文中,我们查询的数据集有这样一个特征:该数据分成若干个类,每个分类又可以分成若干个子类,这些子类又可以再分……

我们首先使用CSM模块选择第一层分类:

C=(c1,c2...cn)

每个在T向量中的每个关键词都对每个文档不同的区分能力(在这里我们把这种词语对文档的区分能力成为词语的权重)。估计这些关键词的权重是查询系统的一个关键点。本文实现了一种在基于多层分类关键词权重的估计系统,在这个系统中,我们通过对分类数据的不断细分来逐步逼近取得词语的最终权重。

根据我们在前面得到的向量T和C,我们使用DPC计算T中每个关键词对分类C的区分能力,通过DPC我们将得到一个相应的区分度向量:

DP=(dp1,dp2..dpm)

然后我们把区分度向量DP作为TSM模块的输入,来对噪音关键词进行一次过滤。这样我们就得到了一个新的关键词向量和相应的关键词对分类C的一个区分度序列:

T=(t1,t2...tm)DP=(dp1,dp2..dpm)

接下来我们把新的关键词向量和相应的区分度序列传入PRE模块,PRE模块将会估计用户查询的目标文档在各个分类中的可能性(PC):

PC=(pc1,pc2..pcn)

事实上,很多时候,用户想查找的文档属于分类ck,但是往往用户输入的查询语句中的某些查询词语将会错误地倾向于另外的分类。我们把这些类叫做噪音类。

为了避免这些噪音类的干扰,我们使用CL来删除这些噪音类,同时我们得到一个新的分类向量:

C=(c1,c2..cq)

对于C中的每个分类我们用CSM模块对这些分类进行进一步细分,例如对于ck∈C我们得到一个新的分类向量:

Ck=(ck1,ck2...cku)

和前面我们介绍处理上一级分类一样,我们把关键词序列和分类信息输入DPC模块来计算各个关键词在本级分类中的区分能力;然后使用PRE模块来估计目标文档在各个分类的可能性;然后使用CL来选择目标分类。如果需要的话,我们继续细分分类进行下一轮的计算。对于不用的数据集和不同精度要求,我们可以定义我们计算分类的级别。

到目前为止我们完成了对区分度的计算,我们得到了用户查询的关键词序列,各个关键词在每一层分类上的区分度,还有目标文档在各个分类的可能性。

我们把这些数据作为DIM模块的输入,DIM模块将会根据这些信息计算出最终的关键词区分度。

这个区分度对于类有着很大的区分能力,使用这个信息我们能很容易的定位到目标文档属于的分类,但是它也有一个缺点,如果这个词语是目标分类中的文章通用词汇(出现频率很高),那么我们就很难再通过这个词语在这些分类中挑出用户想得到的目标文档。所以我们集成使用另外一些基于统计

>>>>w>i>>′>>=>log>>(>k>*>>N>>n>t>>>+>1>)>>>

获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号