首页> 中国专利> 一种文本的候选关键词的提取方法

一种文本的候选关键词的提取方法

摘要

本发明公开了一种文本的候选关键词的提取方法,给每个自然词确定对应的词项,并存储到自然词数据库中,设置多个候选关键词模板,存入模板库,根据自然词数据库对文本进行词法分析,获得文本每个自然词及其对应的词项,从模板库中按顺序抽取候选关键词模板,按照文本的自然词的顺序,将候选关键词模板与文本全部自然词逐个进行比对,如果连续的自然词都满足候选关键词模板中的约束项的词项要求,则将连续的自然词中对应当前文约束项序列的自然词组合作为候选关键词,直到所有的候选关键词模板完成比对。采用了本发明的技术方案,能够提高文本的标引质量,从而提高文本检索的查准率。

著录项

  • 公开/公告号CN102682049A

    专利类型发明专利

  • 公开/公告日2012-09-19

    原文格式PDF

  • 申请/专利权人 天脉聚源(北京)传媒科技有限公司;

    申请/专利号CN201110337333.X

  • 发明设计人 韩建波;

    申请日2011-10-31

  • 分类号G06F17/30(20060101);

  • 代理机构

  • 代理人

  • 地址 100007 北京市东城区安定门东大街28号雍和大厦E座808室

  • 入库时间 2023-12-18 08:00:51

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-10-14

    未缴年费专利权终止 IPC(主分类):G06F17/30 专利号:ZL201110337333X 申请日:20111031 授权公告日:20140423

    专利权的终止

  • 2015-11-11

    专利权质押合同登记的生效 IPC(主分类):G06F17/30 登记号:2015990000797 登记生效日:20151014 出质人:天脉聚源(北京)传媒科技有限公司 质权人:北京国华文创融资担保有限公司 发明名称:一种文本的候选关键词的提取方法 授权公告日:20140423 申请日:20111031

    专利权质押合同登记的生效、变更及注销

  • 2015-10-28

    专利权的转移 IPC(主分类):G06F17/30 登记生效日:20150928 变更前: 变更后: 申请日:20111031

    专利申请权、专利权的转移

  • 2015-01-14

    专利权的转移 IPC(主分类):G06F17/30 变更前: 变更后: 登记生效日:20141226 申请日:20111031

    专利申请权、专利权的转移

  • 2014-04-23

    授权

    授权

  • 2012-11-14

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20111031

    实质审查的生效

  • 2012-09-19

    公开

    公开

查看全部

说明书

技术领域

本发明涉及文本检索技术领域,尤其涉及一种文本的候选关键词的提取方法。

背景技术

随着信息社会的发展,人们面对的是海量的信息源,其中一种重要的信息源就是文本信息。如何在浩如烟海的文本信息中,获取自己需要的文本,是人们工作学习的首要问题。

目前多是对每一个文本给出相关的关键词,人们通过关键词的检索来获取自己需要的文本。如何给每个文本给出合适的关键词,是提高文本查全率和查准率的重要环节。

在利用计算机标引文本时,目前都是采用文本自身的词汇作为关键词抽取出来,具体步骤如下:

1、对预处理的文本进行词法分析。例如,预处理文本为“据悉2008年北京奥运会将于8月8日开幕。”

词法分析之后的结果就是:据悉/v 2008年/m 北京/ns 奥运会/n 将/d 于/p 8月/t 8日/t 开幕/v 。/wj。

2、提取候选关键词

根据词性和词形等约束,来提取候选关键词,并记录用于计算权重的信息,比如候选关键词出现的位置信息。

如上例,如果存在约束1:词性要求是名词(n)、动词(v)和命名实体(nr,ns,nt,nz);约束2:要求词语不能是停用词。

则根据约束1,可提取“据悉/v、 北京/ns、 奥运会/n、 开幕/v”等词;

根据约束2,可删除“据悉/v”,(本处假设“据悉”为停用词)。

3、统计候选关键词信息并计算权重。统计第2步处理的结果,根据相关信息进行计算权重。相关信息一般指词性、词形、词位、词长等元素,带入一定的公式中计算。

4、选择关键词。将第3步的处理结果进行降序排列,根据一定的选择策略来选择关键词。比较简单的选择策略为提取排完序的候选关键词序列的前几个词语作为关键词。

以上技术方案存在的问题是:获得的关键词都是含义简单的单词,通用性较强,难以深入地反映文本的真实意义,因此检索出来的文本针对性不够,准确性不高。

发明内容

本发明的目的在于提出一种文本的候选关键词的提取方法,能够提高文本的标引质量,从而提高文本检索的查准率。

为达此目的,本发明采用以下技术方案:

一种文本的候选关键词的提取方法,包括以下步骤:

A、给每个自然词确定对应的词项,并将自然词和与其对应的词项存储到自然词数据库中;

B、设置不少于1个候选关键词模板,存入模板库,每个候选关键词模板包括1个模板项序列,每个模板项序列包括上文约束项、当前文约束项序列和下文约束项,当前文约束项序列包括不少于2个约束项,每个约束项包括一个自然词字段和一个预定的词项;

C、根据自然词数据库对文本进行词法分析,获得文本每个自然词及其对应的词项;

D、从模板库中按顺序抽取1个候选关键词模板;

E、按照所述文本的自然词的顺序,将所述候选关键词模板与所述文本全部自然词逐个进行比对,如果连续的自然词都满足所述候选关键词模板中的约束项的词项要求,则将所述连续的自然词中对应所述候选关键词模板中的模板项序列的当前文约束项序列的自然词组合作为所述文本的候选关键词;

F、返回步骤D,直到所有的候选关键词模板完成比对。

所述候选关键词模板还包括模板项序列的权值。

采用了本发明的技术方案,由于采用结构合理的、字数较多的短句作为文本的关键词,因此该关键词能够更专一的标引文本,从而利用该关键词进行文本检索时,能够准确地检索到需要的文本。

附图说明

图1是本发明具体实施方式中文本的候选关键词的提取流程图。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。

图1是本发明具体实施方式中文本的候选关键词的提取流程图。如图1所示,该候选关键词的提取流程包括以下步骤:

步骤101、给每个自然词确定对应的词项,并将自然词和与其对应的词项存储到自然词数据库中。

例如“据悉/v 2008年/m 北京/ns 奥运会/n 将/d 于/p 8月/t 8日/t 开幕/v 。/wj”中,各个自然词后面跟随的字母就代表某个词项,这里的词项可以是词性、词形、命名实体、语义,等等。

步骤102、设置多个候选关键词模板,存入模板库,每个候选关键词模板包括1个模板项序列及其权值,每个模板项序列包括上文约束项、当前文约束项序列和下文约束项,当前文约束项序列包括多个约束项,每个约束项包括一个自然词字段和一个预定的词项。

例如,模板“(*,m)(*,ns) (奥运会,*) (*,d):0.1”,模板项序列为“(*,m)(*,ns) (奥运会,*) (*,d)”,其中(*,ns) 是词性约束,(奥运会,*)是词形约束,模板权重为“0.1”。

其中模板项序列由关键词的上文约束项、当前文约束项序列和下文约束项组成,还以上面大模板为例,上文约束项为“(*,m)”,它不属于候选关键词内容,下文约束项为“(*,d)”,它也不属于候选关键词内容,当前文约束项序列为“(*,ns) (奥运会,*)”,其内容为候选关键词内容。

步骤103、根据自然词数据库对文本进行词法分析,获得文本每个自然词及其对应的词项。

例如文本“据悉2008年北京奥运会将于8月8日开幕。”进行词法分析后,结果为“据悉/v 2008年/m 北京/ns 奥运会/n 将/d 于/p 8月/t 8日/t 开幕/v 。/wj”。

步骤104、从模板库中按顺序抽取1个候选关键词模板。例如候选关键词模板“(*,m)(*,ns)(奥运会,*)(*,d):0.1”。

步骤105、按照文本的自然词的顺序,将候选关键词模板与文本全部自然词逐个进行比对,如果连续的自然词都满足候选关键词模板中的约束项的词项要求,则将连续的自然词中对应候选关键词模板中的模板项序列的当前文约束项序列的自然词组合作为文本的候选关键词。

例如,针对“据悉/v 2008年/m 北京/ns 奥运会/n 将/d 于/p 8月/t 8日/t 开幕/v 。/wj”这个文本,采用候选关键词模板“(*,m)(*,ns)(奥运会,*)(*,d):0.1”进行比对,首先用约束项“(*,m)”在文本中逐个自然词进行比对,找到“2008年/m”匹配,再将后面的约束项“(*,ns)(奥运会,*)(*,d)”与文本中“2008年/m”后面的连续自然词逐个进行比对,确定“北京/ns 奥运会/n 将/d”与约束项“(*,ns)(奥运会,*)(*,d)”都能够匹配,因此将文本中“2008年/m 北京/ns 奥运会/n 将/d”的上文约束项“2008年/m”和下文约束项“将/d”删除,抽取对应当前文约束项序列“(*,ns)(奥运会,*)”的“北京/ns 奥运会/n”中的“北京奥运会”作为文本的候选关键词。

返回步骤104,按顺序抽取下1个候选关键词模板,直到所有的候选关键词模板完成比对。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号