首页> 中国专利> 一种基于依存约束和知识的动词词义消歧方法和装置

一种基于依存约束和知识的动词词义消歧方法和装置

摘要

本发明公开了一种基于依存约束和知识的动词词义消歧方法和装置。方法包括:对大规模语料进行依存句法分析,收集所得的依存元组并统计其频数,构建依存知识库;对歧义动词所在句子进行依存句法分析,提取符合设定条件的17种依存元组,作为歧义动词的依存约束集合;根据语义词典,为歧义动词的各个词义,依次提取同义词集、反义词集、上位词集作为相应词义的词义代表词集;根据依存知识库和词义代表词集,依次计算歧义动词的各个词义在依存约束集合的后验概率;选择后验概率选择歧义动词的正确词义。利用本发明,可以充分发挥依存句法分析的作用,更准确有效地判定歧义动词的词义。

著录项

  • 公开/公告号CN106202036A

    专利类型发明专利

  • 公开/公告日2016-12-07

    原文格式PDF

  • 申请/专利权人 齐鲁工业大学;

    申请/专利号CN201610496860.8

  • 发明设计人 鹿文鹏;

    申请日2016-06-29

  • 分类号G06F17/27(20060101);

  • 代理机构

  • 代理人

  • 地址 250353 山东省济南市西部新城大学科技园大学路3501号齐鲁工业大学

  • 入库时间 2023-06-19 01:07:21

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-05-21

    授权

    授权

  • 2017-01-04

    实质审查的生效 IPC(主分类):G06F17/27 申请日:20160629

    实质审查的生效

  • 2016-12-07

    公开

    公开

说明书

技术领域

本发明涉及自然语言处理技术领域,具体涉及一种基于依存约束和知识的动词词义消歧方法和装置。

背景技术

词义消歧是指根据歧义词的上下文环境而自动判定其词义。词义消歧是自然语言处理领域的基础性任务,对机器翻译、信息检索、文本分类、自动文摘等具有直接影响。

基于知识库的词义消歧方法是目前唯一能够真正应用于大规模词义消歧任务的方法。其效果主要受到三个因素的影响:一是知识库的规模和质量,二是上下文相关词选择的准确性,三是词义相关度计算方法。现有的知识库建设方法,可以划分为自动构建和人工构建两种方式。前者通过统计学习的方法从语料库中自动获取知识,比如词共现、语言模型等;这种方法并未考虑词语的句法、词义关系,其难免受到一些近距离的噪声词的干扰。后者人工构建知识库;面对词义消歧所需知识的海量规模,显然是难以实现的。现有的词义消歧方法在为歧义词选择上下文相关词时,往往采用滑动窗口的方法;这种方法无法排除近距离的噪声词,同时会忽略远距离的相关词。这种滑动窗口的选择方法,没有考虑到歧义词词性的区别;不同的词性具有不同的特点,在为其进行相关词选择时应区别对待;现有方法显然忽视了词性的区别。现有的词义相关度计算方法,往往只是利用词典考虑词义的相关程度,而忽略了从句法或语义关系上考虑词义的相关程度。现有方法存在的这些问题,制约了词义消歧效果的提升。

面对现有基于知识库的词义消歧方法所存在的以上技术问题,本发明专利针对动词词义消歧的特点,充分挖掘依存句法分析技术的优势,实现一种基于依存约束和知识的动词词义消歧方法和装置,力求能够在一定程度上推动这些问题的解决。

发明内容

为解决现有技术存在的不足,本发明公开了一种基于依存约束和知识的动词词义消歧方法和装置,以更准确地判定歧义动词的词义。

为此,本发明提供如下技术方案:

一种基于依存约束和知识的动词词义消歧方法,包括以下步骤:

步骤一、对大规模语料进行依存句法分析,收集所得的依存元组并统计其频数,构建依存知识库;

步骤二、对歧义动词所在句子进行依存句法分析,从中提取支配词及从属词均为实词并且依存关系为17种设定类型的依存元组,作为歧义动词的依存约束集合;

步骤三、根据语义词典,为歧义动词的各个词义,依次提取同义词集、反义词集、上位词集作为相应词义的词义代表词集;

步骤四、根据依存知识库和词义代表词集,依次计算歧义动词的各个词义在依存约束集合的后验概率;

步骤五、根据步骤四的计算结果,选择后验概率最大的词义作为歧义动词的正确词义;若多个词义同时取得相等的最大后验概率,则从中选择词频最高的词义作为歧义动词的正确词义。

基于依存约束和知识的动词词义消歧方法中,所述依存元组为三元组形式,包括依存关系类型、支配词、从属词,可表示为:依存关系类型(支配词,从属词);其中支配词包含支配词的原形和词性信息,从属词包含从属词的原形和词性信息。

进一步的,所述步骤一中,在构建依存知识库时,具体为:

步骤1-1)对大规模语料库中的各个文档,依次进行依存句法分析和词形还原处理,收集其中蕴含的依存元组,并记录各依存元组的出现频次;

步骤1-2)汇总各文档中包含的依存元组集合和频次信息,得到依存知识库。

进一步的,所述步骤二中,在提取歧义动词的依存约束集合时,具体为:

步骤2-1)对歧义动词所在的句子进行依存句法分析和词形还原处理,收集其中涉及歧义动词的依存元组;

步骤2-2)对收集到的依存元组进行过滤,仅保留支配词及从属词均为实词并且依存关系为以下17种设定类型的元组:形容词补足(acomp),副词修饰(advmod),并列连接(conj),直接宾语(dobj),不定式修饰(infmod),间接宾语(iobj),名词性主语(nsubj),被动名词性主语(nsubjpass),分词修饰(partmod),介词修饰(prep),介词从句修饰(prepc),短语动词粒子(prt),目的从句修饰(purpcl),关系从句修饰(rcmod),时间修饰(tmod),开放从句补足(xcomp),开放从句的控制主语(xsubj)。

步骤2-3)将过滤后所得的依存元组的集合,作为歧义动词的依存约束集合。

进一步的,所述步骤三中,在提取各个词义的词义代表词集时,具体为:

步骤3-1)根据WordNet的Synonyms关系获得当前词义的同义词集;

步骤3-2)根据WordNet的Antonym关系获得当前词义的反义词集;

步骤3-3)根据WordNet的Hypernym关系获得当前词义的上位词集;

步骤3-4)将上述三类词集合并,剔除词组及歧义动词自身后,作为当前词义的词义代表词集。

进一步的,所述步骤四中,在计算词义在依存约束集合中的后验概率时,具体为:

步骤4-1)依次计算各个词义代表词在各个依存约束条件下的后验概率,具体为:

将词义代表词集中的某一词义代表词记作将某一依存约束元组记作rj'并表示为:rj(w1,w2);

若歧义动词为依存约束元组中的支配词,则此后验概率由公式(1)计算;

>P(wsi|rj)=P(wsi|rj,w2)=c(rj,wsi,w2)+1c(rj,*,w2)+M---(1)>

其中,表示依存关系类型为rj、支配词为从属词为w2的依存元组的数量;c(rj,*,w2)表示依存关系类型为rj、从属词为w2的依存元组的数量;M表示语义词典中包含的动词词形的总数;

若歧义动词为依存约束元组中的从属词,则此后验概率由公式(2)计算;

>P(wsi|rj)=P(wsi|rj,w1)=c(rj,w1,wsi)+1c(rj,w1,*)+M---(2)>

其中,表示依存关系类型为rj、支配词为w1、从属词为的依存元组的数量;c(rj,w1,*)表示依存关系类型为rj、支配词为w1的依存元组的数量;M表示语义词典中包含的动词词形的总数。

步骤4-2)依次计算各个词义在依存约束集合条件下的后验概率,具体为:

假定各个依存约束元组之间彼此条件独立,则此后验概率可由公式(3)计算;

>P(si|R)=maxwsiWsiΠrjRP(wsi|rj)---(3)>

其中,si表示某一词义,R表示依存约束集合,表示词义代表词集,rj'表示某一依存约束元组,表示某一词义代表词。

一种基于依存约束和知识的动词词义消歧装置,包括:

依存知识库构建单元,用于对大规模语料进行依存句法分析,收集所得的依存元组并统计其频数,构建依存知识库;

歧义词依存约束集合提取单元,用于对歧义动词所在句子进行依存句法分析,从中提取支配词及从属词均为实词并且依存关系为17种设定类型的依存元组,作为歧义动词的依存约束集合;

歧义词词义代表词集提取单元,用于根据语义词典,为歧义动词的各个词义,依次提取同义词集、反义词集、上位词集作为相应词义的词义代表词集;

词义后验概率计算单元,用于根据依存知识库和词义代表词集,依次计算歧义动词的各个词义在依存约束集合的后验概率;

歧义词词义选择单元,用于根据词义后验概率计算单元的输出数据,选择后验概率最大的词义作为歧义动词的正确词义;若多个词义同时取得相等的最大后验概率,则从中选择词频最高的词义作为歧义动词的正确词义。

基于依存约束和知识的动词词义消歧装置中,所述依存元组为三元组形式,包括依存关系类型、支配词、从属词,可表示为:依存关系类型(支配词,从属词);其中支配词包含支配词的原形和词性信息,从属词包含从属词的原形和词性信息。

进一步的,所述依存知识库构建单元还包括:

单文档依存处理单元,用于对大规模语料库中的各个文档,依次进行依存句法分析和词形还原处理,收集其中蕴含的依存元组,并记录各依存元组的出现频次;

依存知识归并单元,用于汇总各文档中包含的依存元组集合和频次信息,得到依存知识库;

进一步的,所述歧义词依存约束集合提取单元还包括:

歧义句依存处理单元,用于对歧义动词所在的句子进行依存句法分析和词形还原处理,收集其中涉及歧义动词的依存元组;

依存元组过滤单元,用于对收集到的依存元组进行过滤,仅保留支配词及从属词均为实词并且依存关系为以下17种设定类型的元组:形容词补足(acomp),副词修饰(advmod),并列连接(conj),直接宾语(dobj),不定式修饰(infmod),间接宾语(iobj),名词性主语(nsubj),被动名词性主语(nsubjpass),分词修饰(partmod),介词修饰(prep),介词从句修饰(prepc),短语动词粒子(prt),目的从句修饰(purpcl),关系从句修饰(rcmod),时间修饰(tmod),开放从句补足(xcomp),开放从句的控制主语(xsubj);

依存约束集合收集单元,用于将过滤后所得的依存元组的集合作为歧义动词的依存约束集合;

进一步的,所述歧义词词义代表词集提取单元还包括:

同义代表词提取单元,用于根据WordNet的Synonyms关系获得当前词义的同义词集;

反义代表词提取单元,用于根据WordNet的Antonym关系获得当前词义的反义词集;

上位代表词提取单元,用于根据WordNet的Hypernym关系获得当前词义的上位词集;

词义代表词归并单元,用于将同义词集、反义词集、上位词集合并,剔除词组及歧义动词自身后,作为当前词义的词义代表词集;

进一步的,所述词义后验概率计算单元还包括:

词义代表词后验概率计算单元,用于计算特定词义代表词在特定依存约束条件下的后验概率;

词义在依存约束集合条件下的后验概率计算单元,用于计算特定词义在依存约束集合条件下的后验概率。

本发明的有益效果:

1、本发明利用依存句法分析技术完成依存知识库的构建,考虑了词语之间的句法、语义关系,所构建的依存知识库具有较高质量。

2、针对动词的特点,本发明优选了17种类型的语义关系密切的依存元组,构建其依存约束集合,可减少其它无关元组的干扰,使其上下文相关词的选择更为准确。

3、针对动词的特点,本发明优选同义词集、反义词集、上位词集作为相应词义的词义代表词集,能够较为准确地评估词义在上下文环境的适合程度。

4、本发明提出的词义在依存约束集合的后验概率的计算方法,考虑了句法、语义关系,能够更为全面准确地评估词义与上下文环境的匹配程度。

5、本发明提出的基于依存约束和知识的动词词义消歧方法和装置,能够自动完成依存知识库的构建,准确地选择依存约束元组,并计算词义的后验概率,具有较高的消歧正确率,改善动词的词义消歧效果。

附图说明

图1为根据本发明实施方式基于依存约束和知识的动词词义消歧方法的流程图;

图2为根据本发明实施方式基于依存约束和知识的动词词义消歧装置的结构示意图;

图3为根据本发明实施方式依存知识库构建单元的结构示意图;

图4为根据本发明实施方式歧义词依存约束集合提取单元的结构示意图;

图5为根据本发明实施方式歧义词词义代表词集提取单元的结构示意图;

图6为根据本发明实施方式词义后验概率计算单元的结构示意图。

具体实施方式:

为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对发明实施例作进一步的详细说明。

以对句子“The homelessness people we examined had a multitude ofphysical disorders.”中的歧义动词examine进行消歧处理为例。

根据WordNet 3.0,动词examine的词义信息如表1所示。

表1

其中,#v代表词性为动词,#1~#5代表五个不同的词义编号。

本发明实施例基于依存约束和知识的动词词义消歧方法的流程图,如图1所示,包括以下步骤。

步骤101,构建依存知识库。

对大规模语料进行依存句法分析,收集所得的依存元组并统计其频数,构建依存知识库,具体为:

步骤1-1)对大规模语料库中的各个文档,依次进行依存句法分析和词形还原处理,收集其中蕴含的依存元组,并记录各依存元组的出现频次;

步骤1-2)汇总各文档中包含的依存元组集合和频次信息,得到依存知识库。

本发明实施例中,使用Reuter Corpus作为语料库,其中包含了路透社人工收集整理的80余万篇新闻文档;依存句法分析工具采用斯坦福大学所提供的Stanford Parser句法分析器,使用englishPCFG.ser.gz语言模型,并允许对依存关系进行折叠和传递处理;借助WordNet 3.0进行词形还原。

首先根据步骤1-1)逐篇对Reuter Corpus中的新闻文档进行依存句法分析和词形还原处理,收集形如“relation(w1,w2)”的依存元组,并记录它们的出现频次。(本发明专利具体实施方式中所述依存元组“relation(w1,w2)”中的支配词w1和从属词w2均包括其原形和词性信息)。

然后根据步骤1-2)将各新闻文档包含的依存元组集合和频次信息合并,得到依存知识库。最终得到的依存知识库中共包含不同类型的依存元组13417302个,其出现频次总和为93850841个。

步骤102,提取歧义动词的依存约束集合。

对歧义动词所在句子进行依存句法分析,从中提取17种类型的依存元组,作为歧义动词的依存约束集合,具体为:

步骤2-1)对歧义动词所在的句子进行依存句法分析和词形还原处理,收集其中涉及歧义动词的依存元组。

本发明实施例中,依存句法分析工具采用斯坦福大学所提供的Stanford Parser句法分析器,使用englishPCFG.ser.gz语言模型,并允许对依存关系进行折叠和传递处理;借助WordNet3.0进行词形还原。

对句子“The homelessness people we examined had a multitude ofphysical disorders.”进行依存句法分析和词形还原处理后,得到的依存元组集合包含如下元组:det(people,the)、nn(people,homelessness)、dobj(examine,people)、nsubj(have,people)、nsubj(examine,we)、rcmod(people,examine)、det(multitude,a)、dobj(have,multitude)、prep(multitude,disorder)、amod(disorder,physical)。

从上述依存元组集合中收集涉及到歧义动词examine的元组,得到的依存元组集合包含如下元组:dobj(examine,people)、nsubj(examine,we)、rcmod(people,examine)。

步骤2-2)对收集到的依存元组进行过滤,仅保留支配词及从属词均为实词并且依存关系为以下17种设定类型的元组:形容词补足(acomp),副词修饰(advmod),并列连接(conj),直接宾语(dobj),不定式修饰(infmod),间接宾语(iobj),名词性主语(nsubj),被动名词性主语(nsubjpass),分词修饰(partmod),介词修饰(prep),介词从句修饰(prepc),短语动词粒子(prt),目的从句修饰(purpcl),关系从句修饰(rcmod),时间修饰(tmod),开放从句补足(xcomp),开放从句的控制主语(xsubj)。

本发明实施例中,对步骤2-1)所得到的依存元组集合进行过滤,仅保留支配词及从属词均为实词并且依存关系为17种设定类型的元组,过滤后的依存元组集合包含如下元组:dobj(examine,people)、rcmod(people,examine)。

步骤2-3)将过滤后所得的依存元组的集合,作为歧义动词的依存约束集合。

本发明实施例中,将步骤2-2)所得到的依存元组集合,作为歧义动词的依存约束集合。可得依存约束集合包含如下元组:dobj(examine,people)、rcmod(people,examine)。

需要说明的是,在本发明实施例中,依存元组中的支配词和从属词均包括原形和词性信息。对于依存约束集合中所涉及的词语,examine即指动词examine、people即指名词people。

步骤103,提取歧义动词的词义代表词集。

根据语义词典WordNet 3.0,为歧义动词的各个词义,依次提取同义词集、反义词集、上位词集作为相应词义的词义代表词集,具体为:

步骤3-1)根据WordNet的Synonyms关系获得当前词义的同义词集;

步骤3-2)根据WordNet的Antonym关系获得当前词义的反义词集;

步骤3-3)根据WordNet的Hypernym关系获得当前词义的上位词集;

步骤3-4)将上述三类词集合并,剔除词组及歧义动词自身后,作为当前词义的词义代表词集。

在本发明实施例中,对于歧义动词examine的各个词义的处理的说明,以examine#v#1为例。

对于词义examine#v#1,由步骤3-1)可得其同义词集为{analyze,analyse,study,canvass,canvas,examine};由步骤3-2)可得其反义词集为空集;由步骤3-3)可得其上位词集为空集;由步骤3-4),将前述三类词集合并,并剔除词组及examine自身后,可得词义examine#v#1的词义代表词集为{analyze,analyse,study,canvass,canvas}。

同理,对于词义examine#v#2,由步骤3-1)至步骤3-4),可得其词义代表词集为{see}。

同理,对于词义examine#v#3,由步骤3-1)至步骤3-4),可得其词义代表词集为{investigate,probe}。

同理,对于词义examine#v#4,由步骤3-1)至步骤3-4),可得其词义代表词集为{question,query}。

同理,对于词义examine#v#5,由步骤3-1)至步骤3-4),可得其词义代表词集为{test,prove,try,essay,evaluate,judge}。

步骤104,计算歧义动词的各个词义后验概率。

根据依存知识库和词义代表词集,依次计算歧义动词的各个词义在依存约束集合的后验概率,具体为:

步骤4-1)依次计算各个词义代表词在各个依存约束条件下的后验概率,具体为:

将词义代表词集中的某一词义代表词记作将某一依存约束元组记作rj'并表示为:rj(w1,w2);

若歧义动词为依存约束元组中的支配词,则此后验概率由公式(1)计算;

>P(wsi|rj)=P(wsi|rj,w2)=c(rj,wsi,w2)+1c(rj,*,w2)+M---(1)>

其中,表示依存关系类型为rj、支配词为从属词为w2的依存元组的数量;c(rj,*,w2)表示依存关系类型为rj、从属词为w2的依存元组的数量;M表示语义词典中包含的动词词形的总数;

若歧义动词为依存约束元组中的从属词,则此后验概率由公式(2)计算;

>P(wsi|rj)=P(wsi|rj,w1)=c(rj,w1,wsi)+1c(rj,w1,*)+M---(2)>

其中,表示依存关系类型为rj、支配词为w1、从属词为的依存元组的数量;c(rj,w1,*)表示依存关系类型为rj、支配词为w1的依存元组的数量;M表示语义词典中包含的动词词形的总数。

步骤4-2)依次计算各个词义在依存约束集合条件下的后验概率,具体为:

假定各个依存约束元组之间彼此条件独立,则此后验概率可由公式(3)计算;

>P(si|R)=maxwsiWsiΠrjRP(wsi|rj)---(3)>

其中,si表示某一词义,R表示依存约束集合,表示词义代表词集,rj'表示某一依存约束元组,表示某一词义代表词。

在本发明实施例中,因WordNet 3.0中动词词形总数为11488,故公式(1)和(2)中的M值均设为11488。

以词义examine#v#3为例,说明步骤4-1)至步骤4-3)的具体操作过程。

由步骤102已得,依存约束集合R包含如下元组:dobj(examine,people)、rcmod(people,examine)。

由步骤103已得,词义examine#v#3(记作s3)的词义代表词集为{investigate,probe}。

由步骤4-1)依次计算中的各个词义代表词在依存约束集合R中各依存约束条件下的后验概率,过程如下:

因examine为依存约束元组dobj(examine,people)的支配词,故词义代表词investigate在该依存约束元组中的后验概率可由公式(1)计算;根据步骤101统计而得的依存知识库,可得c(dobj,investigate,people)的值为24,c(dobj,*,people)的值为26854;故可得:

>P(investigate|dobj,people)=c(dobj,investigate,people)+1c(dobj,*,people)+11488=24+126854+11488=6.520264983568932E-4>

因examine为依存约束元组rcmod(people,examine)的从属词,故词义代表词investigate在该依存约束元组中的后验概率可由公式(2)计算;根据步骤101统计而得的依存知识库,可得c(rcmod,people,investigate)的值为4,c(rcmod,people,*)的值为8930;故可得:

>P(investigate|rcmod,people)=c(rcmod,people,investigate)+1c(rcmod,people,*)+11488=24+18930+11488=2.44881966889195806E-4>

同理,可得:

P(probe|dobj,people)=1.3040529967137864E-4

P(probe|rcmod,people)=4.8976393378391615E-5

由步骤4-2)计算词义examine#v#3在依存约束集合条件下的后验概率,过程如下:

已知依存约束集合R中所包含的依存约束元组分别为:dobj(examine,people)、rcmod(people,examine);词义examine#v#3的Ws3为{investigate,probe}。

首先,对于词义examine#v#3的各个词义代表词分别计算其

对于词义代表词investigate,代入步骤4-1)的计算结果,可得:

>ΠrjRP(investigate|rj)=6.520264983568932E-4×2.4488196689195806E-4=1.5966953138331207E-7.>

对于其他词义代表词,同理可得:

>ΠrjRP(probe|rj)=1.3040529967137864E-4×4.8976393378391615E-5=6.386781255332483E-9.>

然后,根据公式(3),从中选一个最大值作为P(s3|R);可得P(s3|R)的值为1.5966953138331207E-7。

对于其它各个词义examine#v#1、examine#v#2、examine#v#4、examine#v#5,分别记作s1、s2、s4、s5;由步骤4-1)和步骤4-2),同理可得:

P(s1|R)=4.087540003412789E-8

P(s2|R)=3.544663596709528E-5

P(s4|R)=2.499786183337134E-6

P(s5|R)=2.499786183337134E-6

步骤105,根据词义后验概率选择歧义动词的正确词义。

根据步骤104的计算结果,选择后验概率最大的词义作为歧义动词的正确词义;若多个词义同时取得相等的最大后验概率,则从中选择词频最高的词义作为歧义动词的正确词义。

由步骤104,比较P(s1|R)、P(s2|R)、P(s3|R)、P(s4|R)、P(s5|R)的大小,可知P(s2|R)的值最大,故将词义s2,即examine#v#2,作为歧义动词examine的正确词义。

需要说明的是,步骤105中,如果多个词义同时取得相等的最大后验概率,则根据WordNet3.0的词频信息,从中选择词频最高的词义作为歧义动词的正确词义。

通过以上操作步骤,即可完成歧义动词examine的词义消歧工作。

相应地,本发明实施例还提供一种基于依存约束和知识的动词词义消歧装置,其结构示意图如图2所示。

在该实施例中,所述装置包括:

依存知识库构建单元201,用于对大规模语料进行依存句法分析,收集所得的依存元组并统计其频数,构建依存知识库;

歧义词依存约束集合提取单元202,用于对歧义动词所在句子进行依存句法分析,从中提取支配词及从属词均为实词并且依存关系为17种设定类型的依存元组,作为歧义动词的依存约束集合;

歧义词词义代表词集提取单元203,用于根据语义词典,为歧义动词的各个词义,依次提取同义词集、反义词集、上位词集作为相应词义的词义代表词集;

词义后验概率计算单元204,用于根据依存知识库和词义代表词集,依次计算歧义动词的各个词义在依存约束集合的后验概率;

歧义词词义选择单元205,用于根据词义后验概率计算单元的输出数据,选择后验概率最大的词义作为歧义动词的正确词义;若多个词义同时取得相等的最大后验概率,则从中选择词频最高的词义作为歧义动词的正确词义;

需要说明的是,在本发明实施例中,该装置中各构成单元所述依存元组为三元组形式,包括依存关系类型、支配词、从属词,可表示为:依存关系类型(支配词,从属词);其中支配词包含支配词的原形和词性信息,从属词包含从属词的原形和词性信息。

图2所示装置的依存知识库构建单元201的结构示意图如图3所示,其包括:

单文档依存处理单元301,用于对大规模语料库中的各个文档,依次进行依存句法分析和词形还原处理,收集其中蕴含的依存元组,并记录各依存元组的出现频次;

依存知识归并单元302,用于汇总各文档中包含的依存元组集合和频次信息,得到依存知识库。

图2所示装置的歧义词依存约束集合提取单元202的结构示意图如图4所示,其包括:

歧义句依存处理单元401,用于对歧义动词所在的句子进行依存句法分析和词形还原处理,收集其中涉及歧义动词的依存元组;

依存元组过滤单元402,用于对收集到的依存元组进行过滤,仅保留支配词及从属词均为实词并且依存关系为以下17种设定类型的元组:形容词补足(acomp),副词修饰(advmod),并列连接(conj),直接宾语(dobj),不定式修饰(infmod),间接宾语(iobj),名词性主语(nsubj),被动名词性主语(nsubjpass),分词修饰(partmod),介词修饰(prep),介词从句修饰(prepc),短语动词粒子(prt),目的从句修饰(purpcl),关系从句修饰(rcmod),时间修饰(tmod),开放从句补足(xcomp),开放从句的控制主语(xsubj);

依存约束集合收集单元403,用于将过滤后所得的依存元组的集合作为歧义动词的依存约束集合。

图2所示装置的歧义词词义代表词集提取单元203的结构示意图如图5所示,其包括:

同义代表词提取单元501,用于根据WordNet的Synonyms关系获得当前词义的同义词集;

反义代表词提取单元502,用于根据WordNet的Antonym关系获得当前词义的反义词集;

上位代表词提取单元503,用于根据WordNet的Hypernym关系获得当前词义的上位词集;

词义代表词归并单元504,用于将同义词集、反义词集、上位词集合并,剔除词组及歧义动词自身后,作为当前词义的词义代表词集。

图2所示装置的词义后验概率计算单元204的结构示意图如图6所示,其包括:

词义代表词后验概率计算单元601,用于计算特定词义代表词在特定依存约束条件下的后验概率;

词义在依存约束集合条件下的后验概率计算单元602,用于计算特定词义在依存约束集合条件下的后验概率。

可以将图2~图6所示的基于依存约束和知识的动词词义消歧装置集成到各种硬件实体中。比如,可以将基于依存约束和知识的动词词义消歧装置集成到:个人电脑、平板电脑、智能手机、工作站等设备之中。

可以通过指令或指令集存储的储存方式将本发明实施方式所提出的基于依存约束和知识的动词词义消歧方法存储在各种存储介质上。这些存储介质包括但不局限于:软盘、光盘、硬盘、内存、U盘、CF卡、SM卡等。

综上所述,在本发明实施方式中,对大规模语料进行依存句法分析,收集所得的依存元组并统计其频数,构建依存知识库;对歧义动词所在句子进行依存句法分析,从中提取支配词及从属词均为实词并且依存关系为17种设定类型的依存元组,作为歧义动词的依存约束集合;根据语义词典,为歧义动词的各个词义,依次提取同义词集、反义词集、上位词集作为相应词义的词义代表词集;根据依存知识库和词义代表词集,依次计算歧义动词的各个词义在依存约束集合的后验概率;选择后验概率最大的词义作为歧义动词的正确词义(若多个词义同时取得相等的最大后验概率,则从中选择词频最高的词义作为歧义动词的正确词义)。由此可见,应用本发明实施方式之后,实现了基于依存约束和知识的动词词义消歧。本发明实施方式可以利用依存句法分析技术完成依存知识库的构建,从而提高知识库的质量;优选了17种类型的依存元组,从而排除无关元组的干扰,使其上下文相关词的选择更为准确;优选了3种类型的词义代表词集,从而较为准确地评估词义在上下文环境的适合程度;提出了词义在依存约束集合的后验概率的计算方法,考虑了句法、语义关系,从而更为全面准确地评估词义与上下文环境的匹配程度。本发明实施方式所实现的基于依存约束和知识的动词词义消歧方法和装置,能够自动完成依存知识库的构建,准确地选择依存约束元组,并计算词义的后验概率,具有较高的消歧正确率。

本说明书中的实施例采用递进的方式描述,彼此相同相似的部分互相参见即可。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。

以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法和装置;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,故本说明书不应理解为对本发明的限制。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号