首页> 中国专利> 一种高精度汉语谓词识别方法

一种高精度汉语谓词识别方法

摘要

本发明涉及一种基于规则和统计相结合的谓词识别方法,属于自然语言处理与机器学习领域,目的是为解决谓词高精度高效率识别问题。本发明采用分步识别方法,从已进行词法和句法标注的句子中识别谓词,首先对待测句子进行词法分析,得到可疑谓词及其个数;接着利用初步识别判定条件进行谓词初步识别;对不满足初步识别判定条件的可疑谓词提取相关词法和句法特征并利用C4.5训练得到的决策树判定模型对其进行判定;最终汇总两步识别结果给出每个待测句子中的谓词。本发明具有准确率高、识别速度快、对非动词性谓词识别率高等特点,适用于要求高精度的汉语谓词识别领域,对句义分析的发展具有很大的推动作用,具有很好的应用价值和推广价值。

著录项

  • 公开/公告号CN103150381A

    专利类型发明专利

  • 公开/公告日2013-06-12

    原文格式PDF

  • 申请/专利权人 北京理工大学;

    申请/专利号CN201310080760.3

  • 申请日2013-03-14

  • 分类号G06F17/30(20060101);G06F17/28(20060101);

  • 代理机构

  • 代理人

  • 地址 100081 北京市海淀区中关村南大街5号

  • 入库时间 2024-02-19 19:15:47

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-03-30

    未缴年费专利权终止 IPC(主分类):G06F17/30 授权公告日:20160302 终止日期:20170314 申请日:20130314

    专利权的终止

  • 2016-03-02

    授权

    授权

  • 2013-07-17

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20130314

    实质审查的生效

  • 2013-06-12

    公开

    公开

说明书

技术领域

本发明涉及一种基于规则和统计相结合的汉语谓词识别方法,属于自然 语言处理与机器学习领域。

背景技术

自然语言处理技术在词法和句法上的研究已经取得了重大进展,相比较 而言,对语义、语用和语境知识的研究一直是一个难以跨越的瓶颈。要想让 计算机真正的理解自然语言,语义分析是必经之路。谓词识别是进行进一步 语义分析的基础,对于语义分析的后续工作起着关键性的作用,因此,高准 确率、高效率的谓词识别方法尤其重要。

汉语谓词识别需要解决两个基本问题:1.如何提取代表性强、区分度高 的规则或者特征组合来约束或者表征谓词;2.采用何种准确率高、判定速度 快的模型来识别谓词。综观现有谓词识别方法,主要是基于规则的方法和基 于统计的方法,还有规则和统计相结合的方法。

1.基于规则的方法

规则的方法通常由语言学家基于语料和内省的办法构造规则库进行 自然语言处理,对于语言学的知识有很好的概括性和解释性,但是因为 规则的颗粒度大小、覆盖面大小、规则间竞争冲突等问题很难把握,基 于规则的方法有其瓶颈之处。主要的方法有:

(1)面向基于实例的汉英机器翻译系统(Example-Based Machine  Translation,EBMT)的汉语谓词识别:该方法提出了一种折中的汉 语句子分析方法—骨架依存分析法,通过确定谓词来把握句子的整体 结构,提出了一种根据汉英例句集合中英语例句的谓词来识别相应的 汉语例句的谓词的策略。对例句集合中的3000汉语例句进行谓词的 自动识别,识别准确率达到87.3%。

(2)面向科技论文的谓词识别:该方法是针对科技论文这一特定文体的句 法分析研究提出的谓词识别,仅对动词做中心谓词(限于句子第一层 的谓词)的情况进行了识别,没有给出实验的具体识别准确率。其识 别的基本步骤为:1)按照字典对句子(以句号结尾)进行分词,将具有 动词性质的词放入集合D中;2)若D为空则给出错误信息;若D中 只有一个元素则用一部分规则判断,然后转入句法分析;否则转入第 三步;3)运用另一部分规则删去D中不属于中心谓词的动词,若D 为空则给出错误信息;否则转入第四步;4)运用剩余的规则找出中 心谓词。

(3)利用主语和谓语的句法关系识别谓词:在利用谓词候选项的静态语法 特征和动态语法特征来识别谓词的基础上,提出了一种利用句子的主 语和谓语之间句法关系来识别谓词的方法。该方法的具体步骤为:1) 根据词性选择出主语的初始候选项和谓词的初始候选项;2)根据在 训练集中习得的特征对谓词候选项进行进一步筛选,将一些可以成为 主语的谓词候选项归入主语候选项的集合;3)对主语候选项进行一 定的连接,使句子的结构更加清晰,并为下一步判别句子的类型做准 备;4)判别句子的类型,并根据结果选择出谓词候选项所具有的句 法特征;5)将谓词候选项具有的特征组织并计算,计算得出的值作 为度量谓词候选项的标准。经过测试,谓词的识别准确率达到了 91.3%(开放测试中的结果)。

(4)面向数据分析的谓词识别:该方法提出面向事件描述小句的汉语自动 句法分析的方法和步骤,在句法分析之前对真实语料进行小句划分的 预处理,预处理阶段采用一种基于谓词识别和规则方法,将汉语句子 分割成多个事件描述小句;然后基于DOP对汉语事件描述小句进行 句法分析;最后通过组合处理实现完整句子的句法分析。该方法的好 处是可以将句法分析的任务分步处理,将词数较多的复杂句简单化, 从而提高句法分析的速度和精度。谓词识别是作为事件描述小句识别 的一部分开展的。该方法基于CIPS-ParsEval-2009提供的171篇TCT 训练语料,对动词、形容词做谓词的情况均进行了识别,取得了89.94% 的识别准确率。

2.基于统计的方法

(1)基于统计决策树模型(Statistical Decision Tree,简称SDT)的谓词识别: SDT是一个决策机制,它根据一系列特征来为每一个可能的选择赋予 一个概率值P(f|h)。其中,h表示一系列特征,f为当前做出的选择。 概率值P(f|h)由前n个特征提问序列q1,q2,…,qn来决定。其中, 第i个特征提问仅与前i-1个特征提问有关,内部结点是提问结点, 一个提问结点表示对一个特征的提问,从该结点延伸的树枝代表该特 征可能的取值,叶结点是选择结点,表示符合从根结点到该叶结点的 路径上所有特征的词的分类(这里的分类包括候选词是谓词和候选词 不是谓词两类),并且叶结点作出的选择是以概率的形式表示的。识 别某个例句的谓词就是在所有的叶结点中找出概率最大的那一个作 为谓词。应用SDT对动词和形容词做谓词的情况进行识别,闭集测 试识别准确率最高可达81.3%,开集测试准确率最高可达78.6%。

(2)基于支持向量机(Support Vector Machine,简称SVM)的谓词识别: SVM方法是建立在统计学习理论和结构风险最小原理基础上的,根 据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度) 和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷, 以求获得最好的推广能力。使用SVM方法,将BFS-CTC语料库中 1510个句子作为实验数据,采用十折交叉验证法得到的单模板和多模 版谓词识别准确率分别为88.21%和88.75%。

(3)基于最大熵模型的谓词识别:最大熵模型是最大熵分类器的理论基 础,其基本思想是为所有已知的因素建立模型,而把所有未知的因素 排除在外。最大熵模型的一个最显著的特点是其不要求特征具有条件 独立性,因此,人们可以相对任意地加入对最终分类有用的特征,而 不用顾及它们之间是否会相互影响。另外,相对SVM等基于空间距 离的分类方法.最大熵模型能够较为容易地对多类分类问题进行建 模,并且给各个类别输出一个相对客观的概率分布结果,便于后续推 理步骤使用。上述优点使其成功应用于信息抽取、句法分析等多个自 然语言处理领域。

(4)基于统计概率模型的谓词识别:首先根据句中词的语法属性,确定谓 词候选集,通过极大似然估计对谓词候选词在句中充当谓词的概率进 行近似计算,谓词自动识别的过程相当于根据候选词的当前语境特征 选择一个概率最大的候选词的过程,利用绝对折扣模型对参数进行平 滑。实验在一个有3000个句子的中文树库上进行,树库中的每个句 子都人工标注了句法成分。实验显示,谓词识别率最高分别达到了 80.6%(动词性谓词)和83.2%(形容词性谓词)。

(5)基于模糊关系矩阵的谓词识别:该方法设计出一种汉语语法规则,通过 系统学习,自动建立模糊关系矩阵以识别汉语中的谓词,不仅对动词、 形容词做谓词的情况进行识别,还对名词做谓词的情况进行了识别, 不过三者不是分开进行,而是利用同一套方法识别。谓词识别的原理 是:对于一个句子,首先对这个句子进行分词,得到这个句子的词语 集合W;其次对W进行谓词识别预处理,如对明显不能做谓词的词 语排除,得到一个准谓词集合,以及提取准谓词的静态特征和环境特 征因素集;然后把准谓词集合与因素集合统一建立起模糊矩阵,使之 与特征权值矩阵相乘,可得一个一阶矩阵,取其最大元素的下标对应 的准谓词就是句子的谓词。

3.规则与统计相结合的方法

罗振声等(2003)提出了一种规则和特征学习相结合的谓语识别 方法,将整个过程分为语片捆绑、谓词粗筛选和谓词精筛选三个阶段。 在谓词粗筛选中,利用规则过滤掉明显不能充当谓词的词,得到一个 准谓词集;在精筛选阶段,选择谓词的支持特征,根据统计计算得到 每个特征对谓词的支持度,然后利用准谓词在句子中的上下文出现的 特征对准谓词集中的词进行再次筛选,从而确定出句子的谓词,该方 法采用H.Ney和U.Essen提出的线性减值法来处理数据稀疏问题。实 验所用的统计和测试语料主要选自新浪网的新闻文本,共50篇文章, 1951个句子,约36910个词。在封闭测试中系统识别准确率约在88% 左右,在开放测试中识别率在85%左右。

总结以上几种谓词识别方法可以得出:(1)各种方法得到的谓词识别准确 率一般不超过90%,准确率还有很大的提升空间;(2)谓词识别用的特征大部 分仅使用了词法特征,很少使用到其他更高级的特征;(3)大部分方法仅对动 词性谓词进行了识别,对于形容词和习用语等其他词性作谓词的情况研究较 少。

发明内容

本发明的目的是为解决谓词高精度高效率识别问题,提出一种基于规则 和统计相结合的汉语谓词识别方法,即采用规则初步判定和决策树判定模型 二次判定两个层次进行判定,将两次判定结果进行综合,最终得到谓词识别 结果。

本发明的设计原理为:采用分步识别的方法,从已进行词法和句法标注 的句子中识别出谓词,首先对待测句子进行词法分析,得到可疑谓词(可能 为谓词的词)及其个数;接着利用可疑谓词个数是否为1等判定条件进行初 步谓词识别;其次对不满足初步识别判定条件的可疑谓词,提取相关词法和 句法特征并利用C4.5算法训练得到的决策树判定模型对其进行谓词识别;最 终汇总两步识别结果给出每个待测句子中的谓词。具体的汉语谓词识别原理 图如图1所示。

本发明的技术方案包括训练和识别两个过程具体实现步骤如下:

步骤1,对已进行词法和句法标注的句子中的词进行词性分析,统计出 每个句子中的可疑谓词及其个数。由于在汉语中,具有某些词性的词,如介 词、助词、代词等,它们无法充当谓词或者只在极少的情况下充当谓词,因 此,为了提高算法效率,并且不影响识别效果,首先对句子中的每个词进行 词性分析,不可能作为谓词的词,则不对其进行特征提取及识别,仅对可疑 谓词进行下一步处理。所述的句子在训练过程中指的是训练句子,在识别过 程中指的是待测句子。

步骤2,在步骤1的基础上,对标注语料进行特征提取和训练最终得到 决策树判定模型,该步骤分为特征提取和采用C4.5算法训练决策树两个步 骤。所述的标注语料指的是具有谓词标记的语料,具体过程如下:

步骤2.1,训练阶段的特征提取输入的是经过词法、句法标注的训练句 子以及步骤1得到的可疑谓词及其个数,用人工形式总结归纳出相关的初始 词法、句法特征,再通过特征筛选实验得到训练句子的最终词法、句法特征 及谓词标记。

所述的特征筛选实验的目的是将无用的特征或作用较小的特征去除,最 终选出最优的特征组合(或特征子集),特征子集选择问题,就是找到原始特 征集合的一个简洁子集,使得机器学习算法在仅包含这个子集中特征的数据集 合上运行后,产生一个尽可能高精确度的分类器。因此,特征子集选择的关键 是找到一个简洁且优良的特征子集。具体步骤如下:

步骤2.1.1,去除单个特征,记录识别结果,并按照识别效果从高到低排序。

步骤2.1.2,识别效果越好说明去除的特征对于特征组合的贡献越小,所 以按照步2.1.1的排序结果,根据识别效果从高到低依次去除特征,利用剩 下特征进行测试。

步骤2.2,C4.5算法训练决策树过程是将步骤2.1得到的词法、句法特征以 及谓词标记,输入到C4.5算法进行训练,最终得到谓词决策树判定模型。

步骤2.2.1,所述的C4.5算法是一种重要的机器学习算法,是ID3算法的一 种改进算法,其优点是:产生的分类规则易于理解,准确率较高。缺点是: 在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算 法的低效。具体的算法流程如下:

1.创建节点N,如果训练集为空,在返回节点N标记为失败,如果训 练集中的所有记录都属于同一个类别,则以该类别标记节点N;

2.如果候选属性为空,则返回N作为叶节点,标记为训练集中最普通 的类;

3.对每一个候选属性如果是联系的就对该属性进行离散化;

4.选择候选属性中具有最高信息增益的属性D,标记节点N为属性D, 对每一个属性D的一致值d,由节点N长出一个条件为D=d的分支;

5.设s是训练集中D=d的训练样本的集合,如果s为空,则加上一个 树叶,标记为训练集中最普通的类,否则加上一个有C4.5(R-{D},C,s)返回 的点。

步骤2.2.2,本发明采用的是C4.5算法训练决策树,需要针对C4.5算法进 行参数选取。对于C4.5算法,需要调整的参数主要有裁剪比例confidenceFactor 和最小分支支撑事例数minNumObj。参数选择实验具体方法是:将裁剪比例和 最小分支支撑事例数分别按一定大小步长取值,根据相应的取值得到谓词识别 准确率、召回率和F值,最好的识别结果所对应的参数即为最终的参数。

步骤3,训练过程结束后是识别过程,包括初步识别、特征提取和谓词 判定三个步骤,具体步骤为:

步骤3.1,初步识别过程输入的是步骤1得到的可疑谓词及其个数以及经 过词法、句法标注的待测句子,利用相关的判定条件对可疑谓词进行初步识 别,符合判定条件的直接给出识别结果,不符合判定条件的则进行下一步特 征提取操作。该步骤使用了基于规则的方法进行谓词的初步识别。

所述的判定条件是:

1、可疑谓词的个数如果为1,则该可疑谓词为谓词。该判定条件基于 一个约定:任何完整的句子必定含有至少一个谓词。

2、可疑谓词为动词“是”且处于“是……的”结构中,则判断该可疑谓 词为非谓词。

3、可疑谓词为“掉、完、完毕”且紧跟在一个动词之后,则判断其为非 谓词。

4、可疑谓词为“来说、说、来讲、讲、而言”且处在介词“对”“就” “从”之后构成介词性短语,则判断其为非谓词。

步骤3.2,识别过程的特征提取输入的是经过词法和句法标注的待测句 子以及不符合初步识别判定条件的句子,输出的是相应可疑谓词的词法、句 法特征。所述的特征即表1所列特征。

步骤3.3,谓词判定过程输入的是特征提取步骤3.2得到的特征和步骤2.2 得到的决策树判定模型,输出的是可疑谓词的判定结果,即是否为谓词。

有益效果

相比于基于规则的汉语谓词识别方法,本发明采用的基于规则和统计相结 合的方法具有准确率高、对非动词性谓词识别率高等特点。经过特征筛选和参 数选取,在保证高准确率的前提下本发明具有较高的识别效率和较小的计算消 耗。

与最大熵、SVM等机器学习方法相比,本发明采用“规则判定+C4.5决策 树判定”的方法实现谓词最终识别,具有更快的识别速率和更高的识别准确率, 并可识别动词以外的其他词性的谓词,具有很好的应用价值和推广价值。

附图说明

图1为本发明的谓词识别方法原理图;

图2具体实施方式中BFS-CTC的一个句子标注实例;

图3具体实施方式中BFS-CTC标注语料库中的一个句法树标注实例;

图4为具体实施方式中顶端dj到首动词路径示意图;

图5为具体实施方式中依次去除特征后的识别结果;

图6为具体实施方式中谓词识别准确率随数据量递增结果,横轴以3,000 为步长将21,422条待测数据分为7份(最后一份为3,422条数据),然后从3,000 条数据开始,每次增加3,000条数据,每一个点分别得到识别结果。

具体实施方式

为了更好的说明本发明的目的和优点,下面结合附图和实施例对本发明 方法的实施方式做进一步详细说明。

为了高效高精度识别谓词,设计并部署了谓词识别实验。为了使用少量的 特征实现更好的识别结果,去除相互制约以及会降低准确率的特征,得到最优 的特征组合首先要进行特征筛选实验;为了在相同的特征和算法下取得最好的 识别结果,需要对算法的参数进行优化,所以还要进行参数选择实验。

实验数据来自于BFS-CTC汉语标注语料库(Beijing Forest Studio-Chinese  Tag Corpus)。相比于目前在汉语语义角色标注领域主要使用的CPB语料库 (Chinese Proposition Bank),BFS-CTC中的语料增加了对句子句义类型的标注, 并且提供了完整的语义角色标注以及各句义成分之间的组合关系。

BFS-CTC由北京理工大学信息安全与对抗技术实验室自行开发,其原始语 料来源于新闻语料中的句子(如Sohu、Sina、人民日报等),所有的句子均经过 了词法、句法、句义结构的标注。其中,词法标注集采用北京大学的词性标注 规范;句法标注集采用北京大学计算语言学研究所规范;句义结构标注集则依 据贾彦德先生的汉语语义学理论制定,定义了句义类型(4种,包括简单句义、 复杂句义、复合句义、多重句义)、语义格类型(基本格7种,如施事格、受事 格等,一般格11种,如时间格、空间格等)、谓词类型(4种,包括0目、1目、 2目、多目)、谓词时态(3种,包括过去时、现在时、将来时)等,并规范了 汉语句义成分之间的关系。目前BFS-CTC的规模为10,021句,约92,000词, 涵盖了汉语中的主谓句、非主谓句、把字句、被字句、连动句、兼语句等各种 句式。图2是BFS-CTC的一个句子标注实例。

实验采用BFS-CTC中10021个句子,总词性选择后共有24231个待测词, 其中谓词16029个,非谓词8202个。

实验以单个类别的准确率(Precision)、召回率(recall)、F值(F-Score) 及整体准确率(Precision)作为评价指标。假设类别A,其准确率、召回率、 F值计算方法如式(1)、式(2)、式(3)所示。

FScore=2×precision×recallprecision+recall---(3)

最后综合所有类别的分类结果,得出算法的整体准确率,如式(4)所示。

下面将对上述3项实验流程逐一进行说明,所有实验均在同一台计算机上 完成,具体配置为:Intel双核CPU(主频3.00G),2G内存,WindowsXP SP3 操作系统。

1.特征筛选实验

初始选取的特征共14个,其中词法特征9个、句法特征5个,主要反 映了词性、词本身、短语类型、数目及路径方面的特征,具体特征如表1所 示。

表1 谓词识别特征

表1所示的特征集合是算法设计时通过人工标注经验和已有的谓词识别 特征中选取的特征,这些特征包括词法特征和句法特征,其中句法特征是建 立在BFS-CTC句法标注的基础上的,具有很好的代表性和很高的区分度。

其中,位置特征是词法所特有的,反映动词位置和距离两方面信息,其计算方法分别如式(5)和式(6)所示。其中,M为句中动词总数, Oi为第i个动词在句中的词序。

POS=1MΣi=1MOiMZ0M=0---(5)

Dis=1M-1(Σi=2M-1Oi+1-Oi)MZ0M=0,1---(6)

路径是指在句法树中从一个节点到另一节点所经过的各个标注节点。如图3 是BFS-CTC标注语料库中的一个句法树标注实例。在该句法树中,从Top-Sentence 到首动词(句子中出现的第一个动词)的路径为dj↓vp↓v,如图4所示。

特征筛选实验的目的就是将无用的特征或作用较小的特征去除,最终选 出最优的特征组合(或特征子集),特征子集选择问题,就是找到原始特征集合 的一个简洁子集,使得机器学习算法在仅包含这个子集中特征的数据集合上运 行后,产生一个尽可能高精确度的分类器。因此,特征子集选择的关键是找到 一个简洁且优良的特征子集。

特征筛选实验的具体流程为:

步骤1,去除单个特征,记录识别结果,并按照识别效果从高到低排序, 识别结果如表2所示。

表错误!文档中没有指定样式的文字。去除单特征识别结果

表2是按照F值降序、识别准确率降序和识别总错误数(即谓词被误判 为非谓词和非谓词被误判为谓词的总词数)升序排列。由于F值是识别准确 率和召回率的综合体现,所以以F值为主关键字,去除某一特征后F值较高 则说明该特征的重要性低,即不重要。按照F值的降序排列相当于按照特征 的重要性升序排列。F值相同的情况下则以识别准确率的降序排列,在F值 和识别准确率均相同的情况下以识别错误的总数升序排列。

步骤2,按照步骤1的排序结果,依次去除特征,利用剩下特征进行测 试,识别结果如表3和图5所示。

表3 依次去除特征识别结果

由图5可知,当去除编号为8的特征时,识别准确率、召回率和F值均 有明显下降,且继续去除后面的特征时,F值一直处于下降趋势,识别准确 率和召回率处于振动下降趋势,说明编号为8、5、2、10、7、1这几个特征 对谓词的识别效果影响较大。当去除编号为5、2、7这三个特征时,识别准 确率和召回率跳动较大,说明这三个特征对准确率和召回率影响较大。

综合以上实验及分析,选择编号为1、2、5、7、8、10和14这7个特征 作为最优特征组合(最优特征子集)。此时的识别准确率与应用所有特征是 相同的,为99.5%,F值仅比应用所有特征时低0.02个百分点,为99.2%。 仅选用了一半的特征,训练模型的时间节约了2/3(24231条数据,十折交叉 验证,原来为0.39s,现在为0.13s)。

2.参数选择实验

因为本发明采用的是C4.5算法训练决策树,因此,需要针对C4.5算法进 行参数选取。对于C4.5算法,需要调整的参数主要有裁剪比例confidenceFactor 和最小分支支撑事例数minNumObj,以下简写为C和M。主要利用WEKA工 具,将C以步长0.05从0.1增长到0.7,M以步长1从0增长到6,获得对应参 数下的识别准确率、召回率和F值,识别结果如表4所示。最后分析得到的数 据,从而给出最优参数。

表4 谓词识别中C4.5算法的参数选取实验结果

从表4中可以看出,当C=0.45、M=0,1或者C=0.5、M=0,1时谓词识别的F 值最高,达到0.994.考虑到为了提高开集测试的识别效果,C的取值越小越好M 的取值越大越好的规律,选择(C,M)=(0.45,1)为最优参数。

3.谓词识别实验

将全部24,231条待测数据去掉一个句子只有一个可疑谓词的情况,利用剩 余的21,422条待测数据,以3,000为步长将总数据分为7份(最后一份为3,422 条数据),然后从3,000条数据开始,每次增加3,000条数据,每次都利用十折 交叉验证方法进行训练得到决策树判定模型并进行谓词识别,并记录相应的 识别结果。所述的十折交叉验证方法指的是将原始数据分为十份,每次利用 其中的九份进行训练得到判定模型,利用剩下的一份进行测试,循环进行十 次,保证每一份数据都做一次测试,将十次的识别结果进行平均得到最终的 识别结果。

本实验所用特征子集和C4.5算法参数采用前两个实验得到的结果,即选择 编号为1、2、5、7、8、10和14这7个特征作为最优特征组合,C4.5算法需 要调整的参数设置为:(C,M)=(0.45,1)。具体步骤为:

步骤1,对21,422条待测数据中的词进行词性分析,同时统计每个句子 中可疑谓词及其个数。

步骤2,在步骤1的基础上,训练过程分为特征提取和C4.5算法训练决 策树两个步骤。具体过程如下:

步骤2.1,训练阶段的特征提取输入的是步骤1得到的可疑谓词、可疑 谓词个数以及经过词法、句法标注的句子,得到的是供训练用的每一个可疑 谓词对应的词法、句法特征及谓词标记。所述的特征如表5所示。

表5 谓词识别特征

步骤2.2,将C4.5算法的参数设置为(C,M)=(0.45,1),决策树训练过程输入 的是步骤2.1特征提取得到的词法、句法特征以及谓词标记,输出决策树判定 模型。

步骤3,训练过程结束后是识别过程,包括初步识别、特征提取和谓词 判定三个步骤,具体步骤为:

步骤3.1,初步识别过程输入的是步骤1得到的可疑谓词、可疑谓词个数 以及经过词法、句法标注的句子,利用相关的判定条件对可疑谓词进行初步 识别,符合判定条件的直接给出识别结果,不符合判定条件的则进行下一步 特征提取操作。

所述的判定条件是:

1、可疑谓词为动词“是”且处于“是……的”结构中,则判断该可疑谓 词为非谓词。

2、可疑谓词为“掉、完、完毕”且紧跟在一个动词之后,则判断其为非 谓词。

3、可疑谓词为“来说、说、来讲、讲、而言”且处在介词“对”“就” “从”之后构成介词性短语,则判断其为非谓词。

步骤3.2,特征提取输入的是不符合初步识别判定条件的可疑谓词以及经 过词法和句法标注的句子,输出的是相应可疑谓词的词法、句法特征。所述 的特征即表5所列特征。

步骤3.3,谓词判定过程是将步骤3.2得到的测试数据的特征值输入到步骤 2.2得到的决策树判定模型进行判定,输出的是可疑谓词的判定结果,即是否为 谓词。

识别结果如表6和图6所示。

表1 基于C4.5的数据量递增实验结果

从图6可以看出,谓词的识别准确率、召回率和F值随着数据量的增 加而不断趋于同一,且呈上升趋势。在现有的21,422条数据量下,识别准确 率、召回率和F值几乎汇聚于一点。随着数据量的继续增加,我们可以预测 这三个指标可能会分散开或者维持现状趋于稳定。因此,可以判断该算法在 数据量为21,422条左右的情况下训练的模型应具有较好的判别效果。

步骤4,在相同的数据源下(全部24,231条待测数据)同样利用十折交 叉验证方法,将本发明与传统的基于SVM的谓词识别算法相比较,对比结 果如表7所示。过程如步骤1-3所示,其中初步识别过程的判定条件为:

1、可疑谓词的个数如果为1,则该可疑谓词为谓词。

2、可疑谓词为动词“是”且处于“是……的”结构中,则判断该可疑谓 词为非谓词。

3、可疑谓词为“掉、完、完毕”且紧跟在一个动词之后,则判断其为非 谓词。

4、可疑谓词为“来说、说、来讲、讲、而言”且处在介词“对”“就” “从”之后构成介词性短语,则判断其为非谓词。

表2 谓词识别对比实验结果

由表7可知:在同样的数据源下,本发明中谓词识别算法比基于SVM 的谓词识别算法识别准确率提高了11个百分点,达到了99.6%,F值提高了 9个百分点达到了99%,不仅说明本发明中算法比基于SVM的算法识别效果 更好,而且谓词识别的准确率接近100%,对后续的句义分析研究有很大程 度的提高。

上述3项实验的实验结果表明,本发明具有准确率高、速度快的特点。特 征筛选实验在保证识别准确率的情况下使特征维数降低,谓词识别速率得到了 很大的提升;参数选择实验使得在相同的特征和算法下取得最好的识别结果。 在BFS-CTC语料库上的数据增量结果显示,最高识别准确率达到99.6%;召回 率达到99%,F值达到99.3%。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号