首页> 中国专利> 一种基于规则的中文结构化金融事件缺省补全抽取方法

一种基于规则的中文结构化金融事件缺省补全抽取方法

摘要

本发明公开了一种基于规则的中文结构化金融事件缺省补全抽取方法,属于信息抽取技术领域,结合缺省的“三个平面”理论界定,提出了四种常见的缺省结构;针对各种缺省结构,通过分析财经领域和句法语义依存分析事件图中句法语义特点,设计了十种事件成分缺省补全规则,实现了事件缺省成分的补全,解决了抽取的事件成分存在大量缺失的难题。据了解本发明是第一个基于规则的中文结构化金融事件缺省补全抽取方法,不需要人工标注数据,且补全抽取的精确率和召回率较好。

著录项

  • 公开/公告号CN112749548A

    专利类型发明专利

  • 公开/公告日2021-05-04

    原文格式PDF

  • 申请/专利权人 万齐智;万常选;胡蓉;刘德喜;

    申请/专利号CN202011201846.3

  • 发明设计人 万齐智;万常选;胡蓉;刘德喜;

    申请日2020-11-02

  • 分类号G06F40/211(20200101);G06F40/279(20200101);G06F40/30(20200101);

  • 代理机构11874 北京保识知识产权代理事务所(普通合伙);

  • 代理人尹莹莹

  • 地址 330013 江西省南昌市昌北国家经济技术开发区玉屏西大街665号江西财经大学麦庐园校区

  • 入库时间 2023-06-19 10:51:07

说明书

技术领域

本发明涉及信息抽取技术领域,尤其涉及一种基于规则的中文结 构化金融事件缺省补全抽取方法。

背景技术

面对每天产生的巨大数据,如何从这些数据中挖掘出有价值的知 识,具有重大意义。作为信息抽取子领域的事件抽取,抽取的内容可 以帮助事件使用者更合理地作出判断和决策。在财经领域,政府部门 可以借助抽取的事件预测股票走势,为调控市场提供较为有力的支 撑。财经领域重点关注事件是何种行为动作,以及会带来何种影响结 果,这对预测股市走势至关重要,而这些内容主要包含于语句的主谓 宾中,因此针对财经领域,可抽取包含主谓宾的结构化金融事件。但 是,介于中文语言多短句、多动词、多省略的特点,抽取的结构化事 件存在大量的成分缺失,很大程度上影响事件的使用效果,所以需要 对事件中实际存在但因缺省而无法抽取到的成分进行补全。

目前已有一些学者对开放域结构化事件抽取展开研究,Ding首 次提出采用结构化事件预测股票价格波动,并采用信息开放技术抽取 定义的四元组结构化事件,但该研究在抽取的事件谓语和论元上增加 了较多限制,如谓语需要动词开始介词结束、主语必须处于谓语左边 等,这些限制导致大量的事件被过滤掉了。

在后续的相关研究中,主流采用贝叶斯图形模型方法抽取结构化 事件,但这些研究均假设一个文档中所有词都来源于一个单独事件, 这对于短文本貌似成立,但对于长文本则不太合适。此外,贝叶斯图 形模型常常依赖于用吉布斯抽样进行参数推断,这可能导致需要较长 时间收敛。为了解决这些限制,Wang等人提出一个对抗-神经事件模 型来抽取结构化事件。对于以上提到的方法,存在两点不足,一是需 要大量人工标注数据用以模型训练,二是没有考虑抽取的事件成分缺 失问题。其他对于结构化事件抽取研究中关于成分缺省补全的现在还 比较少。

由于上述方法存在着较大的局限性,且较少研究考虑事件成分缺 省补全问题,因此需要一种简单的、人工标注数据尽量少的事件缺省 成分补全方法,以提高抽取的结构化事件的使用价值。

发明内容

本发明为解决上述问题,而提出的一种基于规则的中文结构化金 融事件缺省补全抽取方法。

为了实现上述目的,本发明采用了如下技术方案:

一种基于规则的中文结构化金融事件缺省补全抽取方法,所述的 结构化事件记为:ET=(Sub,Pred,Obj),其中Sub、Pred和Obj 分别表示事件的主语、谓语和宾语,补全的成分为Sub和Obj,包含 以下步骤:

A.分析中文语言缺省特征及人们的表达习惯,结合缺省的“三 个平面”理论界定,提出四种常见缺省结构;

B.利用已有方法构建句法语义依存分析事件图;

C.针对各种缺省情况,结合财经领域和句法语义依存分析事件 图中句法语义的特点,设计十种事件成分缺省补全规则;

D.分析句法语义依存分析事件图中每个事件的Sub和Obj,为 每个存在缺省成分的结点建立其与缺省成分之间的依存关系;

E.扫描句法语义依存分析事件图中每个事件的核心动词(即事 件谓语Pred),分别获取其孩子结点中句法依存关系为SBV的主语 作为事件的主语Sub、句法依存关系为VOB的宾语作为事件的Obj, 即完成ET形式的结构化金融事件缺省补全抽取。

进一步地,所述中文语言特征和人们表达习惯包括:

特征1.多短句、多分句、多动词、多名称、多主动、多省略, 且有时采用连续的动词整体表达一个行为过程;

特征2.偏好采用动作行为的表达形式;

特征3.存在成分缺省的主要为主语和宾语,且缺省成分在语句 中一般处于存在缺省的词语之前;

特征4.语句存在无主语情况,谓语包含及物动词和不及物动词, 及物动词则必须存在宾语,不及物动词则无需宾语(即实际不存在宾 语),真正的宾语缺省主要由介词或被动语态引发。

其中,主语或宾语为指代词的情况认定为存在主语或宾语,不属 于缺省;主语或宾语实际不存在的情况认定属于缺省。

另外,所述的缺省的“三个平面”理论界定具体如下:

A.句法结构上界定:指结构中必不可少的成分没有出现的句法 结构缺省;

B.语义结构上界定:指应该说出的意思没有说出来的语义缺省;

C.语用交际界定:指因语言环境需要的语用省略。

其中,所述四种常见缺省结构包括:

A.直接成分缺省,包括如下两种情况:

AA.简单缺省:缺省成分的结构简单,可单独作为其他事件的 某个成分;

AB.组合缺省:某个组合的整体作为其他事件的某个成分。

B.介词引发缺省:由介词引发的部分成分缺失,即句法结构上 可能不存在缺省,但语义上缺少由介词引导的部分成分;

C.被动语态缺省:由“被”字等介词引发的被动语态的成分缺 省;

D.间接修饰缺省:语义上存在修饰关系的缺省结构。

进一步地,所述的已有方法构建句法语义依存分析事件图的步骤 包括:

步骤1.利用句法依存分析工具和语义依存分析工具,分别生成 句法依存分析树和语义依存分析树;

步骤2.通过向句法依存分析树中每个结点添加其在语义依存分 析树对应的语句依存关系,构建句法语义依存分析树;

步骤3.调整句法语义依存分析树中事件核心动词、介词和被动 语态的依存结构,获得句法语义依存分析事件图。

其中,句法语义依存分析事件图,记为SSPEG=(V,E),V={V

进一步地,所述的财经领域和SSPEG中句法语义特点包括:

特征5.财经领域中主要缺省企业、股票和机构团体等名称,其 在句法分析中的词性以细分的名词居多,包括ni(机构团体)、nz (专有名词)、nh(人名)和j(简称),将这些词性组成的集合记 为POL;

特征6.直接成分缺省为句法结构上的缺省,即句法结构上缺少 某个成分,而间接修饰缺省属于语义上的缺省,句法结构上存在某个 成分,但其语义不完整;

特征7.间接修饰缺省中,主要缺省修饰语,且常由公司或机构 等充当,且位于描述本公司各项指标的定语中或直接代表默认指标 (即充当主语);

特征8.共享主语的事件间的语义依存关系主要集中于因果 (eResu)、顺承(eSucc)和目的(ePurp)关系,称为引发关系;

特征9.缺省成分一般处于成分缺省事件的前面的关联事件中;

特征10.在句法语义依存分析事件图中,缺省成分的层级常处于 存在成分缺省结点的下一层,而对于间接修饰缺省,二者偶尔处于同 一层级。

其中,所述的十种事件缺省补全规则具体如下:

A.直接成分缺省补全规则

规则1.如果由根结点触发的事件不存在具有语义依存关系的较 早事件,则不必补全;

规则2.如果存在直接成分缺失,且sdp为非引发关系,若最近 关联事件只存在一个主语,则在最近的关联事件中查询获取关联事件 的主语,补全缺省主语,即简单缺省补全;

规则3.如果存在直接成分缺失,且sdp为引发关系,若最近关 联事件存在多个主语,则取最近关联事件中距离当前事件最远的主语 (关联事件第一个主语),补全缺省主语;

规则4.当最近关联事件的主语词性不属于POL,且主语存在定 语时,则取主语第一个定语补全缺省主语;

规则5.当最近关联事件的主语词性不属于POL,且主语不存在 定语,则取关联事件整体补全缺省主语,即组合缺失补全;

规则6.当最近关联事件的主语词性为名词或属于POL,则直接 取关联事件主语补全缺省主语。

其中,规则1要求,补全操作的前提必须是共享主语的句子在当 前事件之前发生,且存在语义依存关系。这符合语句表达逻辑。因此, 规则1是其它缺省规则执行的前提;规则2和规则3分别讨论不同sdp 关系下的缺省补全情况。规则2和规则3均是依照人们使用语言的习 惯,取关联事件中位于语句最前面的主语作为缺省补全。规则4~规 则6,对外是规则3的互补形式,讨论sdp为引发关系但主语唯一的 情景;对内则分析关联事件主语词性。

B.介词及被动语态缺省补全规则

规则7.如果为介词引发的成分缺省,且sdp为引发关系,则在 最近关联事件中查找主语补全缺省的主语或宾语;

规则8.如果由被动语态引起的成分缺省,且sdp为引发关系, 则取最近关联事件的主语作为缺省事件的宾语成分。

C.间接修饰缺省补全规则

规则9.如果关联事件主语的词性属于POL,且主语存在定语, 同时定语的词性也属于POL,则在最近关联事件中取距离本事件最远 的定语(关联事件第一个定语),补全主语的缺省修饰部分;

规则10.如果关联事件主语的词性属于POL,且主语不存在定 语,则取最近关联事件中距离本事件最远的主语(关联事件第一个主 语),补全主语的缺省修饰部分。

其中,规则9和规则10一定程度上属于规则6的细化,且同时 兼顾了规则4存在定语的情况。不同的是,规则6为句法结构不存在 主语时的缺省补全,而规则9和规则10是解决存在主语的修饰缺省。

进一步,所述的为每个事件中存在缺省成分的主语或宾语建立其 与缺省成分之间的依存关系,具体步骤包括:

步骤4.扫描句法语义依存分析事件图,获取所有事件核心动词;

步骤5.扫描每个事件核心动词孩子结点,判断其中主语或宾语 是否存在缺省,对于存在缺省的结点,分析其缺省类型;

步骤6.根据缺省类型,按照对应的缺省补全规则找寻缺省成分;

步骤7.为缺省成分与存在缺省的结点之间建立依存关系,依存 关系建立的标准包括:

A.直接成分缺省:如果缺省主语,则添加(SBV,Agt),如缺 省宾语,则添加(VOB,Pat),其中Pat为受事关系;

B.介词引发缺省:采用缺省事件中与介词关联成分相同的依存 关系;

C.被动语态缺省:如果缺省为被动的受事者含义,则添加(VOB, Pat),如果为被动的施事者含义,则添加(SBV,Agt);

D.间接修饰缺省:如果缺省成分在自身事件中充当修饰成分, 即句法依存关系为ATT,则采取缺省成分的依存关系,如果充当主语 (即句法依存关系为SBV),则添加依存关系(ATT,Nmod)。

最后,基于句法语义依存分析事件图,首先获取语句中包含的所 有事件核心动词(即事件谓语Pred),扫描每个事件核心动词的其孩 子结点,分别获取句法依存关系为SBV的主语作为事件的主语Sub、 句法依存关系为VOB的宾语作为事件的Obj,即完成ET形式的结构 化金融事件缺省补全抽取。

与现有技术相比,本发明提供了一种基于规则的中文结构化金融 事件缺省补全抽取方法,具备以下有益效果:

1.本发明结合缺省的“三个平面”理论界定,提出了四种常见 的缺省结构;

2.本发明针对各种缺省结构,通过分析财经领域和句法语义依 存分析事件图中句法语义特点,设计了十种事件成分缺省补全规则, 实现了事件缺省成分的补全,解决了抽取的事件成分存在大量缺失的 难题。

据了解本发明是第一个基于规则的中文结构化金融事件缺省补全 抽取方法,不需要人工标注数据,且补全抽取的精确率和召回率较好。

附图说明

图1为本发明提出的一种基于规则的中文结构化金融事件缺省 补全抽取方法的流程框架图;

图2为本发明提出的一种基于规则的中文结构化金融事件缺省 补全抽取方法的例3的句法依存分析树图;

图3为本发明提出的一种基于规则的中文结构化金融事件缺省 补全抽取方法的例3的语义依存分析树图;

图4为本发明提出的一种基于规则的中文结构化金融事件缺省 补全抽取方法的例3的句法语义依存分析图。

图5为本发明提出的一种基于规则的中文结构化金融事件缺省 补全抽取方法的经核心动词调整后的句法语义依存分析事件图;

图6为本发明提出的一种基于规则的中文结构化金融事件缺省 补全抽取方法的经介词结构调整后的句法语义依存分析事件图;

图7为本发明提出的一种基于规则的中文结构化金融事件缺省 补全抽取方法的例1的简单缺省结构的句法语义依存分析事件图;

图8为本发明提出的一种基于规则的中文结构化金融事件缺省 补全抽取方法的例2的组合缺省结构的句法语义依存分析事件图;

图9为本发明提出的一种基于规则的中文结构化金融事件缺省补 全抽取方法的例3的介词引发缺省结构的句法语义依存分析事件图;

图10为本发明提出的一种基于规则的中文结构化金融事件缺省 补全抽取方法的例4的经核心动词和介词调整后的句法语义依存分 析事件图;

图11为本发明提出的一种基于规则的中文结构化金融事件缺省 补全抽取方法的被动语态缺省结构的句法语义依存分析事件图;

图12为本发明提出的一种基于规则的中文结构化金融事件缺省 补全抽取方法的例5的中间接修饰缺省结构的句法语义依存分析事 件图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方 案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部 分实施例,而不是全部的实施例。

在本发明的描述中,需要理解的是,术语“上”“下”“前”“后” “左”“右”“顶”“底”“内”“外”等指示的方位或位置关系为 基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描 述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。

实施例1:

本发明的过程如图1所示,具体过程如下。

1.四种常见缺省结构

针对中文语言中的缺省,研究成果并不多,且定义及范围没有统 一的标准。随着中文语法学中“三个平面”理论(语法,语义,语用) 的提出,语法学者对缺省从认知角度有了如下三种基本认识。

A.句法结构上界定:指结构中必不可少的成分没有出现的句法 结构省略。

B.语义结构上界定:指应该说出的意思没有说出来的语义省略。

C.语用交际界定:指因语言环境需要的语用省略。其中,语言 环境涉及较为广泛,可以是社会文化背景、语言上下文或交际的现场 情景。

随后较多学者基于中文宾州树库(Chinese TreeBank,CTB)和 Ontonotes3.0等语料库划分的缺省类别进行研究,主要包含6类缺省, 如表1所示。其中,NONE-*T*、NONE-*PRO*和NONE-*pro*占比 最大。

表1 CTB及Ontonotes3.0中缺省分类

根据上述分类规则并结合财经领域语料特点,将事件成分缺省分 成以下四种结构:

A.直接成分缺省,包括如下两种情况:

AA.简单缺省:缺省成分结构简单,可单独作为其它事件的某 个成分(如主语)。

例1.“某国首相让步,考虑他国担保协议”。该示例包含事件ET1 (某国首相,让步,)和事件ET2(,考虑,他国担保协议)。其中, 事件ET1中简单主语成分“某国首相”作为事件ET2的主语,因此 该示例属于简单缺省。

AB.组合缺省:某个组合整体作为其它事件的某个成分。

例2.“油价再遭痛击,拖累期市”。该示例则为组合缺省。其 中,事件ET3(油价,遭,痛击)整体作为事件ET4(,拖累,期市) 中“拖累”缺失的主语。

B.介词引发缺省:由介词引发的部分成分缺失,即句法结构上 可能不存在缺省,但语义上缺少由介词引导的部分成分。

例3.“某动力飙近21%,与某能源达战略性合作框架”。示例3 包含2个事件:ET5(某动力,飙近,21%)和ET6(某能源,达, 战略性合作框架)。其中,ET6存在由介词“与”引发的部分主语缺 省,缺少了部分主语“某动力”,因此属于介词引发缺省。

C.被动语态缺省:由“被”字等介词引发的被动语态的成分缺省。

例4.“某投资未披露基金运作情况,被监管责令改正”。该示例 存在“被”字,属于被动语态缺省。其中,事件ET8(监管,责令, 改正)由“被”字触发导致宾语“某投资”成分缺失,该缺失成分包 含于事件ET7(某投资,披露,基金运作情况)中。

D.间接修饰缺省:语义上存在修饰关系的缺省结构。间接修饰 缺省主要是反映事件间论元之间关系,充当修饰作用的一般为关联事 件的主语或其主语的定语。

例5.“某公司营收增速首次跌30%,年内市值蒸发400亿美元”。 该示例包含事件ET9(某公司营收增速,跌,30%)和事件ET10(市 值,蒸发,400亿美元)。其中,事件ET10已经存在主语“市值”, 从句法结构上不存在缺省,但在语义上事件ET10并不完备,主语“市 值”因缺少事件ET9中主语“营收增速”修饰词“某公司”,使得其 语义不明确,降低了事件使用价值。

2.句法语义依存分析事件图:

针对每条本文语句,均可为其生成一个句法语义依存分析事件图 (SSPEG),具体步骤包括:

步骤1.利用句法依存分析和语义依存分析工具,分别生成句法 依存分析树和语义依存分析树;

步骤2.通过向句法依存分析树中每个结点添加其在语义依存分 析树对应的语句依存关系,构建句法语义依存分析树,具体步骤如下:

A.事件核心动词间语义依存关系

步骤A1.对DP树进行剪枝,只保留主语、核心动词和宾语等主 干成分,减少DP树中的结点数量;

步骤A2.对剪枝后的DP树进行语义依存分析,获取核心动词间 语义关联;

步骤A3.将获取的语义关联添加至原始DP树中。

其中,核心动词代表事件,事件间的语义依存关系采用eXX(如 eCoo)表示,对于核心动词间非eXX关系的情况,在依赖的孩子结 点中查询获取,并作为核心动词间语义关联。

B.事件非核心动词间语义依存关系

B1.对于DP树与SDP树中依存结构相同的结点,将其语义依存 关系直接添加至DP树中;

B2.对于DP树与SDP树中依存结构不相同的结点,其语义依存 关系添加为“NULL”。

步骤3.调整句法语义依存分析树中事件核心动词、介词和被动 语态的依存结构,获得句法语义依存分析事件图,具体调整如下:

调整1.将除直接依存于根结点的事件核心动词外的所有事件核 心动词调整为根结点的直接孩子结点,依存关系为(HED,Root);

调整2.将依存于介词的主语或宾语调整为直接依存于所属事件 核心动词,依存关系则按照以下标准获取:

(1)调整后的语义依存关系采用语义依存分析树中该调整结点 的语义依存关系;

(2)句法依存关系则根据调整后的语义依存关系的语义含义调 整,如果属于主语含义,则调整为SBV,如果为宾语含义,则为VOB, 否则保持原有句法依存关系。

调整3.将被动语态涉及的主语和宾语调整为主动语态下主语和 宾语。

通过以上步骤即可为输入语句构建一个句法语义依存分析事件 图。以例3中语句为例,借助句法和语义依存分析工具LTP,可生成 图1和图2所示的句法依存分析树和语义依存分析树。图3为其对应 的句法语义依存树,图4是图3经核心动词调整后的SSPEG,图5则为图4经介词结构调整后的SSPEG。

3.缺省结构的SSPEG

对于本发明提出的四种常见的缺省结构,其对应的SSPEG分别 如下:

A.直接成分缺省

例1为简单缺省,其缺省结构的SSPEG如图6所示。其中,ePurp 代表目的关系,每个事件用虚线框标识,缺省成分与存在缺省的结点 之间采用点横相间的有向虚线连接,表示其层级关系,依存关系添加 为(SBV,Agt)。

例2属于组合缺省,该示例缺省结构的SSPEG如图7所示。其 中,事件ET3(油价,遭,痛击)整体与事件ET4(,拖累,期市) 中“拖累”结点建立(SBV,Agt)依存关系。

B.介词引发缺省

图8为例3中介词引发缺省结构的SSPEG。其中,介词“与” 属于并列含义的介词,引导关联“某动力”和“某能源”,因此“某 动力”与“达”之间应建立上下层的依存关系,其值采用“某能源” 和“达”之间的依存关系(SBV,Datv)。另外,“某动力”和“与” 之间也需要建立依存关系,其值则和“与”与“某能源”之间的依存 关系保持一致,添加为(POB,NULL)。

C.被动语态缺省

对于例4,图9为其经核心动词和介词调整后的SSPEG。图10 为图9中被动语态缺省结构的SSPEG。其中,“被”字属于被动含义 的介词,缺省成分为宾语含义,因此图10添加了“某投资”结点和 “责令”结点之间的依存关系(VOB,Pat)。

D.间接修饰缺省

图11为例5中间接修饰缺省结构的SSPEG。由图11可知,该 示例中事件ET5本身存在主语“营收增速”,“某公司”只为其的修 饰语,在这种缺省情况下,可直接采用“某公司”的依存关系作为新 增的依存关系,但如果“某公司”作为事件主语,如语句“某公司跌30%,年内市值蒸发400亿美元”,则使用其依存关系可能存在错误。

综上所述,上述缺省结构因缺省成分的角色复杂多变,难以以某 个具体结点的依存关系作为新增的依存关系,因此按照以下标准添加 依存关系:

(1)直接成分缺省:如果缺省主语,则添加(SBV,Agt),如 缺省宾语,则添加(VOB,Pat),其中Pat为受事关系;

(2)介词引发缺省:采用与缺省事件中介词关联成分相同的依 存关系;

(3)被动语态缺省:如果缺省为被动的受事者含义,则添加 (VOB,Pat),如果为被动的施事者含义,则添加(SBV,Agt);

(4)间接修饰缺省:如果缺省成分在自身事件中充当修饰成分, 即句法依存关系为ATT,则采取缺省成分的依存关系,如果充当主语 (即句法依存关系为SBV),则添加依存关系(ATT,Nmod)。

4.缺省补全规则

通过对缺省结构的SSPEG分析可知,补全缺省成分可在与本事 件时间最近的早期事件中查找,但并非所有缺省都需进行补全,如语 句本身无主语情况。因此,何时启动缺省补全机制、如何获取补全内 容,是缺省补全的两大难点,尤其是间接修饰缺省,无法从句法结构 上进行判断,必须借助语义分析。对于不同的缺省类型,其补全启动 时机和规则也不尽相同。

根据前述的中文语言特征、财经领域特点和句法语义依存分析事 件图中句法语义特点,调整后句法语义依存分析事件图中已不存在宾 语缺省,因此针对提出的缺省结构,制定了以下缺省补全规则进行主 语补全。

A.直接成分缺省补全规则

直接成分缺省属于句法结构上的缺省,通过扫描事件核心动词的 孩子结点即可判断是否存在该类型缺省,但由于存在语句本身无主语 情况,所以还需联合语义依存关系共同分析,具体规则如下:

规则1.如果由根结点触发的事件不存在具有语义依存关系的较 早事件,则不必补全;

规则2.如果存在直接成分缺失,且sdp为非引发关系,若最近 关联事件只存在一个主语,则在最近的关联事件中查询获取关联事件 的主语,补全缺省主语,即简单缺省补全;

规则3.如果存在直接成分缺失,且sdp为引发关系,若最近关 联事件存在多个主语,则取最近关联事件中距离当前事件最远的主语 (关联事件第一个主语),补全缺省主语;

规则4.当最近关联事件的主语词性不属于POL,且主语存在定 语时,则取主语第一个定语补全缺省主语;

规则5.当最近关联事件的主语词性不属于POL,且主语不存在 定语,则取关联事件整体补全缺省主语,即组合缺失补全;

规则6.当最近关联事件的主语词性为名词或属于POL,则直接 取关联事件主语补全缺省主语。

其中,规则1要求,补全操作的前提必须是共享主语的句子在当 前事件之前发生,且存在语义依存关系。这符合语句表达逻辑。因此, 规则1是其它缺省规则执行的前提;规则2和规则3分别讨论不同sdp 关系下的缺省补全情况。规则2和规则3均是依照人们使用语言的习 惯,取关联事件中位于语句最前面的主语作为缺省补全。规则4~规 则6,对外是规则3的互补形式,讨论sdp为引发关系但主语唯一的 情景;对内则分析关联事件主语词性。

B.介词及被动语态缺省补全规则

对于介词引发的缺省,其介词常为连接多个名词性词语的并列介 词,因此缺省事件在句法结构上可能存在部分成分,简单地从句法结 构上已经难以判断,所以也需借助语义依存关系,具体规则包括:

规则7.如果为介词引发的成分缺省,且sdp为引发关系,则在 最近关联事件中查找主语补全缺省的主语或宾语;

规则8.如果由被动语态引起的成分缺省,且sdp为引发关系, 则取最近关联事件的主语作为缺省事件的宾语成分。

C.间接修饰缺省补全规则

间接修饰缺省属于语义上的缺省,主要是缺少了限定范围的修饰 语,所以必须从语义角度进行补全。通过分析发现,如果事件缺省成 分本身已经存在主语,且词性属于POL,则很大可能说明主语已经限 定了范围,很少存在缺省(即无需补全),而当词性不属于POL,则 因应启动补全机制,具体补全规则如下:

规则9.如果关联事件主语的词性属于POL,且主语存在定语, 同时定语的词性也属于POL,则在最近关联事件中取距离本事件最远 的定语(关联事件第一个定语),补全主语的缺省修饰部分;

规则10.如果关联事件主语的词性属于POL,且主语不存在定 语,则取最近关联事件中距离本事件最远的主语(关联事件第一个主 语),补全主语的缺省修饰部分。

其中,规则9和规则10一定程度上属于规则6的细化,且同时 兼顾了规则4存在定语的情况。不同的是,规则6为句法结构不存在 主语时的缺省补全,而规则9和规则10是解决存在主语的修饰缺省。

综上所述,对于输入语句,首先为其建立句法语义依存分析事件 图,然后通过分析事件图中每个事件的主语和宾语,获取其缺省类型, 再利用缺省类型对应的补全规则找寻到缺省成分,并为缺省成分和存 在缺省的结点建立依存关系,最后通过扫描所有事件的主语、谓语和 宾语,将事件核心动词作为事件谓语Pred、句法依存关系为SBV的 主语作为事件的主语Sub、句法依存关系为VOB的宾语作为事件的 Obj,即实现了基于ET形式的中文金融事件成分缺省补全抽取。

5.事件成分缺省补全实验

为了考察事件缺省成分的补全抽取效果,使用精确率(precision)、 召回率(recall)和F1值作为评价指标。计算方式如下:

其中,CEQ为正确抽取数,EQ为抽取数,LQ为标注数。可以 看出,精确率反映的是抽取结果的准确情况,召回率反映的是抽取结 果在样本中的召回情况。

为了验证事件缺省补全的效果,我们选择了公司1和东方财富网 的新闻文本数据,分别对事件主语补全和事件宾语补全做了实验,实 验结果如表1所示。

表1事件主语和事件宾语补全抽取的效果

实验证明本发明提出的基于规则的中文结构化金融事件缺省补 全抽取效果较好,宾语因其缺省形式比较常规,主要由介词和被动语 态引起,规则容易总结,且适用性较好,所以补全抽取的效果高于主 语补全抽取。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范 围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技 术范围内,根据本发明的技术方案及其发明构思加以等同替换或改 变,都应涵盖在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号