首页> 中国专利> 基于概率软逻辑PSL的事件识别方法和系统

基于概率软逻辑PSL的事件识别方法和系统

摘要

本发明提供一种基于概率软逻辑PSL的事件识别方法和系统,所述方法包括:计算至少候选与事件、以及至少在同一文档和/或同一语句中出现候选与主题、事件与主题、两个不同候选或两个不同事件中的至少任意一个的条件概率;在PSL模型中为不同条件概率分别设定对应的变量,设计并根据PSL模型的变量公式进行迭代,以最大化候选与事件的条件概率对应的变量,得到候选在最大化条件下对应的特定的事件,并构成事件识别模型。本发明所述方法能够提高事件识别的准确性。

著录项

  • 公开/公告号CN104881399A

    专利类型发明专利

  • 公开/公告日2015-09-02

    原文格式PDF

  • 申请/专利权人 中国科学院自动化研究所;

    申请/专利号CN201510250005.4

  • 发明设计人 刘康;赵军;徐立恒;刘树林;

    申请日2015-05-15

  • 分类号

  • 代理机构北京博维知识产权代理事务所(特殊普通合伙);

  • 代理人方振昌

  • 地址 100080 北京市海淀区中关村东路95号

  • 入库时间 2023-12-18 10:45:37

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-10-27

    授权

    授权

  • 2015-09-30

    实质审查的生效 IPC(主分类):G06F17/27 申请日:20150515

    实质审查的生效

  • 2015-09-02

    公开

    公开

说明书

技术领域

本发明属于自然语言处理技术领域,尤其涉及基于概率软逻辑PSL的 事件识别方法和系统。

背景技术

随着互联网的蓬勃发展和网络通讯终端的日益普及,人们每天都会接 触涉及各个领域的海量信息,例如军事、体育、娱乐等领域的新闻。如何 从这些无序、杂乱、非结构的海量信息中发现感兴趣的事件已经成为亟需 解决的问题,事件识别(Event Identification)技术正是解决这一问题的有力 手段。事件识别是事件抽取(Event Extraction)的一个独立的子任务,主要 研究如何从含有事件信息的非结构化文本中识别出用户感兴趣的事件及 其类型。

事件识别是事件抽取的子任务,在介绍事件识别之前,先对事件抽取做 简单的介绍。在事件抽取中,一个事件由一个触发词(trigger)、一种事件类型 (event type)和若干事件的参与者及其角色(arguments and roles)组成,其中事 件的触发词是文本中最能指示事件发生的词。事件抽取的目标是如何从描述 事件的自然语言文本中抽取事件的上述各个成分,并以结构化的形式展现出 来。例如,对于文本“He died in hospital”,一个理想的事件抽取结果如表1 所示。

表1

事件识别和事件抽取的不同之处在于,其只关注事件触发词和事件类型 的识别,并不关注事件参与者及其角色。例如,对于上面的例子,事件识别 的任务是识别出该句子描述了一个事件,该事件的触发词是“died”,事件类 型是Die。

ACE(Automatic Context Extraction)评测比赛推动了这个领域的发展。 该评测预定义了8大类、33小类的事件,每个类型的事件都有若干标注的 实例。目前的主流技术是将事件识别转化为词分类的问题,然后利用句法 分析器等工具抽取候选词附近的信息构建特征向量,最后利用基于特征的 分类器进行分类。该方法有两个假设:a.事件的识别只需要考虑候选词所 在的句子信息。b.事件与事件之间相互独立,识别过程中不考虑事件与 事件之间的影响。图1展示了该方法的基本流程,分为训练和测试两个阶 段。训练阶段,对标注数据中的每个事件触发词,利用自然语言处理工具 提取潜在有用的信息(词形,词性等),为该实例构建特征向量;将该特 征向量和其事件类别对应起来,作为一个标注数据实例。最后利用所有的 标注数据实例训练分类模型,得到可用的分类器。测试阶段,该方法将测 试文本中的每个词视为一个候选事件触发词,针对每个触发词提取特征构 建特征向量,最后用训练好的分类器进行分类,分类器给出的类标就是识 别结果。但是,由于分类器的限制,传统技术几乎只利用了候选词附近的 局部信息,忽略了篇章级和语料级的全局信息,而这类信息对事件识别来 说至关重要。

发明内容

本发明提供一种概率软逻辑PSL(Probabilistic Soft Logic)的事件识别 方法和系统,以提高事件识别的准确性。

本发明的第一个方面是提供一种基于概率软逻辑PSL的事件识别方 法,包括:

计算至少候选与事件、以及至少在同一文档和/或同一语句中出现候 选与主题、事件与主题、两个不同候选或两个不同事件中的至少任意一个 的条件概率;

在PSL模型中为不同条件概率分别设定对应的变量,设计并根据PSL 模型的变量公式进行迭代,以最大化候选与事件的条件概率对应的变量, 得到候选在最大化条件下对应的特定的事件,并构成事件识别模型。

本发明的第二个方面是提供一种基于概率软逻辑PSL的事件识别系统, 包括:

先验概率模块,用于计算至少候选与事件、以及至少在同一文档和/ 或同一语句中出现候选与主题、事件与主题、两个不同候选或两个不同事 件中的至少任意一个的条件概率;

PSL识别模块,用于在PSL模型中为不同条件概率分别设定对应的变量, 设计并根据PSL模型的变量公式进行迭代,以最大化候选与事件的条件概率 对应的变量,得到候选在最大化条件下对应的特定的事件,并构成事件识别 模型。

本发明的有益效果为:

本发明基于概率软逻辑PSL的事件识别方法通过采用PSL模型上进行 有监督训练,实现了准确可靠事件识别;此外,在对训练词库中候选词进 行聚类时,预先获取候选词的高维信息作为先验信息,使对候选词的聚类 更加准确,从而提高了事件识别模型整体的识别精度。

附图说明

图1为本发明基于概率软逻辑PSL的事件识别方法实施例一的流程 图;

图2为本发明基于概率软逻辑PSL的事件识别方法实施例一的流程示 意图;

图3为本发明基于概率软逻辑PSL的事件识别方法实施例二的流程示 意图;

图4为本发明基于概率软逻辑PSL的事件识别系统实施例一的结构框 图。

具体实施方式

图1为本发明基于概率软逻辑PSL的事件识别方法实施例一的流程 图,图2为本发明基于概率软逻辑PSL的事件识别方法实施例一的流程示 意图,如图1和图2所示,本发明基于概率软逻辑PSL的事件识别方法包 括:

S101、计算至少候选与事件、以及至少在同一文档和/或同一语句中 出现候选与主题、事件与主题、两个不同候选或两个不同事件中的至少任 意一个的条件概率;

优选的,所述计算至少候选与事件、以及至少在同一文档和/或同一 语句中出现候选与主题、事件与主题、两个不同候选或两个不同事件中的 至少任意一个的条件概率包括:

S1011、生成候选的特征向量,获取同一语句中出现两个不同候选的 条件概率;

S1012、计算候选与事件的条件概率;优选的,所述计算候选与事件 的条件概率包括:

对词库中若干候选组成的特征向量在逻辑斯蒂回归模型LRM上执行 聚类,得到候选和事件的条件概率;这一过程由一个传统的分类模型组成 的模块实现,利用上一步抽取的特征向量,使用逻辑斯蒂回归模型,为触 发词类型的候选进行预分类,已有方法在使用分类模型时,通常控制模型 输出一个事件也即事件类别(为描述方便,简称事件)作为分类结果,本发 明的不同之处在于,这一步骤不输出事件,而是给出候选在所有事件上的 概率分布;

S1013、计算在同一语句中出现两个不同事件的条件概率;该模块在 训练数据集上统计语料级和篇章级的全局信息,构建一个全局信息知识 库,为后续PSL模块的推理提供支撑;该模块主要统计两类全局信息:由 于训练数据的真实分布未知,理论上,无法获得真实的条件概率分布,只 能用在词库训练数据集上的统计量估计它们,分别从语句级(句子级)和文 档级(篇章级)的共现来统计这两类条件概率;

优选的,所述计算在同一语句中出现两个不同事件的条件概率包括根 据公式(1)计算在同一文档中出现两个不同事件的条件概率psen(t1,t2):

psen(t1,t2)=numsen(t1,t2)ΣtTnumsen(t1,t2)---(1)

其中、psen(t1,t2)表示事件t1和事件t2出现在同一语句中的概率, numsen(t,t2)表示事件t和事件t2出现在同一语句中的次数;

S1014、计算在同一文档中出现两个不同事件的条件概率;优选的, 所述计算在同一文档中出现两个不同事件的条件概率包括根据公式(2)计 算在同一文档中出现两个不同事件的条件概率pdoc(t1,t2):

pdoc(t1,t2)=numdoc(t1,t2)ΣtTnumdoc(t1,t2)---(2)

其中、pdoc(t1,t2)表示事件t1和事件t2出现在同一文档中的概率, numdoc(t,t2)表示事件t和事件t2出现在同一文档中的次数;

S1015、计算在同一文档中出现事件与主题的条件概率;优选的,所 述计算在同一文档中出现事件与主题的条件概率包括根据公式(3)计算在 同一文档中出现事件与主题的条件概率p(t,p):

p(t,p)=num(t,p)ΣtTnumdoc(t,p)---(3)

其中、p(t,p)表示在同一文档中出现事件t与主题p的概率, numdoc(t',p)表示在同一文档中出现事件t'与主题p的次数;文档中描述的事 件与该文档的主题密切相关,如一篇娱乐新闻中可能描述Marriage、Born 事件,不太可能描述Attack、Die事件;首先利用LDA(Latent Dirichlet  Allocation)算法发现文档的主题,然后计算主题和事件类型之间共现的条 件概率来捕获这一信息;

S1016、根据主题自动挖掘模型获取候选与主题出现在同一文档的条 件概率,所述主题自动挖掘模型可以为LDA算法;

其中,S1011~S1016为平行步骤,不区分先后顺序;

S102、在PSL模型中为不同条件概率分别设定对应的变量,设计并根 据PSL模型的变量公式进行迭代,以最大化候选与事件的条件概率对应的 变量,得到候选在最大化条件下对应的特定的事件,并构成事件识别模型;

优选的,所述在PSL模型中为不同条件概率分别设定对应的变量,设 计并根据PSL模型的变量公式进行迭代,以最大化候选与事件的条件概率 对应的变量,得到候选在最大化条件下对应的特定的事件,并构成事件识 别模型包括:

在PSL模型中为不同条件概率分别设定对应的变量,设计并根据PSL 模型的变量公式(5)进行迭代:

topic(c,p)^topicEvt(p,t)^candEvt(c,t)eventType(c,t)sameSen(c1,c2)^senEvtEvt(t1,t2)^candEvt(c2,t2)^eventType(c1,t1)eventType(c2,t2)sameDoc(c1,c2)^docEvtEvt(t1,t2)^candEvt(c2,t2)^eventType(c1,t1)eventType(c2,t2)---(5)

以最大化候选与事件的条件概率对应的变量,得到候选在最大化条件 下对应的特定的事件,并构成事件识别模型;

其中、topic(c,p)表示候选c与主题p出现在同一文档的条件概率对应 的变量,topicEvt(p,t)表示主题p与事件t在同一文档共现的条件概率对应 的变量,candEvt(c,t)表示初始的候选c与事件t的条件概率对应的变量, eventType(c,t)表示至少迭代一次后的候选与事件的条件概率对应的变量; sameSen(c1,c2)表示候选c1和候选c2同时出现在一个语句中的条件概率对应 的变量,senEvtEvt(t1,t2)表示事件t1和事件t2出现在同一语句中的条件概率 对应的变量,candEvt(c2,t2)表示初始的候选c2与事件t2的条件概率对应的 变量,eventType(c1,t1)表示迭代后的候选c1与事件t1的条件概率对应的变量, eventType(c2,t2)表示至少迭代一次后的候选c2与事件t2的条件概率对应的变 量;sameDoc(c1,c2)表示候选c1和候选c2同时出现在一个文档中的条件概率 对应的变量,docEvtEvt(t1,t2)表示事件类型t1和事件类型t2出现在同一文档 中的条件概率对应的变量,如表2所示:

谓词 作用 candEvt(c,t) 用于表示分类模块产生的结果中,候选c在类别t上的概率 eventType(c,t) 目标谓词,表示候选c的类别是t topic(c,p) 标识候选c所在的文档的主题为p topicEvt(p,t) 用于表示p(t|p) sameSen(c1,c2) 标识候选c1和c2出现在同一个句子里 senEvtEvt(t1,t2) 用于表示psen(t1|t2) sameDoc(c1,c2) 标识候选c1和c2出现在同一篇文档中 docEvtEvt(t1,t2) 用于表示pdoc(t1|t2)

表2

公式(5)表示:主题和事件共现的先验概率越大,越可能是正确结果; 若候选在共同的句子出现,且已知c1的类型为t1,那么t1和t2在语句级共 现的先验概率越大,c2对应的事件越可能是t2;若候选在共同的文档出现, 且已知c1对应的的事件为t1,那么t1和t2在文档级共现的先验概率越大, c2的对应的事件越可能是t2

这里需要说明的是,通过所述PSL模型推理之后,不会直接得到最终 的结果,因为模型的输出是变量eventType,它会给出候选c在所有事件 上的条件概率,所述PSL模型推理完成之后,我们收集变量eventType的 所有实例,对其降序排序,选择值最大的若干结果作为最终结果。

以下举例说明应用本发明基于概率软逻辑PSL的事件识别方法进行 训练得到的事件识别模型的检测性能。

测试语料使用ACE2005数据集作为训练和测试语料;该语料共包含599 篇标注文档,选择530篇作为训练数据集,39篇作为测试数据集,另外的30 篇作为开发数据集。

现有方法和本发明所述方法的测试结果对比如表3所示:

表3

表中第一部分(前三行)是已有方法的结果,第二部分(后两行)是 本方法的结果。其中,Baseline(ours)利用了传统方法构建分类模型,唯一 的区别是,加入了在步骤1中挖掘的高维信息作为特征;Combined PSL 是本方法的完整实现;从实验结果可以看到,基于概率软逻辑的事件识别 及分类方法在该任务上的表现超过了已有方法,这个方法被证明是有效 的。

本发明基于概率软逻辑PSL的事件识别方法实施例一通过采用PSL模 型上进行有监督训练,实现了准确可靠事件识别;此外,在对训练词库中 候选词进行聚类时,预先获取候选词的高维信息作为先验信息,使对候选 词的聚类更加准确,从而提高了事件识别模型整体的识别精度。

图1为本发明基于概率软逻辑PSL的事件识别方法实施例一的流程 图,图3为本发明基于概率软逻辑PSL的事件识别方法实施例二的流程示 意图;如图1和图3所示,本发明基于概率软逻辑PSL的事件识别方法实 施例二中S2012~S2017与实施例一中S1011~1016对应相同,S202与S102 对应相同,不同之处在于,还包括S2011,也即本发明基于概率软逻辑PSL 的事件识别方法实施例二中S201包括:

S2011、获取候选的高维的类别信息;这里利用聚类技术,在全部词 库数据集上挖掘高维信息,后续的特征提取步骤将使用这些高维信息构建 特征,用于分类器的训练和测试,主要挖掘两类高维信息:细粒度实体类 型和候选触发词类型;

优选的,所述获取候选的高维的类别信息包括:

S20111、挖掘实体类型的候选的细粒度类型并确定候选的上位描述文 本或类型标识;

传统的命名实体识别(Named Entity Recognition,NER)工具只能识别 粗粒度的实体类型,例如机构名、人名、地名等,本发明在传统命名实体 识别工具识别结果的基础上,进行细粒度的实体类型挖掘。细粒度实体类 型指的是,将实体划分为更细致的类型;例如,对于人名这类实体,可以 继续将其细分为政治家、艺术家、科学家等;基本思想是,先用命名实体 识别工具识别出语料中所有的实体及其类型,然后对识别出的实体按照恰 当的策略进行聚类,使得聚类结果中的每个簇能反应某个细粒度实体类型 的信息;本发明的聚类策略是,首先针对数据集中的每个实体,在WordNet 中查找其全部的同义词、相关词及上位词,利用这些词构造该实体的描述 文本;其中,上位词需要递归地获取,为了限制语义漂移的幅度,设置了 递归次数上限,本发明中最多递归四次;

S20112、对触发词类型的候选执行聚类并确定候选的类型标识;

挖掘候选触发词的类别信息时,挖掘的方法和实体细粒度类型挖掘类 似,先利用WordNet产生候选词的描述文本,然后通过文本聚类来解决这 一问题,产生文本描述的策略和上述方法相同,利用同义词、相关词和上 位词进行描述,具体可以使用类型标识对其进行表述;

S2012、生成候选的特征向量,获取同一语句中出现两个不同候选的 条件概率;

对于给定的一篇文档,特征提取模块首先将其按照句子进行切分,然 后逐句产生候选并提取特征,本发明使用斯坦福大学的Stanford CoreNLP 工具对句子进行词法和句法分析;和主流方法相同,本发明将句子中的每 个词当作一个触发词候选,分别为这些候选提取特征,构建特征向量;这 一过程中不仅提取词法、句法特征,还利用上一步骤中挖掘的高维信息, 构建一组高维特征;

S2013、计算候选与事件的条件概率;优选的,所述计算候选与事件 的条件概率包括:

对词库中若干候选组成的特征向量在逻辑斯蒂回归模型LRM上执行 聚类,得到候选和事件的条件概率;

S2014、计算在同一语句中出现两个不同事件的条件概率;

优选的,所述计算在同一语句中出现两个不同事件的条件概率包括根 据公式(1)计算在同一文档中出现两个不同事件的条件概率psen(t1,t2):

psen(t1,t2)=numsen(t1,t2)ΣtTnumsen(t1,t2)---(1)

其中、psen(t1,t2)表示事件t1和事件t2出现在同一语句中的概率, numsen(t,t2)表示事件t和事件t2出现在同一语句中的次数;

S2015、计算在同一文档中出现两个不同事件的条件概率;优选的, 所述计算在同一文档中出现两个不同事件的条件概率包括根据公式(2)计 算在同一文档中出现两个不同事件的条件概率pdoc(t1,t2):

pdoc(t1,t2)=numdoc(t1,t2)ΣtTnumdoc(t1,t2)---(2)

其中、pdoc(t1,t2)表示事件t1和事件t2出现在同一文档中的概率, numdoc(t,t2)表示事件t和事件t2出现在同一文档中的次数;

S2016、计算在同一文档中出现事件与主题的条件概率;优选的,所 述计算在同一文档中出现事件与主题的条件概率包括根据公式(3)计算在 同一文档中出现事件与主题的条件概率p(t,p):

p(t,p)=num(t,p)ΣtTnumdoc(t,p)---(3)

其中、p(t,p)表示在同一文档中出现事件t与主题p的概率, numdoc(t',p)表示在同一文档中出现事件t'与主题p的次数;

S2017、根据主题自动挖掘模型获取候选与主题出现在同一文档的条 件概率,所述主题自动挖掘模型可以为LDA算法。

本发明基于概率软逻辑PSL的事件识别方法通过加入丰富的高维信 息作为特征,使得聚类获得的事件与类型的条件概率这一先验信息更加准 确,增加了使用本发明所述方法训练得到的事件识别模型的准确性此外, 还可以引入不同维度的全局信息作为特征。

图1本发明基于概率软逻辑PSL的事件识别方法实施例一的流程图, 如图1所示,本发明基于概率软逻辑PSL的事件识别方法实施例三中S301 的子步骤S3011~S3017与实施例二中S201的子步骤S2011~S2017对应相 同,不同之处在于,S302包括:

S3021、在PSL模型中为不同条件概率分别设定对应的变量;

S3022、根据公式(4)确定条件概率的平滑函数值predicate(key):

predicate(key)=min(log(a+p(key)-1,a)/b,1.0)     (4)

再用平滑函数值结果对所述不同概率对应的变量进行初始赋值;

其中、key表示所述条件概率对应的变量中的二维元组,a为整数且a >1,b为实数且b>0;

S3023、设计并根据PSL模型的变量公式(5)进行迭代:

topic(c,p)^topicEvt(p,t)^candEvt(c,t)eventType(c,t)sameSen(c1,c2)^senEvtEvt(t1,t2)^candEvt(c2,t2)^eventType(c1,t1)eventType(c2,t2)sameDoc(c1,c2)^docEvtEvt(t1,t2)^candEvt(c2,t2)^eventType(c1,t1)eventType(c2,t2)---(5)

以最大化候选与事件的条件概率对应的变量,得到候选在最大化条件 下对应的特定的事件,并构成事件识别模型;

其中、topic(c,p)表示候选c与主题p出现在同一文档的条件概率对应 的变量,topicEvt(p,t)表示主题p与事件t在同一文档共现的条件概率对应 的变量,candEvt(c,t)表示初始的候选c与事件t的条件概率对应的变量, eventType(c,t)表示至少迭代一次后的候选与事件的条件概率对应的变量; sameSen(c1,c2)表示候选c1和候选c2同时出现在一个语句中的条件概率对应 的变量,senEvtEvt(t1,t2)表示事件t1和事件t2出现在同一语句中的条件概率 对应的变量,candEvt(c2,t2)表示初始的候选c2与事件t2的条件概率对应的 变量,eventType(c1,t1)表示迭代后的候选c1与事件t1的条件概率对应的变量, eventType(c2,t2)表示至少迭代一次后的候选c2与事件t2的条件概率对应的变 量;sameDoc(c1,c2)表示候选c1和候选c2同时出现在一个文档中的条件概率 对应的变量,docEvtEvt(t1,t2)表示事件类型t1和事件类型t2出现在同一文档 中的条件概率对应的变量;需要说明的是,对变量进行初始赋值时,由于 统计出的条件概率的方差较大,而PSL模型对变量的值极其敏感,不能直 接用统计出的条件概率对相应的变量进行初始化,否则推理结会变差,为 了解决这一问题,我们设计所述平滑函数来平滑条件概率之间的差异,a 与b为经验值。

图4本发明基于概率软逻辑PSL的事件识别系统实施例一的流程图, 如图4所示,本发明基于概率软逻辑PSL的事件识别系统包括:

先验概率模块41,用于计算至少候选与事件、以及至少在同一文档和 /或同一语句中出现候选与主题、事件与主题、两个不同候选或两个不同 事件中的至少任意一个的条件概率;

PSL识别模块42,用于在PSL模型中为不同条件概率分别设定对应 的变量,设计并根据PSL模型的变量公式进行迭代,以最大化候选与事件 的条件概率对应的变量,得到候选在最大化条件下对应的特定的事件,并 构成事件识别模型。

优选的,所述先验概率模块具体用于:

生成候选的特征向量,获取同一语句中出现两个不同候选的条件概 率;

计算候选与事件的条件概率;优选的,所述先验概率模块具体用于: 对若干候选的特征向量在逻辑斯蒂回归模型LRM上执行聚类,得到候选 和事件的条件概率;

计算在同一语句中出现两个不同事件的条件概率;优选的,所述先验 概率模块具体用于:根据公式(1)计算在同一文档中出现两个不同事件的条 件概率psen(t1,t2):

psen(t1,t2)=numsen(t1,t2)ΣtTnumsen(t1,t2)---(1)

其中、psen(t1,t2)表示事件t1和事件t2出现在同一语句中的概率, numsen(t,t2)表示事件t和事件t2出现在同一语句中的次数;

计算在同一文档中出现两个不同事件的条件概率;优选的,所述先验 概率模块具体用于:根据公式(2)计算在同一文档中出现两个不同事件的条 件概率pdoc(t1,t2):

pdoc(t1,t2)=numdoc(t1,t2)ΣtTnumdoc(t1,t2)---(2)

其中、pdoc(t1,t2)表示事件t1和事件t2出现在同一文档中的概率, numdoc(t,t2)表示事件t和事件t2出现在同一文档中的次数;

计算在同一文档中出现事件与主题的条件概率;优选的,所述先验概 率模块具体用于:根据公式(3)计算在同一文档中出现事件与主题的条件概 率p(t,p):

p(t,p)=num(t,p)ΣtTnumdoc(t,p)---(3)

其中、p(t,p)表示在同一文档中出现事件t与主题p的概率, numdoc(t',p)表示在同一文档中出现事件t'与主题p的次数;

和根据主题自动挖掘模型,获取候选与主题出现在同一文档的条件概 率,所述主题自动挖掘模型可以为LDA算法;

优选的,所述PSL识别模块具体用于:

在PSL模型中为不同条件概率分别设定对应的变量,设计并根据PSL 模型的变量公式(5)进行迭代:

topic(c,p)^topicEvt(p,t)^candEvt(c,t)eventType(c,t)sameSen(c1,c2)^senEvtEvt(t1,t2)^candEvt(c2,t2)^eventType(c1,t1)eventType(c2,t2)sameDoc(c1,c2)^docEvtEvt(t1,t2)^candEvt(c2,t2)^eventType(c1,t1)eventType(c2,t2)---(5)

以最大化候选与事件的条件概率对应的变量,得到候选在最大化条件 下对应的特定的事件,并构成事件识别模型;

其中、topic(c,p)表示候选c与主题p出现在同一文档的条件概率对应 的变量,topicEvt(p,t)表示主题p与事件t在同一文档共现的条件概率对应 的变量,candEvt(c,t)表示初始的候选c与事件t的条件概率对应的变量, eventType(c,t)表示至少迭代一次后的候选与事件的条件概率对应的变量; sameSen(c1,c2)表示候选c1和候选c2同时出现在一个语句中的条件概率对应 的变量,senEvtEvt(t1,t2)表示事件t1和事件t2出现在同一语句中的条件概率 对应的变量,candEvt(c2,t2)表示初始的候选c2与事件t2的条件概率对应的 变量,eventType(c1,t1)表示迭代后的候选c1与事件t1的条件概率对应的变量, eventType(c2,t2)表示至少迭代一次后的候选c2与事件t2的条件概率对应的变 量;sameDoc(c1,c2)表示候选c1和候选c2同时出现在一个文档中的条件概率 对应的变量,docEvtEvt(t1,t2)表示事件类型t1和事件类型t2出现在同一文档 中的条件概率对应的变量。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非 对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的 普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进 行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或 者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范 围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号