首页> 中国专利> 一种言辞矛盾检测方法、装置、设备及存储介质

一种言辞矛盾检测方法、装置、设备及存储介质

摘要

本申请提供了一种言辞矛盾检测方法、装置、设备及存储介质,其中,方法包括:从对应于第一对象的第一文本中获取与目标案件的案情相关的问答对组成第一问答对集合,并从对应于第二对象的第二文本中获取与所述目标案件的案情相关的问答对组成第二问答对集合;从第一问答对集合中的问答对中抽取作案要素组成第一作案要素集合,并从第二问答对集合中的问答对中抽取作案要素组成第二作案要素集合;根据第一作案要素集合和第二作案要素集合,确定第一对象与第二对象的言辞是否矛盾。本申请提供的言辞矛盾检测方法可根据对应于第一对象的第一文本和对应于第二对象的第二文本自动判别出第一对象与第二对象的言辞是否存在矛盾。

著录项

  • 公开/公告号CN112464675A

    专利类型发明专利

  • 公开/公告日2021-03-09

    原文格式PDF

  • 申请/专利权人 科大讯飞股份有限公司;

    申请/专利号CN202011404854.8

  • 发明设计人 张大康;李浩;郭冬杰;盛志超;

    申请日2020-12-02

  • 分类号G06F40/35(20200101);G06F40/279(20200101);G06F16/35(20190101);

  • 代理机构11227 北京集佳知识产权代理有限公司;

  • 代理人张柳

  • 地址 230088 安徽省合肥市高新区望江西路666号

  • 入库时间 2023-06-19 10:08:35

说明书

技术领域

本申请涉及智能司法技术领域,尤其涉及一种言辞矛盾检测方法、装置、设备及存储介质。

背景技术

在检察官和法官的刑事案件阅卷过程中,根据审讯过程中所记录的讯/询问笔录来判别犯罪嫌疑人的言辞是否矛盾是重要的工作。目前的言辞矛盾判别方式主要为人工判别方式,即,由检察官和法官根据某个案件的某个犯罪嫌疑人的讯/询问笔录中记载的内容与该案件的其他犯罪嫌疑人的讯/询问笔录中记载的内容,判别该犯罪嫌疑人与其他犯罪嫌疑人的言辞是否矛盾。

然而,随着我国司法制度的完善和进步,人民群众的法律需求日益增长,在阅卷过程中,检察官和法官往往面对人少案多的局面,参与阅卷的检察官和法官面临巨大的压力,而单一的通过“增编加人”的方式并不能完全缓解这个问题,若能够通过自然语言处理技术辅助阅卷,自动判断犯罪嫌疑人的言辞是否矛盾,将大大缓解检察官和法官的阅卷压力,而如何自动判断犯罪嫌疑人的言辞矛盾是当前亟需解决的问题。

发明内容

有鉴于此,本申请提供了一种言辞矛盾检测方法、装置、设备及存储介质,用以自动判别第一对象与第二对象的言辞是否存在矛盾,其技术方案如下:

一种言辞矛盾检测方法,包括:

从对应于第一对象的第一文本中获取与目标案件的案情相关的问答对,组成第一问答对集合,并从对应于第二对象的第二文本中获取与所述目标案件的案情相关的问答对,组成第二问答对集合;

从所述第一问答对集合中的问答对中抽取作案要素,组成第一作案要素集合,并从所述第二问答对集合中的问答对中抽取作案要素,组成第二作案要素集合;

根据所述第一作案要素集合和所述第二作案要素集合,确定所述第一对象与所述第二对象的言辞是否矛盾。

可选的,从一文本中获取与目标案件的案情相关的问答对,包括:

从该文本中识别出问答对;

利用基于关键词的过滤规则,或者,预先建立的问答对分类模型,将识别出的问答对中与案情无关的问答对滤除,得到与案情有关的问答对;

其中,所述问答对分类模型采用标注有问答对类别的问答对训练得到,所述问答对类别包括与案情有关和与案情无关。

可选的,从一问答对集合中的问答对中抽取作案要素,包括:

针对该问答对集合中的每个问答对:

从该问答对中确定指定事件类型的句子,作为目标句子;

从所述目标句子中抽取作案要素;

以得到从该该问答对集合中的每个问答对抽取出的作案要素。

可选的,所述从该问答对中确定指定事件类型的句子,作为目标句子,包括:

将该问答对切分为句子,由切分得到的句子组成句子集合;

利用预先建立的事件类型分类模型,对所述句子集合中的每个句子进行事件类型分类,得到所述句子集合中每个句子的分类结果,其中,若一个句子属于指定事件类型集合中的一指定事件类型,则该句子的分类结果为该句子所属的指定事件类型,若该句子不属于任何指定事件类型,则该句子的分类结果为该句子不属于任何指定事件类型;

根据所述句子集合中每个句子的分类结果,获得所述句子集合中的目标句子。

可选的,所述利用预先建立的事件类型分类模型,对所述句子集合中的每个句子进行事件类型分类,得到所述句子集合中每个句子的分类结果,包括:

针对所述句子集合中的每个句子:

利用所述事件类型分类模型、该句子、该句子在其所在问答对中的位置信息以及所述指定事件类型集合,确定该句子的分类结果;

以得到所述句子集合中每个句子的分类结果。

可选的,所述利用所述事件类型分类模型、该句子、该句子在其所在问答对中的位置信息以及所述指定事件类型集合,确定该句子的分类结果,包括:

利用所述事件类型分类模型、该句子以及该句子在其所在问答对中的位置信息,确定该句子的表征向量;

利用所述事件类型分类模型和所述指定事件类型集合,确定所述指定事件类型集合中每个指定事件类型的事件类型向量;

利用所述事件类型分类模型、该句子的表征向量以及所述指定事件类型集合中每个指定事件类型的事件类型向量,确定该句子的分类结果。

可选的,所述利用所述事件类型分类模型、该句子以及该句子在其所在问答对中的位置信息,确定该句子的表征向量,包括:

利用所述事件类型分类模型和该句子中的每个词,确定该句子中每个词对应的词向量;

利用所述事件类型分类模型和该句子中每个词对应的词向量,确定该句子对应的句向量;

利用所述事件类型分类模型和该句子在其所在问答对中的位置信息,确定该句子对应的位置向量;

利用所述事件类型分类模型将该句子对应的句向量与该句子对应的位置向量进行拼接,拼接后向量作为该句子的表征向量。

可选的,所述从所述目标句子中抽取作案要素,包括:

利用预先建立的作案要素识别模型、所述目标句子所属的指定事件类型以及所述目标句子对应的第一事件类型向量,从所述目标句子中抽取作案要素;

其中,所述作案要素识别模型采用标注有作案要素类别的训练文本训练得到;所述目标句子对应的第一事件类型向量为利用所述事件类型分类模型针对所述目标句子所属的指定事件类型确定的事件类型向量。

可选的,所述利用预先建立的作案要素识别模型、所述目标句子所属的指定事件类型以及所述目标句子对应的第一事件类型向量,从所述目标句子中抽取作案要素,包括:

利用所述作案要素识别模型、所述目标句子中的每个词、所述目标句子所属的指定事件类型以及所述目标句子对应的第一事件类型向量,确定所述目标句子中每个词对应的上下文向量;

利用所述作案要素识别模型和所述目标句子中每个词对应的上下文向量,对所述目标句子中的每个词进行作案要素识别,得到所述目标句子中每个词的识别结果,其中,若一个词属于指定作案要素类别集合中的一指定作案要素类别,则该词的识别结果为该词所属的指定作案要素类别,若该词不属于所述指定作案要素类别集合中的任何作案要素类别,则该词的作案要素识别结果为该词不属于任何指定作案要素类别;

根据所述目标句子中每个词的识别结果,获得所述目标句子中的作案要素。

可选的,所述利用所述作案要素识别模型、所述目标句子中的每个词、所述目标句子所属的指定事件类型以及所述目标句子对应的第一事件类型向量,确定所述目标句子中每个词对应的上下文向量,包括:

利用所述作案要素识别模型和所述目标句子中的每个词,确定所述目标句子中每个词对应的词向量;

利用所述作案要素识别模型对所述目标句子中每个词对应的词向量进行编码,获得每个词对应的、包含其在所述目标句子中的信息以及所述目标句子的部分信息的目标向量;

利用所述作案要素识别模型和所述目标句子所属的指定事件类型,确定所述目标句子所属的指定事件类型的事件类型向量,作为所述目标句子对应的第二事件类型向量;

利用所述作案要素识别模型、所述目标句子中每个词对应的目标向量、所述目标句子对应的第一事件类型向量和第二事件类型向量,确定所述目标句子中每个词对应的注意力权重;

利用所述作案要素识别模型,以及所述目标句子中每个词对应的目标向量和注意力权重,确定所述目标句子中每个词对应的上下文向量。

可选的,所述根据所述第一作案要素集合和所述第二作案要素集合,确定所述第一对象与所述第二对象的言辞是否矛盾,包括:

对所述第一作案要素集合中的每个作案要素以及所述第二作案要素集合中的每个作案要素进行标准化处理,得到标准化处理后的第一作案要素集合和标准化处理后的第二作案要素集合,其中,在对一作案要素进行标准化时,以该作案要素所属的作案要素类别为依据;

根据所述标准化处理后的第一作案要素集合和所述标准化处理后的第二作案要素集合,确定所述第一对象与所述第二对象的言辞是否矛盾。

可选的,以一作案要素所属的作案要素类别为依据,对该作案要素进行标准化处理,包括:

若该作案要素所属的作案要素类别指示该作案要素为数字型作案要素,则按该作案要素所属的作案要素类别对应的映射规则,将该作案要素映射到区间。

一种言辞矛盾检测装置,包括:案情相关问答对获取模块、作案要素抽取模块和言辞矛盾检测模块;

所述案情相关问答对获取模块,用于从对应于第一对象的第一文本中获取与目标案件的案情相关的问答对,组成第一问答对集合,并从对应于第二对象的第二文本中获取与所述目标案件的案情相关的问答对,组成第二问答对集合;

所述作案要素抽取模块,用于从所述第一问答对集合中的问答对中抽取作案要素,组成第一作案要素集合,并从所述第二问答对集合中的问答对中抽取作案要素,组成第二作案要素集合;

所述言辞矛盾检测模块,用于根据所述第一作案要素集合和所述第二作案要素集合,确定所述第一对象与所述第二对象的言辞是否矛盾。

可选的,所述作案要素抽取模块在从一问答对集合中的问答对中抽取作案要素时,具体用于针对该问答对集合中的每个问答对,从该问答对中确定指定事件类型的句子,作为目标句子,并从所述目标句子中抽取作案要素,以得到从该问答对集合中的每个问答对抽取出的作案要素。

一种言辞矛盾检测设备,包括:存储器和处理器;

所述存储器,用于存储程序;

所述处理器,用于执行所述程序,实现上述任一项所述的言辞矛盾检测方法的各个步骤。

一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现上述任一项所述的言辞矛盾检测方法的各个步骤。

本申请提供的言辞矛盾检测方法、装置、设备及存储介质,首先从对应于第一对象的第一文本中获取与目标案件的案情相关的问答对,组成第一问答对集合,并从对应于第二对象的第二文本中获取与目标案件的案情相关的问答对,组成第二问答对集合,然后从第一问答对集合中的问答对中抽取作案要素,组成第一作案要素集合,并从第二问答对集合中的问答对中抽取作案要素,组成第二作案要素集合,最后根据第一作案要素集合和第二作案要素集合,确定第一对象与第二对象的言辞是否矛盾。由此可见,本申请提供的言辞矛盾检测方法可根据对应于第一对象的第一文本和对应于第二对象的第二文本自动判别出第一对象与第二对象的言辞是否存在矛盾,相比于现有的人工判别方式,本申请大大缓解了矛盾判别人员的压力,同时提高了言辞矛盾与否的判别效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的言辞矛盾检测方法的流程示意图;

图2为本申请实施例提供的一文本的示例;

图3为本申请实施例提供的从一问答对中确定指定事件类型的句子的流程示意图;

图4为本申请实施例提供的利用事件类型分类模型、句子、句子在其所在问答对中的位置信息以及指定事件类型集合,确定句子的分类结果的流程示意图;

图5为本申请实施例提供的利用事件类型分类模块对句子进行事件类型分类的示意图;

图6为本申请实施例提供的利用预先建立的作案要素识别模型、目标句子所属的指定事件类型以及目标句子对应的第一事件类型向量,从目标句子中抽取作案要素的流程示意图;

图7本申请实施例提供的利用作案要素识别模型从目标句子中识别作案要素的示意图;

图8为本申请实施例提供的根据第一作案要素集合和第二作案要素集合,确定第一对象与第二对象的言辞是否矛盾的流程示意图;

图9本申请实施例提供的言辞矛盾检测装置的结构示意图;

图10为本申请实施例提供的言辞矛盾检测设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

现有的言辞矛盾判别方式主要为人工判别方式,然而人工判别方式效率较低,且人工成本和时间成本较高,为了克服现有人工判别方式存在的问题,本案发明人通过深入研究,提出了一种言辞矛盾检测方法,该方法能够自动进行言辞矛盾与否的判别,该方法的大致思路是,从对应于第一对象的文本中提取作案要素,并从对应于第二对象的文本中提取作案要素,根据从两个文本中提取的作案要素确定第一对象与第二对象的言辞是否矛盾。

本案发明人提出的言辞矛盾检测方法可应用于具有数据处理能力的终端(比如,PC、笔记本、平板电脑、智能手机等),还可应用于单个服务器、多个服务器或服务器集群。接下来通过下述实施例对本申请提供的言辞矛盾检测方法进行介绍。

请参阅图1,示出了本申请实施例提供的言辞矛盾检测方法的流程示意图,可以包括:

步骤S101:从对应于第一对象的第一文本中获取与目标案件的案情相关的问答对,组成第一问答对集合,并从对应于第二对象的第二文本中获取与目标案件的案情相关的问答对,组成第二问答对集合。

其中,第一对象和第二对象可以为目标案件的两个犯罪嫌疑人,若目标案件的犯罪嫌疑人只有两个,则第一对象和第二对象即为这两个嫌疑人,若目标案件的犯罪嫌疑人多于两个,则第一对象和第二对象为所有犯罪嫌疑人中的任意两个。

对应于第一对象的第一文本和对应于第二对象的第二文本为与目标案件相关的文本,第一文本与第二文本的类型相同,第一文本中包括若干问答对,问答对中的作答内容由第一对象作答,同样的,第二文本也包括若干问答对,问答对中的作答内容由第二对象作答。可选的,本实施例中,对应于第一对象的第一文本可以为对第一对象针对目标案件进行审讯的过程中,所记录的讯/询问笔录,同样的,对应于第二对象的第二文本为对第二对象针对目标案件进行审讯的过程中,所记录的讯/询问笔录。

需要说明的是,第一文本和第二文本中通常不只包括问答对,还会包括一些其它的信息,比如,第一文本中通常会包括第一对象的基本信息(比如姓名、性别、工作单位、职务、家庭住址、联系方式等),并且,第一文本和第二文本中的问答对通常不只包括与目标案件的案情有关的问答对,还会包括与目标案件的案情无关的问答对,比如,讯问犯罪嫌疑人是否需要聘请律师,身体是否健康等。考虑到言辞矛盾检测关注的是第一文本和第二文本中与案情有关的信息,同时为了缩短矛盾检测的时间,本实施例首先分别从第一文本和第二文本中获取与目标案件的案情相关的问答对,从而对与目标案件的案情相关的问答对进行后续处理。

步骤S102:从第一问答对集合中的问答对中抽取作案要素,组成第一作案要素集合,并从第二问答对集合中的问答对中抽取作案要素,组成第二作案要素集合。

本实施例中的作案要素可以但不限定为作案时间、作案地点、作案对象、涉案金额等中的一种或多种的组合,假设目标案件为盗窃案,则作案要素可以为作案时间、盗窃者、盗窃金额等。需要说明的是,从第一问答对集合中的问答对中抽取的作案要素以及从第二问答对集合中的问答对中抽取的作案要素可根据具体应用情况设定,本实施例并不对作案要素的具体的内容进行限定。

具体的,对于第一问答对集合和第二问答对集合中的每个问答对集合,从该问答对集合中的问答对中抽取作案要素的过程可以包括:针对该问答对集合中的每个问答对,先从该问答对中确定指定事件类型的句子,作为目标句子,然后从目标句子中抽取作案要素,从而得到从该该问答对集合中的每个问答对抽取出的作案要素。

其中,指定事件类型可以为根据目标案件预先设定的事件类型。示例性的,目标案件为盗窃案,则指定事件类型可以包括犯意联络、盗窃、望风、销赃和分赃等。

步骤S103:根据第一作案要素集合和第二作案要素集合,确定第一对象与第二对象的言辞是否矛盾。

本实施例通过对第一作案要素集合中的作案要素与第二作案要素集合中对应的作案要素进行比对,来确定第一对象与第二对象的言辞是否矛盾。

示例性的,目标案件为盗窃案,第一作案要素集合和第二作案要素集合中均包括作案时间、作案地点、盗窃者、盗窃金额,在进行作案要素比对时,将两个作案要素集合中的作案时间进行比对,将两个作案要素集合中的作案地点进行比对,将两个作案要素集合中的盗窃者进行比对,将两个作案要素集合中的盗窃金额进行比对,若有至少一对作案要素存在矛盾,即可认为第一对象与第二对象的言辞矛盾。

优选的,本实施例在确定出第一对象与第二对象的言辞存在矛盾时,可输出第一对象与第二对象的言辞存在矛盾的指示信息,同时还可展示存在矛盾的作案要素对。

本申请实施例提供的言辞矛盾检测方法、装置、设备及存储介质,首先从对应于第一对象的第一文本中获取与目标案件的案情相关的问答对,组成第一问答对集合,并从对应于第二对象的第二文本中获取与目标案件的案情相关的问答对,组成第二问答对集合,然后从第一问答对集合中的问答对中抽取作案要素,组成第一作案要素集合,并从第二问答对集合中的问答对中抽取作案要素,组成第二作案要素集合,最后根据第一作案要素集合和第二作案要素集合,确定第一对象与第二对象的言辞是否矛盾。由此可见,本申请实施例提供的言辞矛盾检测方法可根据对应于第一对象的第一文本和对应于第二对象的第二文本自动判别出第一对象与第二对象的言辞是否存在矛盾,相比于现有的人工判别方式,本申请大大缓解了判别人员的压力,同时提高了言辞矛盾与否的判别效率,即,降低了人工成本和时间成本。

本实施例对上述实施例中的“步骤S101:从对应于第一对象的第一文本中获取与目标案件的案情相关的问答对,组成第一问答对集合,并从对应于第二对象的第二文本中获取与目标案件的案情相关的问答对,组成第二问答对集合”进行介绍。

由于从第一文本中获取与目标案件的案情相关的问答对的过程与从第二文本中获取与目标案件的案情相关的问答对的过程类似,本实施例以一个文本T为例,对从文本T中获取与目标案件的案情相关的问答对的过程进行介绍。

从文本T中获取与目标案件的案情相关的问答对的过程可以包括:

步骤a1、从文本T中识别出问答对。

图2示出了一文本的示例,由图2可以看出,文本中除了包括问答对外,还包括一些其他信息,比如,犯罪嫌疑人的基本信息、讯问人、记录人等信息,步骤a1的目的在于将文本中的问答对识别出来。

在本实施例中,可利用预先建立的问答对识别模型,从文本T中识别出问答对。其中,问答对识别模型采用正样本和负样本训练得到,其中,正样本为问答对,负样本为非问答对。

问答对识别模型实质为一个二分类模型,用于判断一段文本是否为问答对。本实施例中的问答对识别模型可以采用CNN或者LSTM,也可以采用BERT或者XLNet等。利用问答对识别模型对图2示出的文本进行问答对识别,便可获得图2中框出的问答对。

需要说明的是,问答对识别这一阶段的标注工作需要标注人员将训练文本(比如讯/询问笔录)中的问答对标为正样本,其它无关的文本标为负样本,这一阶段的任务相对简单,且正样本的特征比较明显,因此不需要投入太多的人力进行标注,就可以获得较好的效果。

步骤a2、利用基于关键词的过滤规则,或者预先建立的问答对分类模型,将识别出的问答对中与案情无关的问答对滤除,得到与案情有关的问答对。

通过步骤a1获得问答对后,需要将与目标案件的案情有关的问答对滤除,在一种可能的实现方式中,可利用基于关键词的过滤规则,将通过步骤a1获得问答对中与案情无关的问答对滤除,具体的,可设定与案情无关的关键词,将包含与案情无关的关键词的问答对滤除,在另一种可能的实现方式中,可将通过步骤a1获得问答对输入预先建立的问答对分类模型,获得问答对的分类结果,其中,问答对的分类结果为问答对的类别,问答对的类别包括“与案情有关”和“与案情无关”,在获得问答对的分类结果后,便可将类别为“与案情无关”的问答对滤除。其中,问答对分类模型采用标注有问答对类别的问答对训练得到。

可选的,为了降低标注的人力需求并简化模型训练流程,可将问答对的识别与过滤合二为一,即训练一个既可进行问答对识别,又可将识别出的问答对中与案件无关的问答对滤除的模型,即问答对识别及过滤模型,针对该模型的标注工作,需要标注人员将训练文本(比如讯/询问笔录)中的问答对标为正样本,其它无关的文本标为负样本,进一步的,对于正样本需要标注出问答对的类别(即,与案情有关、与案情无关)。在训练得到问答对识别及过滤模型后,通过该模型便可将文本T中与案件相关的问答对识别出来。

第一实施例中提到,在从一问答对中抽取作案要素时,可先从该问答对中确定指定事件类型的句子,作为目标句子,然后从目标句子中抽取作案要素,本实施例对从一问答对中确定指定事件类型的句子(即目标句子)的过程进行介绍。

请参阅图3,示出了从一问答对中确定指定事件类型的句子(即目标句子)的流程示意图,可以包括:

步骤S301:将该问答对切分为句子,由切分得到的句子组成句子集合。

需要说明的是,一个问答对往往包含许多个事件类型的事件,比如,在包含犯罪嫌疑人叙述作案经过的问答对中,往往包括犯意联络、盗窃、望风等事件类型的事件,在这种情况下,若以问答对为单位进行事件抽取(事件抽取即确定指定事件类型的句子)较为复杂,效果难以保证。

为了保证事件抽取的准确性,本实施例以句子为单位进行事件抽取,可以理解的是,若要以句子为单位进行事件抽取,首先需要将问答对切分为句子,在本实施例中,可根据句子之间的逗号、句号、问号等分隔符,对问答对进行句子切分。

可选的,考虑到本申请主要是检测第一对象与第二对象的言辞是否存在矛盾,而第一对象和第二对象的言辞为问答对中的作答部分,基于此,可只对问答对中的作答部分进行句子切分,由对作答部分切分得到的句子组成句子集合。

步骤S302:利用预先建立的事件类型分类模型,对句子集合中的每个句子进行事件类型分类,得到句子集合中每个句子的分类结果。

其中,事件类型分类模型采用标注有事件类型的训练文本训练得到。

尽管用于进行要素抽取的问答对为与目标案件的案情有关的问答对,但是,在与目标案件的案情有关的问答对内部,并不是所有的句子都是指定事件类型的句子(或者说,并不是所有的句子都是具有事件类型的句子),即上述句子集合中并不是所有句子都是指定事件类型的句子,为此,本实施例利用预先建立的事件类型分类模型对句子集合中的每个句子进行事件类型分类,从而得到句子集合中每个句子的分类结果。

需要说明的是,若一个句子属于指定事件类型集合中的一指定事件类型,则该句子的分类结果为该句子所属的指定事件类型,若该句子不属于任何指定事件类型,则该句子的分类结果为该句子不属于任何指定事件类型。其中,指定事件类型集合根据目标案件设定,示例性的,目标案件为盗窃案,则指定事件类型集合为{犯意联络,盗窃,望风,销赃,分赃}。

示例性的,句子集合为{小王提议去超市偷点东西,然后我们来到附近的超市,小王把手伸进一个顾客的包里,我在一旁望风},利用事件类型分类模型对“小王提议去超市偷点东西”这一句子进行事件类型分类,可得到这一句子所属的事件类型为“犯意联络”,利用事件类型分类模型对“然后我们来到附近的超市”这一句子进行事件类型分类,可得到这一句子不属于{犯意联络,盗窃,望风,销赃,分赃}中的任何事件类型,即该句子是不具有事件类型的句子,利用事件类型分类模型对“小王把手伸进一个顾客的包里”这一句子进行事件类型分类,可得到这一句子所属的事件类型为“盗窃”,利用事件类型分类模型对“我在一旁望风”这一句子进行事件类型分类,可得到这一句子所属的事件类型为“望风”。

对于句子集合中的任一句子,利用事件类型分类模型不但可确定该句子是否为指定事件类型的句子(即该句子是否具有事件类型),在该句子为指定事件类型的句子(即该句子具有事件类型)时,还可确定该句子属于指定事件类型集合中的哪个指定事件类型。

步骤S303:根据句子集合中每个句子的分类结果,获得句子集合中的目标句子。

对于句子集合中的每个句子,若该句子属于指定事件类型集合中的一指定事件类型(即该句子具有事件类型),则该句子为目标句子,若该句子不属于指定事件类型集合中的任何指定事件类型(即该句子不具有事件类型),则该句子不是目标句子。

接下来对上述“步骤S302:利用预先建立的事件类型分类模型,对句子集合中的每个句子进行事件类型分类,得到句子集合中每个句子的分类结果”进行介绍。

利用预先建立的事件类型分类模型,对句子集合中的每个句子进行事件类型分类,得到句子集合中每个句子的分类结果的过程可以包括:针对句子集合中的每个句子,利用事件类型分类模型、该句子、该句子在其所在问答对中的位置信息以及指定事件类型集合,确定该句子的分类结果,以得到句子集合中每个句子的分类结果。

考虑到嫌疑人描述作案经过时往往按照时间依次描述,即正叙,比如,对于盗窃案,嫌疑人通常依次描述作案过程中的犯意联络、盗窃、望风和销赃等,因此,一个句子所属的事件类型和该句子在其所在问答对中的位置具有较强的关系,基于此,可将一个句子在其所在问答对中的位置信息作为一个特征来辅助进行事件类型的判断,进一步提高事件类型分类的准确性。

考虑到问答对中的有些句子可能不只具有一个事件类型,也就是说,一个句子可能属于多个事件类型,比如,句子“小王把那辆车子偷走之后就卖掉了”属于两个事件类型,分别为盗窃和销赃,由此可见,事件类型分类模型需要实现多标签分类,为了使事件类型分类模型能够实现多标签分类,本申请提出对于指定事件类型集合中的每个指定事件类型,给其分配一个事件类型向量,不同的事件类型有不同的事件类型向量,然后使事件类型向量与句子本身的特征交互,从而得到事件类型的分类结果。

请参阅图4,示出了“利用事件类型分类模型、该句子、该句子在其所在问答对中的位置信息以及指定事件类型集合,确定该句子的分类结果”的流程示意图,可以包括:

步骤S401:利用事件类型分类模型、该句子以及该句子在其所在问答对中的位置信息,确定该句子的表征向量。

其中,一个句子在其所在问答对中的位置可通过该句子到其所在问答对开头的距离表征,需要说明的是,若句子集合中的句子为对问答对中的作答部分切分得到的句子,则句子集合中一个句子在其所在问答对中的位置可通过该句子到其所在作答部分开头的距离表征,比如,一个问答对为:

问:交代一下你的作案经过?

答:昨天晚上10时许,小王给我打电话,跟我说XX小区很多电动车挺值钱的,可以去偷。

其中,“跟我说XX小区很多电动车挺值钱的”这一句子到作答部分开头的距离为2,因为从“答:”到这句话经过了两个句子。

具体的,利用事件类型分类模型、该句子以及该句子在其所在问答对中的位置信息,确定该句子的表征向量的过程可以包括:

步骤S4011、利用事件类型分类模型和该句子中的每个词,确定该句子中每个词对应的词向量。

具体的,对该句子进行分词处理,将分词处理后的每个词输入事件类型分类模型的词向量确定模块,可获得该句子中的每个词对应的词向量,更为具体的,事件类型分类模型的词向量确定模块利用词嵌入矩阵将词映射为词向量。

步骤S4012、利用事件类型分类模型和该句子中每个词对应的词向量,确定该句子对应的句向量。

具体的,将该句子中每个词对应的词向量输入事件类型分类模型的句向量确定模块,可得到该句子对应的句向量,更为具体的,事件类型分类模型的句向量确定模块可以为编码器,可选的,编码器可以为LSTM、BERT、CNN等,为了获得较高的推理速度,同时降低对于设备内存的占用,编码器优选为CNN。

步骤S4013、利用事件类型分类模型和该句子在其所在问答对中的位置信息,确定该句子对应的位置向量。

具体的,将该句子在其所在问答对中的位置信息输入事件类型分类模型的位置向量确定模块,获得该句子对应的位置向量,更为具体的,事件类型分类模型的位置向量确定模块通过位置向量嵌入矩阵将该句子在其所在问答对中的位置信息映射为位置向量。

需要说明的是,在事件类型分类模型的训练阶段,位置向量嵌入矩阵通过随机初始化获取,并在训练过程中不断进行调整,由于位置向量根据位置向量嵌入矩阵确定,通过位置向量嵌入矩阵的调整,使得根据位置向量嵌入矩阵确定的位置向量能够为事件类型的分类起到更好的辅助作用,从而提升事件类型的分类效果。

步骤S4014、利用事件类型分类模型将该句子对应的句向量与该句子对应的位置向量进行拼接,拼接后向量作为该句子的表征向量。

具体的,将该句子对应的句向量与该句子对应的位置向量输入事件类型分类模型的向量拼接模块,得到该句子的表征向量,该句子的表征向量的既包含了该句子本身的信息,又包含了该句子在问答对中的位置信息。

步骤S402:利用事件类型分类模型和指定事件类型集合,确定指定事件类型集合中每个指定事件类型的事件类型向量。

具体的,将指定事件类型集合中的每个指定事件类型输入事件类型分类模型的事件类型向量确定模块,获得指定事件类型集合中每个指定事件类型的事件类型向量。更为具体的,事件类型分类模型的事件类型向量确定模块通过事件类型向量嵌入矩阵将指定事件类型映射为事件类型向量。

需要说明的是,与位置向量嵌入矩阵类似,在事件类型分类模型的训练阶段,事件类型向量嵌入矩阵也通过随机初始化获取,并在训练过程中不断进行调整。

步骤S403:利用事件类型分类模型、该句子的表征向量以及指定事件类型集合中每个指定事件类型的事件类型向量,确定该句子的分类结果。

具体的,将该句子的表征向量以及指定事件类型集合中每个指定事件类型的事件类型向量输入事件类型分类模型的概率预测模块,可获得该句子属于指定事件类型集合中每个指定事件类型的概率,根据获得的概率确定该句子的分类结果。

具体的,对于获得的每个概率,确定该概率是否大于预设的概率阈值,若是,则确定该句子属于该概率对应的指定事件类型,否则,确定该句子不属于该概率对应的指定事件类型,若获得的各个概率均不大于预设的概率阈值,则确定该句子不属于指定事件类型集合中任何指定事件类型。

进一步的,概率预测模块进行概率预测的过程为:首先将该句子的表征向量与指定事件类型集合中每个指定事件类型的事件类型向量求内积,然后将求得的各个值经sigmoid函数,便可得到该句子属于指定事件类型集合中每个指定事件类型的概率。

需要说明的是,为了保证该句子的表征向量与指定事件类型的事件类型向量可以求内积,需要使指定事件类型的事件类型向量的维度等于该句子对应的句向量与该句子对应的位置向量的维度之和。另外需要说明的是,之所以对句子的表征向量与指定事件类型的事件类型向量求内积,是因为,求内积可以高效地计算出句子的表征向量与指定事件类型的事件类型向量的相关性,且运算速度快。

接下来结合图5,通过一个具体的例子对利用事件类型分类模块对句子进行事件类型分类的过程进行说明。

假设待分类句子为“小王把电动车偷走了”,利用事件类型分类模块对该句子进行事件类型分类的过程如下:

第一方面,确定句子“小王把电动车偷走了”的表征向量。具体的,先对句子“小王把电动车偷走了”进行分词处理,得到词“小王”、“把”、“电动车”、“偷走”、“了”,然后将分词处理得到的各个词输入事件类型分类模型的词向量确定模块,获得“小王”、“把”、“电动车”、“偷走”、“了”分别对应的词向量,接着,将“小王”、“把”、“电动车”、“偷走”、“了”分别对应的词向量输入事件类型分类模型的句向量确定模块(比如CNN),可获得句子“小王把电动车偷走了”对应的句向量V

第二方面,确定句子“小王把电动车偷走了”对应的位置向量。具体的,获取句子“小王把电动车偷走了”在其所在问答对的位置信息(比如该句子到其所在问答对开头的距离),将该位置信息输入事件类型分类模型的位置向量确定模块,位置向量确定模块通过位置向量嵌入矩阵将该位置信息映射为位置向量,从而得到句子“小王把电动车偷走了”对应的位置向量V

第三方面,确定指定事件类型集合中每个指定事件类型的指定事件类型向量。具体的,将指定事件类型集合{犯意联络,盗窃,望风,销赃,分赃}中的每个指定事件类型输入事件类型分类模型的事件类型向量确定模块,获得指定事件类型“犯意联络”、“盗窃”、“望风”、“销赃”、“分赃”分别对应的事件类型向量V

接着,将句子“小王把电动车偷走了”对应的句向量V

在获得P

上述实施例提到,在从一问答对中抽取作案要素时,先从该问答对中确定指定事件类型的句子(即具有事件类型的句子),作为目标句子,然后从目标句子中抽取作案要素,本实施例对从目标句子中抽取作案要素的过程进行介绍。

从目标句子中抽取作案要素的过程可以包括:利用预先建立的作案要素识别模型、目标句子所属的指定事件类型以及目标句子对应的第一事件类型向量,从目标句子中抽取作案要素。其中,作案要素识别模型采用标注有作案要素类别的训练文本训练得到。

需要说明是,目标句子对应的第一事件类型向量为利用上述提及的事件类型分类模型针对目标句子所属的指定事件类型确定的事件类型向量。示例性的,指定事件类型集合为{犯意联络,盗窃,望风,销赃,分赃},利用事件类型分类模型对待分类句子进行事件类型分类的过程中,会确定“犯意联络”、“盗窃”、“望风”、“销赃”、“分赃”分别对应的事件类型向量v

进一步的,请参阅图6,示出了“利用预先建立的作案要素识别模型、目标句子所属的指定事件类型以及目标句子对应的第一事件类型向量,从目标句子中抽取作案要素”的流程示意图,可以包括:

步骤S601:利用作案要素识别模型、目标句子中的每个词、目标句子所属的指定事件类型以及目标句子对应的第一事件类型向量,确定目标句子中每个词对应的上下文向量。

其中,目标句子中一个词对应的上下文向量包含该词在目标句子中的上下文信息。

在本实施例中,可将目标句子所属的指定事件类型添加在目标句子之前,为了避免作案要素识别模型将添加在目标句子前的指定事件类型当成目标句子的一部分,可在指定事件类型前添加一符号,比如“@”,假设目标句子为“小王把电动车偷走了”,该句子所属的指定事件类型为“盗窃”,则在目标句子前添加指定事件类型“盗窃”和符号“@”后为“@盗窃小王把电动车偷走了”,“@盗窃小王把电动车偷走了”输入作案要素识别模型进行处理。

具体的,步骤S601的实现过程包括:

步骤S6011:利用作案要素识别模型和目标句子中的每个词,确定目标句子中每个词对应的词向量。

具体的,可先对目标句子进行分词,获得目标句子中的每个词,然后将目标句子中的每个词输入作案要素识别模型的词向量确定模块,获得目标句子中每个词对应的词向量。

步骤S6012:利用作案要素识别模型对目标句子中每个词对应的词向量进行编码,获得每个词对应的、包含其在目标句子中的信息以及目标句子的部分信息的目标向量。

具体的,可将目标句子中每个词对应的词向量输入作案要素识别模型的编码模块进行编码,获得目标句子中每个词对应的目标向量,一个词对应的词向量仅包含该词本身的信息,而一个词对应的目标向量则包含了该词在目标句子中的信息,同时还包括了目标句子的部分信息。

步骤S6013:利用作案要素识别模型和目标句子所属的指定事件类型,确定目标句子所属的指定事件类型的事件类型向量,作为目标句子对应的第二事件类型向量。

具体的,可将目标句子所属的指定事件类型输入作案要素识别模型的事件类型向量确定模块,以获得目标句子所属的指定事件类型的事件类型向量。更为具体的,作案要素识别模型的事件类型向量确定模块可根据事件类型向量嵌入矩阵,确定目标句子所属的指定事件类型的事件类型向量。需要说明的是,在作案要素识别模型的训练阶段,事件类型向量嵌入矩阵通过随机初始化获取,并在训练过程中不断调整。

步骤S6014:利用作案要素识别模型、目标句子中每个词对应的目标向量、目标句子对应的第一事件类型向量和第二事件类型向量,确定目标句子中每个词对应的注意力权重。

在本实施例中,可对目标句子对应的第一事件类型向量进行降采样,将降采样处理后的向量与目标句子对应的第二事件类型向量拼接,以得到拼接向量v,以拼接向量v和目标句子中每个词对应的目标向量为依据,确定目标句子中每个词对应的注意力权重。需要说明的是,之所以对目标句子对应的第一事件类型向量进行降采样,是因为目标句子对应的第一事件类型向量的维度较大,不利于后续注意力权重的计算,对目标句子对应的第一事件类型向量进行进行降采样,不但能够保留原始特征,还能实现降维功能。

具体的,可将目标句子中每个词对应的目标向量,以及上述的拼接向量v,输入作案要素识别模型的注意力模块,获得目标句子中每个词对应的注意力权重。具体的,目标句子中每个词对应的注意力权重可根据下式确定:

α

其中,α

步骤S6015:利用作案要素识别模型,以及目标句子中每个词对应的目标向量和注意力权重,确定目标句子中每个词对应的上下文向量。

具体的,将目标句子中每个词对应的目标向量以及目标句子中每个词对应的注意力权重输入作案要素识别模型的上下文向量确定模块,获得目标句子中每个词对应的上下文向量。更为具体的,作案要素识别模型的上下文向量确定模块对每个词对应的目标向量按对应的注意力系数加权,即:

c

其中,c

步骤S602:利用作案要素识别模型和目标句子中每个词对应的上下文向量,对目标句子中的每个词进行作案要素识别,得到目标句子中每个词的识别结果。

具体的,先利用作案要素识别模型和目标句子中每个词对应的上下文向量确定目标句子中的每个词属于指定作案要素类别集合中每个指定作案要素类别的概率,以及不属于指定作案要素类别集合中任何指定概率要素类别的概率,然后根据确定出的概率确定目标句子中每个词的识别结果。

在本实施例中,可将目标句子中每个词对应的上下文向量输入作案要素识别模型的概率确定模块(比如CRF),从而获得目标句子中的每个词属于指定作案要素类别集合中每个指定作案要素类别的概率,以及不属于指定作案要素类别集合中任何指定概率要素类别的概率。

其中,若一个词属于指定作案要素类别集合中的一指定作案要素类别,则该词的识别结果为该词所属的指定作案要素类别,若词不属于指定作案要素类别集合中的任何作案要素类别,则该词的作案要素识别结果为该词不属于任何指定作案要素类别。

步骤S603:根据目标句子中每个词的识别结果,获得目标句子中的作案要素。

对于目标句子中的任一词,若该词属于指定作案要素类别集合中的一指定作案要素类别,则该词为作案要素,若该词不属于指定作案要素类别集合中的任何指定作案要素类别,则该词不为作案要素。

上述内容提到,可在目标句子前加符号和目标句子所属的指定事件类型,可选的,针对目标句子前添加的符号和事件类型,可将其作为一个词,与目标句子中的各个词一同进行上述处理。

接下来,结合图7,通过一个具体的例子对利用作案要素识别模型从目标句子中识别作案要素的过程进行说明。

假设目标句子为“小王把电动车偷走了”,利用作案要素识别模型从该句子识别作案要素的过程如下:

首先,在句子“小王把电动车偷走了”前添加“@盗窃”,得到“@盗窃小王把电动车偷走了”,对“@盗窃小王把电动车偷走了”进行分词处理,得到“@盗窃”、“小王”、“把”、“电动车”、“偷走”、“了”,然后将分词处理得到的各个词输入作案要素识别模型的词向量确定模块,获得“@盗窃”、“小王”、“把”、“电动车”、“偷走”、“了”分别对应的词向量。

然后,将“@盗窃”、“小王”、“把”、“电动车”、“偷走”、“了”分别对应的词向量输入事件类型分类模型的编码模块(比如Bi-LSTM),获得“@盗窃”、“小王”、“把”、“电动车”、“偷走”、“了”分别对应的目标词向量,目标词向量包含了对应词在目标句子中的信息,还包括了目标句子的部分信息。

接着,获取事件类型分类模型针对目标句子所属的指定事件类型“盗窃”确定的事件类型向量,作为目标句子对应的第一事件类型向量,并且,将目标句子所属的指定事件类型“盗窃”输入作案要素识别模型的事件类型向量确定模块,以确定“盗窃”的事件类型向量,作案要素识别模型的事件类型向量确定模块确定的事件类型向量作为目标句子对应的第二事件类型向量,对目标句子对应的第一事件类型向量进行降采样,将降采样后的向量与目标句子对应的第二事件类型向量拼接,获得拼接向量v。

然后,将拼接向量v与“@盗窃”、“小王”、“把”、“电动车”、“偷走”、“了”分别对应的目标向量输入作案要素识别模型的注意力模块,获得“@盗窃”、“小王”、“把”、“电动车”、“偷走”、“了”分别对应的注意力权重,进而根据“@盗窃”、“小王”、“把”、“电动车”、“偷走”、“了”分别对应的注意力权重和目标向量,确定“@盗窃”、“小王”、“把”、“电动车”、“偷走”、“了”分别对应的上下文向量。

最后,将“@盗窃”、“小王”、“把”、“电动车”、“偷走”、“了”分别对应的上下文向量输入作案要素识别模型的概率确定模块(比如CRF),获得“@盗窃”、“小王”、“把”、“电动车”、“偷走”、“了”中每个词属于指定作案要素类别集合{盗窃者,赃物,盗窃金额,赃物数量,作案时间,…}中每个作案要素类别的概率,以及不属于指定作案要素类别集合中任何作案要素类别的概率,进而根据获得的概率确定每个词的识别结果。具体的,对于任一词,可根据对应于该词的概率中的最大概率确定该词的识别结果,假设“小王”属于指定作案要素类别“盗窃者”的概率最大,则说明“小王”为作案要素,且“小王”所属的作案要素类别为“盗窃者”,其它词同理。

经由上述过程可获得目标句子“小王把电动车偷走了”中的作案要素为“小王”和“电动车”,其中,“小王”所属的作案要素类别为“盗窃者”,“电动车”所属的作案要素类别为“赃物”。

本实施例对上述实施例中的“步骤S103:根据第一作案要素集合和第二作案要素集合,确定第一对象与第二对象的言辞是否矛盾”进行介绍。

请参阅图8,示出了根据第一作案要素集合和第二作案要素集合,确定第一对象与第二对象的言辞是否矛盾的流程示意图,可以包括:

步骤S801:对第一作案要素集合中的每个作案要素以及第二作案要素集合中的每个作案要素进行标准化处理,得到标准化处理后的第一作案要素集合和标准化处理后的第二作案要素集合。

其中,对作案要素进行标准化处理的过程为基于预设的映射规则对作案要素进行映射的过程,基于映射规则对作案要素进行映射后得到的结果即为标准化处理后的作案要素。

需要说明的是,可预先针对不同的作案要素类别建立不同的映射规则,即预先建立各作案要素类别分别对应的映射规则,映射规则根据对应的作案要素类别的特点,同时结合具体的案件确定。在对待映射的作案要素进行映射时,可获取待映射的作案要素所属的作案要素类别所对应的映射规则,进而基于获取的映射规则对待映射的作案要素进行映射。

步骤S802:根据标准化处理后的第一作案要素集合和标准化处理后的第二作案要素集合,确定第一对象与第二对象的言辞是否矛盾。

可以理解的是,为了确定第一对象与第二对象的言辞是否矛盾,需要对第一作案要素集合中的作案要素与第二作案要素集合中的对应作案要素进行比对,比如,将第一作案要素集合中作案要素类别为“盗窃者”的作案要素与第二作案要素集合中作案要素类别为“盗窃者”的作案要素进行比对,一般而言,若比对的两个作案要素完全一致,则认为这两个作案要素不矛盾,若比对的两个作案要素不完全一致,则认为这两个作案要素矛盾,然而,实际情况中,两个作案要素不完全一致,并不意味着两个作案要素矛盾。

比如,从第一文本中抽取出含有盗窃金额的句子为“小王从包里偷了一叠纸币,大约600元”,从第二文本中抽取出含有盗窃金额的句子为“我从包里偷了一叠纸币,共计650元”,由于第一个句子中含有“大约”这个词,因此,第一个句子中的“600元”不属于确切的盗窃金额,其只是给出了大致范围,而从第二文本中抽取的句子中的盗窃金额“650元”为确切的盗窃金额,两者其实并不矛盾。再比如,从第一文本中抽取出了作案要素类别为“盗窃者”的作案要素“张小五”,从第二文本中抽取出了作案要素类别为“盗窃者”的作案要素“张晓五”,虽然“张小五”与“张晓五”不完全一致,但是二者并不矛盾,出现这种情况的原因可能是记录人员的笔误。

为了避免将实际不矛盾的两个作案要素判定为矛盾,本实施例并不直接对作案要素进行比对,而是先根据待比对的两个作案要素的类别,对待比对的两个作案要素进行标准化处理,然后对标准化处理后的两个作案要素进行比对,以确定待比对的两个作案是否矛盾。

以数字型作案要素(比如,作案要素类别为“盗窃金额”的作案要素、作案要素类别为“作案时间”的作案要素等)为例,进行标准化处理的过程可以为:根据该数字型作案所属的作案要素类别对应的映射规则,将该数字型作案要素映射到区间。对于待比对的两个数字型作案要素,若映射后得到的两个区间存在交集,则判定待比对的两个数字型作案要素不矛盾。

以上述的作案要素“600元”和“650元”为例:将“600”按预设的第一映射规则映射到区间[480,720],将“650”按预设的第二映射规则映射为[650,650],由于区间[480,720]与区间[650,650]存在交集,因此,判定作案要素“600元”与作案要素“650元”不矛盾。其中,“盗窃金额”这一作案要素类别对应的映射规则为:非确切的盗窃金额映射到[0.8*x,1.2*x],确切的盗窃金额映射到[x,x]。需要说明的是,映射规则根据作案要素所属的作案要素类别以及具体案件设定。

本实施例通过对作案要素进行标准化后再比对,能够降低言辞矛盾检测中虚警率。

本申请实施例还提供了一种言辞矛盾检测装置,下面对本申请实施例提供的言辞矛盾检测装置进行描述,下文描述的言辞矛盾检测装置与上文描述的言辞矛盾检测方法可相互对应参照。

请参阅图9,示出了本申请实施例提供的言辞矛盾检测装置的结构示意图,可以包括:案情相关问答对获取模块901、作案要素抽取模块902和言辞矛盾检测模块903。

案情相关问答对获取模块901,用于从对应于第一对象的第一文本中获取与目标案件的案情相关的问答对,组成第一问答对集合,并从对应于第二对象的第二文本中获取与目标案件的案情相关的问答对,组成第二问答对集合。

作案要素抽取模块902,用于从第一问答对集合中的问答对中抽取作案要素,组成第一作案要素集合,并从第二问答对集合中的问答对中抽取作案要素,组成第二作案要素集合。

言辞矛盾检测模块903,用于根据第一作案要素集合和第二作案要素集合,确定第一对象与第二对象的言辞是否矛盾。

可选的,案情相关问答对获取模块901在从一文本中获取与目标案件的案情相关的问答对时,具体用于从该文本中识别出问答对;利用基于关键词的过滤规则,或者,预先建立的问答对分类模型,将识别出的问答对中与案情无关的问答对滤除,得到与案情有关的问答对;其中,问答对分类模型采用标注有问答对类别的问答对训练得到,问答对类别包括与案情有关和与案情无关。

可选的,作案要素抽取模块902在从一问答对集合中的问答对中抽取作案要素时,具体用于针对该问答对集合中的每个问答对,从该问答对中确定指定事件类型的句子,作为目标句子,并从目标句子中抽取作案要素,以得到从该该问答对集合中的每个问答对抽取出的作案要素。

可选的,作案要素抽取模块902在从该问答对中确定指定事件类型的句子,作为目标句子时,具体用于将该问答对切分为句子,由切分得到的句子组成句子集合;利用预先建立的事件类型分类模型,对句子集合中的每个句子进行事件类型分类,得到句子集合中每个句子的分类结果,其中,若一个句子属于指定事件类型集合中的一指定事件类型,则该句子的分类结果为该句子所属的指定事件类型,若该句子不属于任何指定事件类型,则该句子的分类结果为该句子不属于任何指定事件类型;根据句子集合中每个句子的分类结果,获得句子集合中的目标句子。

可选的,作案要素抽取模块902在利用预先建立的事件类型分类模型,对所述句子集合中的每个句子进行事件类型分类,得到句子集合中每个句子的分类结果时,具体用于针对句子集合中的每个句子,利用事件类型分类模型、该句子、该句子在其所在问答对中的位置信息以及指定事件类型集合,确定该句子的分类结果;以得到句子集合中每个句子的分类结果。

可选的,作案要素抽取模块902在利用事件类型分类模型、该句子、该句子在其所在问答对中的位置信息以及指定事件类型集合,确定该句子的分类结果时,具体用于利用事件类型分类模型、该句子以及该句子在其所在问答对中的位置信息,确定该句子的表征向量;利用事件类型分类模型和指定事件类型集合,确定指定事件类型集合中每个指定事件类型的事件类型向量;利用事件类型分类模型、该句子的表征向量以及所述指定事件类型集合中每个指定事件类型的事件类型向量,确定该句子的分类结果。

可选的,作案要素抽取模块902在利用事件类型分类模型、该句子以及该句子在其所在问答对中的位置信息,确定该句子的表征向量时,具体用于利用事件类型分类模型和该句子中的每个词,确定该句子中每个词对应的词向量;利用事件类型分类模型和该句子中每个词对应的词向量,确定该句子对应的句向量;利用事件类型分类模型和该句子在其所在问答对中的位置信息,确定该句子对应的位置向量;利用事件类型分类模型将该句子对应的句向量与该句子对应的位置向量进行拼接,拼接后向量作为该句子的表征向量。

可选的,作案要素抽取模块902在从目标句子中抽取作案要素时,具体用于利用预先建立的作案要素识别模型、目标句子所属的指定事件类型以及目标句子对应的第一事件类型向量,从目标句子中抽取作案要素;其中,作案要素识别模型采用标注有作案要素类别的训练文本训练得到;目标句子对应的第一事件类型向量为利用事件类型分类模型针对目标句子所属的指定事件类型确定的事件类型向量。

可选的,作案要素抽取模块902在利用预先建立的作案要素识别模型、目标句子所属的指定事件类型以及目标句子对应的第一事件类型向量,从目标句子中抽取作案要素时,具体用于利用作案要素识别模型、目标句子中的每个词、目标句子所属的指定事件类型以及目标句子对应的第一事件类型向量,确定目标句子中每个词对应的上下文向量;利用作案要素识别模型和目标句子中每个词对应的上下文向量,对目标句子中的每个词进行作案要素识别,得到目标句子中每个词的识别结果,其中,若一个词属于指定作案要素类别集合中的一指定作案要素类别,则该词的识别结果为该词所属的指定作案要素类别,若该词不属于指定作案要素类别集合中的任何作案要素类别,则该词的作案要素识别结果为该词不属于任何指定作案要素类别;根据目标句子中每个词的识别结果,获得目标句子中的作案要素。

可选的,作案要素抽取模块902在利用作案要素识别模型、目标句子中的每个词、目标句子所属的指定事件类型以及目标句子对应的第一事件类型向量,确定目标句子中每个词对应的上下文向量时,具体用于利用作案要素识别模型和目标句子中的每个词,确定目标句子中每个词对应的词向量;利用作案要素识别模型对目标句子中每个词对应的词向量进行编码,获得每个词对应的、包含其在目标句子中的信息以及目标句子的部分信息的目标向量;利用作案要素识别模型和目标句子所属的指定事件类型,确定目标句子所属的指定事件类型的事件类型向量,作为目标句子对应的第二事件类型向量;利用作案要素识别模型、目标句子中每个词对应的目标向量、目标句子对应的第一事件类型向量和第二事件类型向量,确定目标句子中每个词对应的注意力权重;利用作案要素识别模型,以及目标句子中每个词对应的目标向量和注意力权重,确定目标句子中每个词对应的上下文向量。

可选的,言辞矛盾检测模块903,具体用于对第一作案要素集合中的每个作案要素以及第二作案要素集合中的每个作案要素进行标准化处理,得到标准化处理后的第一作案要素集合和标准化处理后的第二作案要素集合,其中,在对一作案要素进行标准化时,以该作案要素所属的作案要素类别为依据;根据标准化处理后的第一作案要素集合和标准化处理后的第二作案要素集合,确定第一对象与第二对象的言辞是否矛盾。

可选的,言辞矛盾检测模块903在以一作案要素所属的作案要素类别为依据,对该作案要素进行标准化处理时,具体用于若该作案要素所属的作案要素类别指示该作案要素为数字型作案要素,则按该作案要素所属的作案要素类别对应的映射规则,将该作案要素映射到区间。

本申请实施例提供的言辞矛盾检测装置可根据对应于第一对象的第一文本和对应于第二对象的第二文本自动判别出第一对象与第二对象的言辞是否存在矛盾,相比于现有的人工判别方式,大大缓解了判别人员的压力,同时提高了言辞矛盾与否的判别效率,即,降低了人工成本和时间成本。

本申请实施例还提供了一种言辞矛盾检测设备,请参阅图10,示出了该言辞矛盾检测设备的结构示意图,该设备可以包括:至少一个处理器1001,至少一个通信接口1002,至少一个存储器1003和至少一个通信总线1004;

在本申请实施例中,处理器1001、通信接口1002、存储器1003、通信总线1004的数量为至少一个,且处理器1001、通信接口1002、存储器1003通过通信总线1004完成相互间的通信;

处理器1001可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;

存储器1003可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器;

其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:

从对应于第一对象的第一文本中获取与目标案件的案情相关的问答对,组成第一问答对集合,并从对应于第二对象的第二文本中获取与目标案件的案情相关的问答对,组成第二问答对集合;

从第一问答对集合中的问答对中抽取作案要素,组成第一作案要素集合,并从第二问答对集合中的问答对中抽取作案要素,组成第二作案要素集合;

根据第一作案要素集合和第二作案要素集合,确定第一对象与第二对象的言辞是否矛盾。

可选的,所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种可读存储介质,该可读存储介质可存储有适于处理器执行的程序,所述程序用于:

从对应于第一对象的第一文本中获取与目标案件的案情相关的问答对,组成第一问答对集合,并从对应于第二对象的第二文本中获取与目标案件的案情相关的问答对,组成第二问答对集合;

从第一问答对集合中的问答对中抽取作案要素,组成第一作案要素集合,并从第二问答对集合中的问答对中抽取作案要素,组成第二作案要素集合;

根据第一作案要素集合和第二作案要素集合,确定第一对象与第二对象的言辞是否矛盾。

可选的,所述程序的细化功能和扩展功能可参照上文描述。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号