首页> 中国专利> 面向综合集成研讨场景的细粒度观点挖掘方法

面向综合集成研讨场景的细粒度观点挖掘方法

摘要

本发明提供一种面向综合集成研讨场景的细粒度观点挖掘方法,通过条件随机场模型,可以提取出综合集成研讨场景下实时研讨文本中的实时评价对象以及实时评价对象对应的实时观点词;通过领域情感知识库,可以确定实时观点词的感情倾向性。本发明实施例中,可以对面向综合集成研讨场景下的实时研讨文本进行细粒度层次的观点挖掘,进而挖掘出与会者对目标领域的各个方面的观点,便于与会者及时掌握研讨观点的变化和走向,提供会议研讨效率。

著录项

  • 公开/公告号CN113836911A

    专利类型发明专利

  • 公开/公告日2021-12-24

    原文格式PDF

  • 申请/专利权人 中国科学院自动化研究所;

    申请/专利号CN202110948249.5

  • 发明设计人 郑楠;王丹力;戴汝为;

    申请日2021-08-18

  • 分类号G06F40/284(20200101);G06F40/253(20200101);G06F40/216(20200101);G06F40/30(20200101);G06K9/62(20060101);

  • 代理机构11002 北京路浩知识产权代理有限公司;

  • 代理人李文清

  • 地址 100190 北京市海淀区中关村东路95号

  • 入库时间 2023-06-19 13:49:36

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-01-18

    实质审查的生效 IPC(主分类):G06F40/284 专利申请号:2021109482495 申请日:20210818

    实质审查的生效

说明书

技术领域

本发明涉及信息处理技术领域,尤其涉及一种面向综合集成研讨场景的细粒度观点挖掘方法。

背景技术

综合集成研讨厅体系其实质是指导人们在处理开放的复杂系统时,通过人机结合、群体研讨的方式,最大限度集成有关的经验、理论、知识、信息和数据,并通过群体成员之间的互相激发和对上述资源的集体加工处理,实现群体智慧的涌现,获得对复杂系统更好的认识。这就把综合集成法中的个体智慧明确上升为群体智慧,并且显著增强了开放的复杂系统的方法论的可操作性。

在综合集成研讨场景下,与会者可以在线地以文字的形式对某问题进行定性研讨。但是单一的研讨方式使得研讨效率低下,意见分散,不利于把握研讨观点趋势的变化。由于与会者在研讨时,通常会对目标领域的某个方面发表观点,因此及时挖掘研讨文本的评价对象和观点倾向,有助于对研讨主题的把握和走向的预测。

传统的情感倾向性分析技术主要在文档和语句层面展开,主要任务是识别文档和语句中所蕴含的情感是正面的还是负面的。在综合集成研讨场景下,由于与会者往往针对目标领域的某个方面发表观点,对目标领域的某个方面的正面观点并不代表他肯定该目标领域的所有方面,反之亦然。因此需要在目标领域的具体评价对象这种细粒度层次进行观点挖掘,进而挖掘出与会者对目标领域的各个方面的观点。

目前,还没有针对综合集成研讨场景下的细粒度观点挖掘相关研究,因此现急需提供一种面向综合集成研讨场景的细粒度观点挖掘方法。

发明内容

本发明提供一种面向综合集成研讨场景的细粒度观点挖掘方法,用以解决现有技术中存在的缺陷。

本发明提供一种面向综合集成研讨场景的细粒度观点挖掘方法,包括:

获取综合集成研讨场景下的实时研讨文本;

基于条件随机场模型,提取所述实时研讨文本中的实时评价对象以及所述实时评价对象对应的实时观点词;

基于所述实时评价对象、所述实时观点词以及领域情感知识库,确定所述实时观点词的感情倾向性;

其中,所述条件随机场模型中采用的特征权重以及所述领域情感知识库均基于所述综合集成研讨场景下的历史研讨文本确定,所述历史研讨文本为在所述实时研讨文本之前获取的所述综合集成研讨场景下的研讨文本;所述领域情感知识库中存储有评价对象、观点词以及情感倾向性的三元组。

根据本发明提供的一种面向综合集成研讨场景的细粒度观点挖掘方法,所述领域情感知识库基于如下方式构建:

基于条件随机场模型,提取所述历史研讨文本中的历史评价对象以及所述历史评价对象对应的历史观点词,并基于所述历史评价对象以及所述历史观点词构建初始领域知识库;

基于通用语义词典对所述初始领域知识库进行扩充,构建所述领域情感知识库。

根据本发明提供的一种面向综合集成研讨场景的细粒度观点挖掘方法,所述基于通用语义词典对所述初始领域知识库进行扩充,构建所述领域情感知识库,具体包括:

对于所述初始领域知识库中的任一历史观点词,若所述任一历史观点词存在于所述通用语义字典中,则基于所述通用语义字典中标注的所述任一历史观点词的情感倾向性,构建所述任一历史观点词、所述任一历史观点词对应的历史评价对象以及所述任一历史观点词的情感倾向性的三元组;

若所述任一历史观点词不存在于所述通用语义字典中,则基于所述任一历史观点词与已知情感倾向性的目标观点词之间在搜索时的共现频率,确定所述任一历史观点词的情感倾向性,并构建所述任一历史观点词、所述任一历史观点词对应的历史评价对象以及所述任一历史观点词的情感倾向性的三元组;

从所述通用语义字典中查找所述任一历史观点词的近义词和反义词,并基于所述三元组,确定所述近义词、所述任一历史观点词对应的历史评价对象以及所述近义词的情感倾向性的三元组,并确定所述反义词、所述任一历史观点词对应的历史评价对象以及所述反义词的情感倾向性的三元组;

基于各三元组,构建所述领域情感知识库。

根据本发明提供的一种面向综合集成研讨场景的细粒度观点挖掘方法,所述基于条件随机场模型,提取所述历史研讨文本中的历史评价对象以及所述历史评价对象对应的历史观点词,之前还包括:

对所述历史研讨文本进行预处理操作;

其中,所述预处理操作包括分词操作、去停用词操作以及去无用符号操作。

根据本发明提供的一种面向综合集成研讨场景的细粒度观点挖掘方法,所述基于所述实时评价对象、所述实时观点词以及领域情感知识库,确定所述实时观点词的感情倾向性,具体包括:

若判断获知所述实时评价对象以及所述实时观点词均存在于所述领域情感知识库中,则基于所述领域情感知识库中存储的所述实时评价对象以及所述实时观点词对应的三元组,确定所述实时观点词的情感倾向性;

若判断获知所述实时评价对象不在所述领域情感知识库中、所述实时观点词存在于所述领域情感知识库中,则基于所述领域情感知识库中存储的与所述实时观点词关联的观点词集合,确定所述实时观点词的情感倾向性;

若判断获知所述实时观点词不在所述领域情感知识库中、所述实时评价对象存在于所述领域情感知识库中,则基于所述领域情感知识库中存储的与所述实时评价对象关联的观点词集合,确定所述实时观点词的情感倾向性;

若判断获知所述实时评价对象以及所述实时观点词均不在所述领域情感知识库中,则基于所述实时观点词与已知情感倾向性的目标观点词之间在搜索时的共现频率,确定所述实时观点词的情感倾向性。

根据本发明提供的一种面向综合集成研讨场景的细粒度观点挖掘方法,所述基于条件随机场模型,提取所述实时研讨文本中的实时评价对象以及所述实时评价对象对应的实时观点词,具体包括:

基于条件随机场模型,通过预先定义的词特征、词性特征以及句法特征,对所述实时研讨文本中的所述实时评价对象以及所述实时观点进行同时提取。

根据本发明提供的一种面向综合集成研讨场景的细粒度观点挖掘方法,所述条件随机场模型中采用的特征权重基于最大似然估计以及惩罚函数,从所述历史研讨文本中估计得到。

本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述面向综合集成研讨场景的细粒度观点挖掘方法的步骤。

本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述面向综合集成研讨场景的细粒度观点挖掘方法的步骤。

本发明还提供一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述任一种所述面向综合集成研讨场景的细粒度观点挖掘方法的步骤。

本发明提供的面向综合集成研讨场景的细粒度观点挖掘方法,通过条件随机场模型,可以提取出综合集成研讨场景下实时研讨文本中的实时评价对象以及实时评价对象对应的实时观点词;通过领域情感知识库,可以确定实时观点词的感情倾向性。本发明实施例中,可以对面向综合集成研讨场景下的实时研讨文本进行细粒度层次的观点挖掘,进而挖掘出与会者对目标领域的各个方面的观点,便于与会者及时掌握研讨观点的变化和走向,提供会议研讨效率。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明提供的面向综合集成研讨场景的细粒度观点挖掘方法的流程示意图;

图2是本发明提供的面向综合集成研讨场景的细粒度观点挖掘系统的结构示意图;

图3是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

目前传统的情感倾向性分析技术主要在文档和语句层面展开,主要任务是识别文档和语句中所蕴含的情感是正面的还是负面的。在综合集成研讨场景中,由于与会者往往针对领域的某个方面(即评价对象)发表观点,对某个评价对象的正面观点并不代表他肯定该领域的所有方面,反之亦然。因此需要在具体评价对象这种细粒度层次进行观点挖掘,挖掘出与会者对各个评价对象的观点。

目前,还没有针对综合集成研讨场景的细粒度观点挖掘相关研究,但针对产品评论、微博等中文短文本的细粒度观点挖掘有一些研究工作,主要有以下几种:

方法一:针对网络评论数据,通过构建一组显式特征观点对应的提取规则和剪枝过滤策略,直接获取显式特征及其对应的观点词。

方法二:针对微博数据,利用依存关系提取出若干语法规则,然后结合情感词典,以情感词与评价方面为中心,进行评价方面与评价词的联合抽取,最后进行模糊归纳匹配形成更加鲜明观点。

方法三:针对网络评论数据,在对传统文本主题模型(Latent DirichletAllocation,LDA)进行改进的基础上,引入领域层,提出了一个基于领域判别的LDA来对在线评论进行观点挖掘。

方法四:针对网络评论数据,采用了具有序列机制的深度神经网络结合注意力机制的方法对观点进行提取与挖掘,并对情感态度进行分析。

以上方法中,基于规则的方法更适用于半结构化数据,而不适用于综合集成研讨场景的非结构化数据;主题模型更适合处理长文本,而综合集成研讨场景大多是短文本,导致数据稀疏不适于主题模型;基于深度学习的方法需要大样本数据的支持,而研讨文本通常是实时的小样本数据,因此上述的几种方法无法满足综合集成研讨场景的实际需求,需要研究符合综合集成研讨场景的有效机器学习方法。

此外,在研讨进行过程中,与会者存在较大的时间压力,无暇检索和记录相关发言或者因频繁的检索而影响了研讨的进程,阻碍了研讨过程中知识的产生与知识的提升。因此亟需对研讨文本进行细粒度观点挖掘,辅助研讨过程高效进行。

在此基础上,本发明实施例中提供了一种面向综合集成研讨场景的细粒度观点挖掘方法,包括:

S1,获取综合集成研讨场景下的实时研讨文本;

S2,基于条件随机场模型,提取所述实时研讨文本中的实时评价对象以及所述实时评价对象对应的实时观点词;

S3,基于所述实时评价对象、所述实时观点词以及领域情感知识库,确定所述实时观点词的感情倾向性;

其中,所述条件随机场模型中采用的特征权重以及所述领域情感知识库均基于所述综合集成研讨场景下的历史研讨文本确定,所述历史研讨文本为在所述实时研讨文本之前获取的所述综合集成研讨场景下的研讨文本;所述领域情感知识库中存储有评价对象、观点词以及情感倾向性的三元组。

具体地,本发明实施例中提供的面向综合集成研讨场景的细粒度观点挖掘方法,其执行主体为服务器,该服务器可以是本地服务器,也可以是云端服务器,本地服务器具体可以是计算机等,本发明实施例中对此不作具体限定。

首先执行步骤S1,获取综合集成研讨场景下的实时研讨文本,综合集成研讨场景是指大规模研讨厅体系内的研讨场景,在该综合集成研讨场景下,通过人机结合、群体研讨的方式,最大限度集成有关的经验、理论、知识、信息和数据,并通过群体成员之间的互相激发和对上述资源的集体加工处理,实现群体智慧的涌现,获得对复杂系统更好的认识。实时研讨文本是指实时获取的研讨文本,该实时研讨文本可以是与会者的论述内容,该论述内容可以是一段语句或者一个语句,在论述内容中可以包含有与会者对综合集成研讨的领域的某一方面的观点。

然后执行步骤S2,通过条件随机场模型,提取实时研讨文本中的实时评价对象以及实时评价对象对应的实时观点词。条件随机场模型用于基于条件随机场(ConditionalRandom Fields,CRF)实现实时研讨文本中的实时评价对象以及实时评价对象对应的实时观点词进行提取,在条件随机场模型实现提取功能时,采用的特征权重可以通过综合集成研讨场景下的历史研讨文本确定。历史研讨文本是指在中和集成研讨场景下在实时研讨文本之前获取的研讨文本,特征权重确定的过程可以看作是通过历史研讨文本对条件随机场模型进行训练的过程,训练的结果为确定出特征权重。实时评价对象是指实时研讨文本中涉及的综合集成研讨的领域中的特定方面,实时观点词是指实时研讨文本中对实时评价对象的观点表达。实时研讨文本中实时评价对象的个数可以为一个或多个,每个实时评价对象对应的实时观点词的个数也可以为一个或多个,本发明实施例中对此不作具体限定。

最后执行步骤S3,根据实时评价对象、实时观点词以及领域情感知识库,确定实时观点词的感情倾向性。其中,领域情感知识库中存储有评价对象、观点词以及情感倾向性的三元组,该三元组用于表征评价对象、观点词以及情感倾向性三者之间的对应关系。情感倾向性是指情感极性,即观点词用于评价对应的评价对象时属于积极正向的评价还是消极负向的评价。通过实时评价对象以及实时观点词,再结合领域情感知识库中存储的三元组,即可确定出实时观点词在用于评价对应的实时评价对象时的情感倾向性。领域情感知识库中的三元组可以通过综合集成研讨场景下的历史研讨文本确定。

本发明实施例中提供的面向综合集成研讨场景的细粒度观点挖掘方法,通过条件随机场模型,可以提取出综合集成研讨场景下实时研讨文本中的实时评价对象以及实时评价对象对应的实时观点词;通过领域情感知识库,可以确定实时观点词的感情倾向性。本发明实施例中,可以对面向综合集成研讨场景下的实时研讨文本进行细粒度层次的观点挖掘,进而挖掘出与会者对目标领域的各个方面的观点,便于与会者及时掌握研讨观点的变化和走向,提供会议研讨效率。

在上述实施例的基础上,本发明实施例中提供的面向综合集成研讨场景的细粒度观点挖掘方法,领域情感知识库基于如下方式构建:

基于条件随机场模型,提取所述历史研讨文本中的历史评价对象以及所述历史评价对象对应的历史观点词,并基于所述历史评价对象以及所述历史观点词构建初始领域知识库;

基于通用语义词典对所述初始领域知识库进行扩充,构建所述领域情感知识库。

具体地,本发明实施例中,在确定领域情感知识库时,首先根据条件随机场模型,提取出历史研讨文本中的历史评价对象以及历史评价对象对应的历史观点词。提取方式与上述提取实时研讨文本中的实时评价对象以及实时评价对象对应的实时观点词的提取方式一致,本发明实施例中此处不再赘述。

然后根据历史评价对象以及历史观点词构建初始领域知识库,即生成历史评价对象以及历史观点词的二元组,将二元组存入初始领域知识库中。在将二元组存入初始领域知识库之前,还可以根据每个历史评价对象对应的历史观点词的词频滤除噪声,即将词频小于等于预设词频阈值的历史观点词删除,然后将滤除噪声后得到的二元组存入初始领域知识库。其中,预设词频阈值可以根据需要进行设定,例如可以设定为0.36。

最后,根据通用语义词典(HOWNET)对初始领域知识库进行扩充,构建领域情感知识库。扩充操作可以包括两方面,一方面是将历史观点词在评价对应的历史评价对象时的情感倾向性引入初始领域知识库,使二元组变为三元组;另一方面是确定历史观点词的同义词以及反义词,然后结合同义词以及反义词扩充三元组,最终得到领域情感知识库。

本发明实施例中,通过基于条件随机场模型提取出历史研讨文本中的历史评价对象以及历史评价对象对应的历史观点词,并基于历史评价对象以及历史观点词构建初始领域知识库;然后再结合通用语义词典对初始领域知识库进行扩充,构建得到领域情感知识库,可以使领域情感知识库更加丰富,以便于对实时研讨文本中实时观点词在评价实时评价对象时的情感倾向性进行判断。

在上述实施例的基础上,本发明实施例中提供的面向综合集成研讨场景的细粒度观点挖掘方法,所述基于通用语义词典对所述初始领域知识库进行扩充,构建所述领域情感知识库,具体包括:

对于所述初始领域知识库中的任一历史观点词,若所述任一历史观点词存在于所述通用语义字典中,则基于所述通用语义字典中标注的所述任一历史观点词的情感倾向性,构建所述任一历史观点词、所述任一历史观点词对应的历史评价对象以及所述任一历史观点词的情感倾向性的三元组;

若所述任一历史观点词不存在于所述通用语义字典中,则基于所述任一历史观点词与已知情感倾向性的目标观点词之间在搜索时的共现频率,确定所述任一历史观点词的情感倾向性,并构建所述任一历史观点词、所述任一历史观点词对应的历史评价对象以及所述任一历史观点词的情感倾向性的三元组;

从所述通用语义字典中查找所述任一历史观点词的近义词和反义词,并基于所述三元组,确定所述近义词、所述任一历史观点词对应的历史评价对象以及所述近义词的情感倾向性的三元组,并确定所述反义词、所述任一历史观点词对应的历史评价对象以及所述反义词的情感倾向性的三元组;

基于各三元组,构建所述领域情感知识库。

具体地,本发明实施例中,在通过通用语义词典对初始领域知识库进行扩充时,可以对于初始领域知识库中的任一历史观点词O

如果历史观点词O

其中,p(O

然后选取最大的PMI值对应的目标观点词,并将该目标观点词对应的情感倾向性作为历史观点词O

从通用语义字典中查找历史观点词O

本发明实施例中,通过通用语义词典对初始领域知识库进行扩充,不仅可以确定历史观点词的情感倾向性,还可以通过历史观点词的近义词以及反义词,对三元组进行扩充,进而构建出领域情感知识库,可以使得领域情感知识库中的内容更加丰富。

在上述实施例的基础上,本发明实施例中提供的面向综合集成研讨场景的细粒度观点挖掘方法,所述基于条件随机场模型,提取所述历史研讨文本中的历史评价对象以及所述历史评价对象对应的历史观点词,之前还包括:

对所述历史研讨文本进行预处理操作;

其中,所述预处理操作包括分词操作、去停用词操作以及去无用符号操作。

具体地,本发明实施例中,在对历史研讨文本进行历史评价对象以及历史观点词提取之前,可以先对历史研讨文本进行预处理操作,该预处理操作可以包括对历史研讨文本进行分词操作、去停用词操作以及去无用符号操作,然后对预处理后的历史研讨文本进行提取,可以保证提取效率以及提取质量。其中,预处理操作可以采用开源中文分词软件ICTCLAS实现,本发明实施例中对此不做具体限定。

在上述实施例的基础上,本发明实施例中提供的面向综合集成研讨场景的细粒度观点挖掘方法,所述基于所述实时评价对象、所述实时观点词以及领域情感知识库,确定所述实时观点词的感情倾向性,具体包括:

若判断获知所述实时评价对象以及所述实时观点词均存在于所述领域情感知识库中,则基于所述领域情感知识库中存储的所述实时评价对象以及所述实时观点词对应的三元组,确定所述实时观点词的情感倾向性;

若判断获知所述实时评价对象不在所述领域情感知识库中、所述实时观点词存在于所述领域情感知识库中,则基于所述领域情感知识库中存储的与所述实时观点词关联的观点词集合,确定所述实时观点词的情感倾向性;

若判断获知所述实时观点词不在所述领域情感知识库中、所述实时评价对象存在于所述领域情感知识库中,则基于所述领域情感知识库中存储的与所述实时评价对象关联的观点词集合,确定所述实时观点词的情感倾向性;

若判断获知所述实时评价对象以及所述实时观点词均不在所述领域情感知识库中,则基于所述实时观点词与已知情感倾向性的目标观点词之间在搜索时的共现频率,确定所述实时观点词的情感倾向性。

具体地,本发明实施例中,在确定实时观点词的感情倾向性时,首先判断实时评价对象F

如果实时评价对象F

如果实时评价对象F

如果实时观点词O

如果实时观点词F

本发明实施例中,通过领域情感知识库确定实时观点词的感情倾向性,可以使得确定结果更加准确可靠。

在上述实施例的基础上,本发明实施例中提供的面向综合集成研讨场景的细粒度观点挖掘方法,所述基于条件随机场模型,提取所述实时研讨文本中的实时评价对象以及所述实时评价对象对应的实时观点词,具体包括:

基于条件随机场模型,通过预先定义的词特征、词性特征以及句法特征,对所述实时研讨文本中的所述实时评价对象以及所述实时观点进行同时提取。

具体地,本发明实施例中,在提取实时研讨文本中的实时评价对象以及实时评价对象对应的实时观点词时,可以采用条件随机场模型,通过预先定义的词特征、词性特征以及句法特征实现。

对于实时研讨文本中的当前词来说,可以使用当前词的[-2,2]距离窗口作为当前词的词特征。其中,距离窗口的单位为词,即距离窗口包含当前词左侧的2个词以及右侧的2个词,再加上当前词共5个词。其中,当前词可以是实时研讨文本中的任一词。

由于评价对象的词性往往是名词或名词词组,观点词往往是形容词或副词,使用当前词的[-2,2]距离窗口的词性作为当前词的词性特征。定义当前词是否属于名词词组(即名词+名词)、动词词组(即动词+名词)、形容词词组(即形容词+名词+形容词)为句法特征。

然后通过词特征、词性特征以及句法特征对实时研讨文本进行标注,得到标注后的研讨文本。

假设X,Y分别表示需要标记的观察序列和它对应的标记序列的联合分布随机变量,条件随机场(X,Y)就是一个以观测序列X为全局条件的无向图模型。定义G=(V,E)为一个无向图,E表示X与Y之间对应关系,Y={Y

在综合集成研讨场景下,将实时研讨文本作为观察序列X={x

对于给定的观察序列X,可以建立标记序列Y的条件概率p(Y|X)的统计模型,求解序列标记任务即求得Y使得P(Y|X)最大。

对于随机变量Y{u|u≠v,{u,v∈V}},Y

p(Y

在给定观察序列X的情况下,定义标记序列Y的概率是势函数乘积的归一化,势函数的每个因子形式如下:

其中,j表示转移特征函数的标识,即第j个转移特征函数,取值为(1~|E|);k表示状态特征函数的标识,即第k个状态特征函数,取值为(1~|V|)。t

令s

本发明实施例中,引入预先定义的词特征、词性特征以及句法特征,对实时研讨文本中的实时评价对象以及实时观点进行同时提取,可以使得提取结果更加准确。

在上述实施例的基础上,本发明实施例中提供的面向综合集成研讨场景的细粒度观点挖掘方法,所述条件随机场模型中采用的特征权重基于最大似然估计以及惩罚函数,从所述历史研讨文本中估计得到。

具体地,在确定条件随机场模型中采用的特征权重时,可以将各历史研讨文本均作为给定的观察序列,则有X=X

其中,n为历史研讨文本的数量,Z(X)为归一化因子,且有:

本发明实施例中,条件随机场的特征权重λ可以使用最大似然估计从各历史研讨文本构成的观察序列中估计得到。

将各历史研讨文本构成的观察序列作为训练集T={

由于似然函数L

其中,

考虑到如果直接使用最大似然估计,可能会出现过学习问题,因此本发明实施例中引入惩罚函数,以解决可能出现的过学习问题。例如,使用惩罚函数

其中,const为常量。

导数变为:

对λ的估计可以使用迭代缩放方法,如GIS、IIS、L-BFGS算法等对目标函数的优化求解,本发明实施例中对此不作具体限定。

综上所述,本发明实施例中提供的面向综合集成研讨场景的细粒度观点挖掘方法,在综合集成研讨厅环境中研讨具体问题时,可为与会者提供实时观察到研讨的评论对象,以及观点的极性和走向,为与会者提供了良好的交互条件,能够大大提高会议研讨效率和决策效率。

如图2所示,在上述实施例的基础上,本发明实施例中提供了一种面向综合集成研讨场景的细粒度观点挖掘系统,包括:

获取模块21,用于获取综合集成研讨场景下的实时研讨文本;

提取模块22,用于基于条件随机场模型,提取所述实时研讨文本中的实时评价对象以及所述实时评价对象对应的实时观点词;

确定模块23,用于基于所述实时评价对象、所述实时观点词以及领域情感知识库,确定所述实时观点词的感情倾向性;

其中,所述条件随机场模型中采用的特征权重以及所述领域情感知识库均基于所述综合集成研讨场景下的历史研讨文本确定,所述历史研讨文本为在所述实时研讨文本之前获取的所述综合集成研讨场景下的研讨文本;所述领域情感知识库中存储有评价对象、观点词以及情感倾向性的三元组。

在上述实施例的基础上,本发明实施例中提供的面向综合集成研讨场景的细粒度观点挖掘系统,还包括知识库构建模块,用于:

基于条件随机场模型,提取所述历史研讨文本中的历史评价对象以及所述历史评价对象对应的历史观点词,并基于所述历史评价对象以及所述历史观点词构建初始领域知识库;

基于通用语义词典对所述初始领域知识库进行扩充,构建所述领域情感知识库。

在上述实施例的基础上,本发明实施例中提供的面向综合集成研讨场景的细粒度观点挖掘系统,所述知识库构建模块,具体用于:

对于所述初始领域知识库中的任一历史观点词,若所述任一历史观点词存在于所述通用语义字典中,则基于所述通用语义字典中标注的所述任一历史观点词的情感倾向性,构建所述任一历史观点词、所述任一历史观点词对应的历史评价对象以及所述任一历史观点词的情感倾向性的三元组;

若所述任一历史观点词不存在于所述通用语义字典中,则基于所述任一历史观点词与已知情感倾向性的目标观点词之间在搜索时的共现频率,确定所述任一历史观点词的情感倾向性,并构建所述任一历史观点词、所述任一历史观点词对应的历史评价对象以及所述任一历史观点词的情感倾向性的三元组;

从所述通用语义字典中查找所述任一历史观点词的近义词和反义词,并基于所述三元组,确定所述近义词、所述任一历史观点词对应的历史评价对象以及所述近义词的情感倾向性的三元组,并确定所述反义词、所述任一历史观点词对应的历史评价对象以及所述反义词的情感倾向性的三元组;

基于各三元组,构建所述领域情感知识库。

在上述实施例的基础上,本发明实施例中提供的面向综合集成研讨场景的细粒度观点挖掘系统,还包括预处理模块,用于:

对所述历史研讨文本进行预处理操作;

其中,所述预处理操作包括分词操作、去停用词操作以及去无用符号操作。

在上述实施例的基础上,本发明实施例中提供的面向综合集成研讨场景的细粒度观点挖掘系统,所述确定模块,具体用于:

若判断获知所述实时评价对象以及所述实时观点词均存在于所述领域情感知识库中,则基于所述领域情感知识库中存储的所述实时评价对象以及所述实时观点词对应的三元组,确定所述实时观点词的情感倾向性;

若判断获知所述实时评价对象不在所述领域情感知识库中、所述实时观点词存在于所述领域情感知识库中,则基于所述领域情感知识库中存储的与所述实时观点词关联的观点词集合,确定所述实时观点词的情感倾向性;

若判断获知所述实时观点词不在所述领域情感知识库中、所述实时评价对象存在于所述领域情感知识库中,则基于所述领域情感知识库中存储的与所述实时评价对象关联的观点词集合,确定所述实时观点词的情感倾向性;

若判断获知所述实时评价对象以及所述实时观点词均不在所述领域情感知识库中,则基于所述实时观点词与已知情感倾向性的目标观点词之间在搜索时的共现频率,确定所述实时观点词的情感倾向性。

在上述实施例的基础上,本发明实施例中提供的面向综合集成研讨场景的细粒度观点挖掘系统,所述提取模块,具体用于:

基于条件随机场模型,通过预先定义的词特征、词性特征以及句法特征,对所述实时研讨文本中的所述实时评价对象以及所述实时观点进行同时提取。

在上述实施例的基础上,本发明实施例中提供的面向综合集成研讨场景的细粒度观点挖掘系统,所述条件随机场模型中采用的特征权重基于最大似然估计以及惩罚函数,从所述历史研讨文本中估计得到。

具体地,本发明实施例中提供的面向综合集成研讨场景的细粒度观点挖掘系统中各模块的作用与上述方法类实施例中各步骤的操作流程是一一对应的,实现的效果也是一致的,具体参见上述实施例,本发明实施例中对此不再赘述。

图3示例了一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令,以执行上述各实施例提供的面向综合集成研讨场景的细粒度观点挖掘方法,该方法包括:获取综合集成研讨场景下的实时研讨文本;基于条件随机场模型,提取所述实时研讨文本中的实时评价对象以及所述实时评价对象对应的实时观点词;基于所述实时评价对象、所述实时观点词以及领域情感知识库,确定所述实时观点词的感情倾向性;其中,所述条件随机场模型中采用的特征权重以及所述领域情感知识库均基于所述综合集成研讨场景下的历史研讨文本确定,所述历史研讨文本为在所述实时研讨文本之前获取的所述综合集成研讨场景下的研讨文本;所述领域情感知识库中存储有评价对象、观点词以及情感倾向性的三元组。

此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各实施例提供的面向综合集成研讨场景的细粒度观点挖掘方法,该方法包括:获取综合集成研讨场景下的实时研讨文本;基于条件随机场模型,提取所述实时研讨文本中的实时评价对象以及所述实时评价对象对应的实时观点词;基于所述实时评价对象、所述实时观点词以及领域情感知识库,确定所述实时观点词的感情倾向性;其中,所述条件随机场模型中采用的特征权重以及所述领域情感知识库均基于所述综合集成研讨场景下的历史研讨文本确定,所述历史研讨文本为在所述实时研讨文本之前获取的所述综合集成研讨场景下的研讨文本;所述领域情感知识库中存储有评价对象、观点词以及情感倾向性的三元组。

又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的面向综合集成研讨场景的细粒度观点挖掘方法,该方法包括:获取综合集成研讨场景下的实时研讨文本;基于条件随机场模型,提取所述实时研讨文本中的实时评价对象以及所述实时评价对象对应的实时观点词;基于所述实时评价对象、所述实时观点词以及领域情感知识库,确定所述实时观点词的感情倾向性;其中,所述条件随机场模型中采用的特征权重以及所述领域情感知识库均基于所述综合集成研讨场景下的历史研讨文本确定,所述历史研讨文本为在所述实时研讨文本之前获取的所述综合集成研讨场景下的研讨文本;所述领域情感知识库中存储有评价对象、观点词以及情感倾向性的三元组。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号