公开/公告号CN115688766A
专利类型发明专利
公开/公告日2023-02-03
原文格式PDF
申请/专利权人 中国人民银行清算总中心;
申请/专利号CN202211392664.8
发明设计人 请求不公布姓名;
申请日2022-11-08
分类号G06F40/289;G06F40/211;G06F40/30;G06F16/35;G06F18/23213;G06N3/045;
代理机构北京三友知识产权代理有限公司;
代理人周永君;党晓林
地址 100048 北京市海淀区阜成路18号华融大厦1221室
入库时间 2023-06-19 18:30:43
法律状态公告日
法律状态信息
法律状态
2023-02-03
公开
发明专利申请公布
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种基于情感分析的备选提示答案生成方法及装置。
背景技术
近些年来,自然语言处理技术飞速发展,例如从BERT开始,对预训练模型进行finetune已经成为了相关技术领域的常规范式,即“pre-train,fine-tune”。但是从GPT-3开始,一种新的范式开始引起技术人员的关注并越来越流行。
以文本情感分类任务来举例:在文本情感分类任务中,对于"I love thismovie."这句输入,可以在后面加上prompt"The movie is"这样的形式,然后让PLM用表示情感的答案填空如"great"、"terrible"等等,最后再将该答案转化成情感分类的标签,这样以来,通过选取合适的prompt,可以控制模型预测输出,从而一个完全无监督训练的预训练语言模型可以被用来解决各种各样的下游任务。
相对于"pre-train,fine-tune"的方式,prompt在小样本数据条件下表现更好。本领域技术人员在使用prompt时,通常会进行如下操作:
1.使用一个模板,用模板改造输入数据。
模板通常为一段自然语言,并且包含有一个空位置,我们用[mask]表示:
比如:在文本情感分类的任务中,假设输入是"I love this movie."使用的模板是:"It was a[mask]."
那么输入语句就变成"I love this movie.It was[mask].""It was[mask]"称为模板
2.设计提示答案,让模型预测提示答案。
提示答案就是模板中[mask]部分对应的词。例如情感分析中,可以用"great"代表正向情感,"terrible"代表负向情感。对于输入:"I love this movie.It was[mask].",如果模型将[mask]预测为"great",则可以判断这句话的情感倾向为正向。提示答案的设计对模型的准确率有很大影响:
属性级情感分析,文本情感分析,是针对人们对实体(包括产品、服务、组织、个人、议题、事件、话题及他们的属性等)表达的观点、评价、态度和情感进行计算的研究。而属性级情感分析按方面对意见进行分类,并识别与每个方面相关的情绪。
例如,以下对于餐馆的评价,从环境角度分析是负面评价,但从服务角度分析是正面评价:
“他们在周末经常很拥挤,但他们的服务高效二准确”-环境:负面;服务:正面。不同于句子级的情感分析,属性级情感分析需要针对某个方面进行分析。将Prompt应用于属性级情感分析,现有方法一般使用如下模板:
"The[ASPECT]is[mask]."
[ASPECT]表示待评价的方面。例如,以下评价:
"unfortunately,the food is outstanding,but everything else about thisrestaurant is the pits"
针对food的评价,应用模板后就变成如下形式:
"unfortunately,the food is outstanding,but everything else about thisrestaurant is the pits.The food is[mask]"。
应用prompt方法做属性级情感分析时,现有方法使用的提示答案没有针对所评价的方面进行调整,例如,表示正向的提示答案都用"great",表示负向的都用"terrible"。这种做法忽略了"方面"这一重要因素,对于不同的方面,情感极性的表述往往不同。例如,在金融领域中,对于股票,用“利好”和“利空”来评价更合适;例如:对于货币政策,用"宽松"和"紧缩"来评价更合适。对于不同方面使用统一的提示答案,不符合语言习惯,不能更好的利用预训练语言模型中学习到的知识。
发明内容
根据本发明所提供的基于情感分析的备选提示答案生成方法及装置,解决了现有方法中方面信息被忽略的问题。在对小样本数据进行情感分析时,利用回译和生成等方法,有效对数据进行增广;利用连续词袋模型对文本进行向量化,有效捕捉词语的上下文信息;根据种子词对词向量聚类,找到备选提示答案;通过模型的梯度下降速度找到最佳提示答案。
为了实现上述目的,本发明提供了一种基于情感分析的备选提示答案生成方法,包括:
根据预先生成的情感词句集合生成高维词向量;
对所述情感词句集合进行分词,以生成分词结果;
根据所述高维词向量以及所述分词结果生成备选提示答案。
一实施例中,生成所述情感词句集合的方法包括:
对于预先获取的初始词句集合进行扩充,以生成所述情感词句集合。
一实施例中,所述对于预先获取的初始词句集合进行扩充,以生成所述情感词句集合,包括:
将具有第一自然语言格式的初始词汇合集中的情感词句翻译为具有第二自然语言格式的情感词句;
将所述具有第二自然语言格式的情感词句翻译回至所述具有第一自然语言格式的情感词句,以扩充所述初始词句集合。
一实施例中,所述对于预先获取的初始词句集合进行扩充,以生成所述情感词句集合,还包括:
随机删除所述初始词汇合集中的情感词句中的部分词句,并根据删除后的情感词句随机生成与所述删除前的情感词句类似的词句,以扩充所述初始词句集合。
一实施例中,所述根据预先生成的情感词句集合生成高维词向量,包括:
根据所述情感词句集合中的情感词句中的上下文预测所述情感词句的当前中心词;
根据所述当前中心词以及预先生成的连续词袋模型生成所述高维词向量。
一实施例中,所述对所述情感词句集合进行分词,以生成分词结果,包括:
切分扩充之后的情感词句集合中的情感词句,以生成具有独立含义的词句。
一实施例中,所述根据所述高维词向量以及所述分词结果生成备选提示答案包括:
聚类所述高维词向量以及所述分词结果,以生成所述备选提示答案。
一实施例中,
一实施例中,所述聚类所述高维词向量以及所述分词结果,以生成所述备选提示答案,包括:
根据所述情感词句的情感正负属性确定簇类个数,以确定每一个簇类;
随机选取一情感词句为初始簇类中心;
在所述每一个簇类中,计算每一情感词句至其对应所述初始簇类中心的cosine距离;
根据所述cosine距离在所述情感词句集合中确定所述备选提示答案。
一实施例中,所述根据所述cosine距离在所述情感词句集合中确定所述备选提示答案,包括:
在所述情感词句集合中的情感词句中,按照所述cosine距离由小到大的顺序选取预设数量的情感词句,以生成训练集合;
利用所述训练集合对prompt属性级情感分析模型进行训练;
选取训练过程中梯度下降最快所对应的情感词句作为所述备选提示答案。
第二方面,本发明提供一种基于情感分析的备选提示答案生成装置,该装置包括:
高维词向量生成模块,用于根据预先生成的情感词句集合生成高维词向量;
分词结果生成模块,用于对所述情感词句集合进行分词,以生成分词结果;
提示答案生成模块,用于根据所述高维词向量以及所述分词结果生成备选提示答案。
一实施例中,基于情感分析的备选提示答案生成装置还包括:词句集合生成模块,用于生成所述情感词句集合,所述词句集合生成模块包括:
词句集合生成单元,用于对于预先获取的初始词句集合进行扩充,以生成所述情感词句集合。
一实施例中,所述词句集合生成单元包括:
第二词句翻译单元,用于将具有第一自然语言格式的初始词汇合集中的情感词句翻译为具有第二自然语言格式的情感词句;
第一词句译回单元,用于将所述具有第二自然语言格式的情感词句翻译回至所述具有第一自然语言格式的情感词句,以扩充所述初始词句集合。
一实施例中,所述词句集合生成单元还包括:
类似词句生成单元,用于随机删除所述初始词汇合集中的情感词句中的部分词句,并根据删除后的情感词句随机生成与所述删除前的情感词句类似的词句,以扩充所述初始词句集合。
一实施例中,所述高维词向量生成模块包括:
中心词预测单元,用于根据所述情感词句集合中的情感词句中的上下文预测所述情感词句的当前中心词;
高维词向量生成单元,用于根据所述当前中心词以及预先生成的连续词袋模型生成所述高维词向量。
一实施例中,所述分词结果生成模块包括:
独立词句生成模块,用于切分扩充之后的情感词句集合中的情感词句,以生成具有独立含义的词句。
一实施例中,所述提示答案生成模块包括:
词句聚类单元,用于聚类所述高维词向量以及所述分词结果,以生成所述备选提示答案。
一实施例中,所述词句聚类单元包括:
簇类个数确定单元,用于根据所述情感词句的情感正负属性确定簇类个数,以确定每一个簇类;
簇类中心选取单元,用于随机选取一情感词句为初始簇类中心;
聚类计算单元,用于在所述每一个簇类中,计算每一情感词句至其对应所述初始簇类中心的cosine距离;
提示答案确定单元,用于根据所述cosine距离在所述情感词句集合中确定所述备选提示答案。
一实施例中,所述提示答案确定单元包括:
训练结合生成单元,用于在所述情感词句集合中的情感词句中,按照所述cosine距离由小到大的顺序选取预设数量的情感词句,以生成训练集合;
模型训练单元,用于利用所述训练集合对prompt属性级情感分析模型进行训练;
梯度选取单元,用于选取训练过程中梯度下降最快所对应的情感词句作为所述备选提示答案。
第三方面,本发明提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现一种基于情感分析的备选提示答案生成方法的步骤。
第四方面,本发明提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现基于情感分析的备选提示答案生成方法的步骤。
第五方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现基于情感分析的备选提示答案生成方法的步骤。
从上述描述可知,本发明实施例提供的基于情感分析的备选提示答案生成方法及装置,对应的方法包括:首先根据预先生成的情感词句集合生成高维词向量;接着,对情感词句集合进行分词,以生成分词结果;最后根据高维词向量以及分词结果生成备选提示答案。本发明解决了现有方法中方面信息被忽略的问题。在对小样本数据进行情感分析时,利用回译和生成等方法,有效对数据进行增广;利用连续词袋模型对文本进行向量化,有效捕捉词语的上下文信息;根据种子词对词向量聚类,找到备选提示答案;并通过模型的梯度下降速度找到最佳提示答案。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中提供的基于情感分析的备选提示答案生成方法的流程示意图一;
图2为本发明实施例中提供的基于情感分析的备选提示答案生成方法的流程示意图二;
图3为本发明实施例中步骤400的流程示意图;
图4为本发明实施例中步骤401的流程示意图一;
图5为本发明实施例中步骤401的流程示意图二;
图6为本发明实施例中步骤100的流程示意图;
图7为本发明实施例中步骤200的流程示意图;
图8为本发明实施例中步骤300的流程示意图;
图9为本发明实施例中步骤301的流程示意图;
图10为本发明实施例中步骤3014的流程示意图;
图11为本发明具体应用实例中提供的基于情感分析的备选提示答案生成方法架构图;
图12为本发明具体应用实例中提供的基于情感分析的备选提示答案生成方法的流程示意图;
图13为本发明实施例中针基于情感分析的备选提示答案生成装置的结构示意图一;
图14为本发明实施例中针基于情感分析的备选提示答案生成装置的结构示意图二;
图15为本发明实施例中词句集合生成模块40的结构示意图;
图16为本发明实施例中词句集合生成单元401的结构示意图一;
图17为本发明实施例中词句集合生成单元401的结构示意图二;
图18为本发明实施例中高维词向量生成模块10的结构示意图;
图19为本发明实施例中分词结果生成模块20的结构示意图;
图20为本发明实施例中提示答案生成模块30的结构示意图;
图21为本发明实施例中词句聚类单元301的结构示意图;
图22为本发明实施例中提示答案确定单元3014的结构示意图;
图23为本发明的实施例中的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本发明的实施例提供一种基于情感分析的备选提示答案生成方法的具体实施方式,参见图1,该方法具体包括如下内容:
步骤100:根据预先生成的情感词句集合生成高维词向量。
具体地,利用数据建模的方法,将自然语言转化为可以让机器吹的数组向量,另外,词向量是表示词语特征的常用方式。词向量每一维的值代表一个具有一定的语义和语法上解释的特征。所以,可以将词向量的每一维称为一个词语特征。词向量具有多种形式,distributed representation是其中一种。一个distributed representation是一个稠密、低维的实值向量。distributed representation的每一维表示词语的一个潜在特征,该特征捕获了有用的句法和语义特性。可见,distributed representation中的distributed一词体现了词向量这样一个特点:将词语的不同句法和语义特征分布到它的每一个维度去表示。
步骤200:对所述情感词句集合进行分词,以生成分词结果;
按照特定需求,把情感词句集合中的情感词句切分成一个字符串序列(其元素一般称为token,或者叫词语),具体地,将输入数据中的文本切分为有独立含义的字、词。
优选地,步骤200在实施时,利用基于深度学习的分词方法,直接以最基本的向量化原子特征作为输入,经过多层非线性变换,输出层就可以很好的预测当前字的标记或下一个动作。
步骤300:根据所述高维词向量以及所述分词结果生成备选提示答案。
从上述描述可知,本发明实施例提供的基于情感分析的备选提示答案生成方法,包括:首先根据预先生成的情感词句集合生成高维词向量;接着,对情感词句集合进行分词,以生成分词结果;最后根据高维词向量以及分词结果生成备选提示答案。本发明提供了提出了一种面向方面的提示答案生成方法。包括数据增广、word2vec训练、输入文本向量化、生成备选提示答案、生成最佳提示答案等关键步骤。本发明解决了现有方法中方面信息被忽略的问题。在对小样本数据进行情感分析时,利用回译和生成等方法,有效对数据进行增广;利用连续词袋模型对文本进行向量化,有效捕捉词语的上下文信息;根据种子词对词向量聚类,找到备选提示答案;并通过模型的梯度下降速度找到最佳提示答案。
一实施例中,参见图2,基于情感分析的备选提示答案生成方法还包括:
步骤400:生成所述情感词句集合,进一步地,参见图3,步骤400包括:
步骤401:对于预先获取的初始词句集合进行扩充,以生成所述情感词句集合。
本申请提供了两种步骤401的实施方式,参见图4,步骤401的第一种实施方式包括:
步骤4011:将具有第一自然语言格式的初始词汇合集中的情感词句翻译为具有第二自然语言格式的情感词句;
步骤4012:将所述具有第二自然语言格式的情感词句翻译回至所述具有第一自然语言格式的情感词句,以扩充所述初始词句集合。
阿紫步骤4011以及步骤4012中,首先利用翻译工具将输入文本翻译成另一种语言,之后再翻译回原语言,从而得到与原文本同标签的新语料。
参见图5,步骤401的第二种实施方式包括:
步骤4013:随机删除所述初始词汇合集中的情感词句中的部分词句,并根据删除后的情感词句随机生成与所述删除前的情感词句类似的词句,以扩充所述初始词句集合。
具体地,可以采用如下两种模型,生成与输入问题相似的句子,从而进行数据增广。
Bert-based similar sentence generation
基于MLM模型随机采样方式,随机遮掩输入语句中的词语,从而生成与输入语句相似的句子:
GPT2-based similar sentence generation采用GPT2生成模型,生成与输入语句相似的句子
一实施例中,参见图6,步骤100包括:
步骤101:根据所述情感词句集合中的情感词句中的上下文预测所述情感词句的当前中心词;
步骤102:根据所述当前中心词以及预先生成的连续词袋模型生成所述高维词向量。
在步骤101至步骤102中,采用连续词袋模型CBOW来做word2vec(把词映射成高维词向量)。CBOW通过当前中心词的上下文单词信息预测当前中心词,用CBOW训练出的词向量能够有效捕捉中心词的上下文信息。接着,利用训练后的CBOW模型,将分词后的结果映射为高维词向量。
一实施例中,参见图7,步骤200包括:
步骤201:切分扩充之后的情感词句集合中的情感词句,以生成具有独立含义的词句。
将输入数据中的文本切分为有独立含义的字、词。
一实施例中,参见图8,步骤300包括:
步骤301:聚类所述高维词向量以及所述分词结果,以生成所述备选提示答案。
将属于同一方面的文本转化为词向量,具体地,利用通过k-means方法将步骤三中生成的词向量聚类,从而生成备选提示答案。
进一步地,参见图9,步骤301包括:
步骤3011:根据所述情感词句的情感正负属性确定簇类个数,以确定每一个簇类;
步骤3012:随机选取一情感词句为初始簇类中心;
步骤3013:在所述每一个簇类中,计算每一情感词句至其对应所述初始簇类中心的cosine距离;
步骤3014:根据所述cosine距离在所述情感词句集合中确定所述备选提示答案。
在步骤3011至步骤3014中,可以理解的是,K-means是基于划分方法聚类的,原理是先初始化k个簇类中心,基于计算样本与中心点的距离归纳各簇类下的所属样本,迭代实现样本与其归属的簇类中心的距离为最小的目标。具体方法如下:
1.簇类个数k:k为情感极性的个数,例如,如果情感极性是正向和负向,则k为2。
2.初始簇类中心的选取:对于每个方面的每个情感极性,预先设定一个情感词为初始簇类中心。例如,对于餐厅食物的评价,可以选取“好吃”、“难吃”作为初始簇类中心
3.针对数据集中每个词向量,计算它到簇类中心的距离,并将其归属到距离最小的簇类中心所对应的类中。距离采用cosine距离,目标函数为:
4.针对每个簇类,重新计算它的簇类中心位置
5.重复迭代上面3、4两步操作,直到簇类中心位置不变,从而确定最终簇类中心。
6.对于每个簇类,选取距离簇类中心最近的5个词作为备选提示答案。
一实施例中,参见图10,步骤3014包括:
步骤30141:在所述情感词句集合中的情感词句中,按照所述cosine距离由小到大的顺序选取预设数量的情感词句,以生成训练集合;
步骤30142:利用所述训练集合对prompt属性级情感分析模型进行训练;
步骤30143:选取训练过程中梯度下降最快所对应的情感词句作为所述备选提示答案。
依次将步骤4中生成的备选词作为提示答案,利用基于prompt的属性级情感分析模型进行训练,选取训练中梯度下降最快的词作为最佳提示答案。
为进一步地说明本方案,本申请提供基于情感分析的备选提示答案生成方法的具体应用实例,参见图11以及图12。
S1:输入属性级情感分析小样本数据;
每条样本数据由两项组成:文本和方面,例如:“他们在周末经常很拥挤,但他们的服务高效二准确”这是文本,其中的“服务”是方面。数据为小样本数据,适合采用prompt方式进行训练。以上示例套用模板后变成:
他们在周末经常很拥挤,但他们的服务高效而准确。服务很[mask];
[mask]为提示答案,[mask]的取值是预定义的,取值范围与需要判断的情感极向相同。
如果情感极向为二,则[mask]可以取两个值来代表两个情感极向。例如,[周到]和[恶劣],这两个词称为情感词。而模型的任务,就是去预测[mask]是[周到]还是[恶劣],从而预测文本的属性级情感极向。
由于[mask]的取值是预定义的,并且mask的取值关系到模型预测的效果,因此本发明的目标就在于找到效果最好的情感词,作为[mask]的值。
S2:数据增广。
输入数据为小样本数据,包含的情感词有限,为选取最合适的情感词作为提示答案,首先对数据进行增广。这里采用两种数据增广方式:
1.回译
用翻译工具将输入文本翻译成另一种语言,之后再翻译回原语言,从而得到与原文本同标签的新语料
2.生成方式
可以采用如下两种模型,生成与输入问题相似的句子,从而进行数据增广Bert-based similar sentence generation模型以及GPT2-based similar sentencegeneration模型。
S3:word2vec训练。
优选地,采用连续词袋模型CBOW来做word2vec。CBOW通过当前中心词的上下文单词信息预测当前中心词,用CBOW训练出的词向量能够有效捕捉中心词的上下文信息。
S4:对增广后的数据进行分词以及向量化处理。
对于步骤S2中增广后的数据,对于属于同一方面的文本进行分词和向量化。以及利用步骤S3中训练的CBOW模型,将分词后的结果映射为高维词向量。
S5:生成备选提示答案。
将属于同一方面的文本转化为词向量,本步骤通过k-means方法将步骤S4中生成的词向量聚类,从而生成备选提示答案。
S6:生成最佳提示答案。
依次将步骤S5中生成的备选词作为提示答案,用基于prompt的属性级情感分析模型进行训练,选取训练中梯度下降最快的词作为最佳提示答案。
基于同一发明构思,本申请实施例还提供了基于情感分析的备选提示答案生成装置,可以用于实现上述实施例所描述的方法,如下面的实施例。由于基于情感分析的备选提示答案生成装置解决问题的原理与基于情感分析的备选提示答案生成方法相似,因此基于情感分析的备选提示答案生成装置的实施可以参见基于情感分析的备选提示答案生成方法实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
本发明的实施例提供一种能够实现基于情感分析的备选提示答案生成方法的基于情感分析的备选提示答案生成装置的具体实施方式,参见图13,基于情感分析的备选提示答案生成装置具体包括如下内容:
高维词向量生成模块10,用于根据预先生成的情感词句集合生成高维词向量;
分词结果生成模块20,用于对所述情感词句集合进行分词,以生成分词结果;
提示答案生成模块30,用于根据所述高维词向量以及所述分词结果生成备选提示答案。
一实施例中,参见图14,基于情感分析的备选提示答案生成装置还包括:词句集合生成模块40,用于生成所述情感词句集合,参见图15,所述词句集合生成模块40包括:
词句集合生成单元401,用于对于预先获取的初始词句集合进行扩充,以生成所述情感词句集合。
一实施例中,参见图16,所述词句集合生成单元401包括:
第二词句翻译单元4011,用于将具有第一自然语言格式的初始词汇合集中的情感词句翻译为具有第二自然语言格式的情感词句;
第一词句译回单元4012,用于将所述具有第二自然语言格式的情感词句翻译回至所述具有第一自然语言格式的情感词句,以扩充所述初始词句集合。
一实施例中,参见图17,所述词句集合生成单元401还包括:
类似词句生成单元4013,用于随机删除所述初始词汇合集中的情感词句中的部分词句,并根据删除后的情感词句随机生成与所述删除前的情感词句类似的词句,以扩充所述初始词句集合。
一实施例中,参见图18,所述高维词向量生成模块10包括:
中心词预测单元101,用于根据所述情感词句集合中的情感词句中的上下文预测所述情感词句的当前中心词;
高维词向量生成单元102,用于根据所述当前中心词以及预先生成的连续词袋模型生成所述高维词向量。
一实施例中,参见图19,所述分词结果生成模块20包括:
独立词句生成模块201,用于切分扩充之后的情感词句集合中的情感词句,以生成具有独立含义的词句。
一实施例中,参见图20,所述提示答案生成模块30包括:
词句聚类单元301,用于聚类所述高维词向量以及所述分词结果,以生成所述备选提示答案。
一实施例中,参见图21,所述词句聚类单元301包括:
簇类个数确定单元3011,用于根据所述情感词句的情感正负属性确定簇类个数,以确定每一个簇类;
簇类中心选取单元3012,用于随机选取一情感词句为初始簇类中心;
聚类计算单元3013,用于在所述每一个簇类中,计算每一情感词句至其对应所述初始簇类中心的cosine距离;
提示答案确定单元3014,用于根据所述cosine距离在所述情感词句集合中确定所述备选提示答案。
一实施例中,参见图22,所述提示答案确定单元3014包括:
训练结合生成单元30141,用于在所述情感词句集合中的情感词句中,按照所述cosine距离由小到大的顺序选取预设数量的情感词句,以生成训练集合;
模型训练单元30142,用于利用所述训练集合对prompt属性级情感分析模型进行训练;
梯度选取单元30143,用于选取训练过程中梯度下降最快所对应的情感词句作为所述备选提示答案。
从上述描述可知,本发明实施例提供的基于情感分析的备选提示答案生成装置,包括:首先根据预先生成的情感词句集合生成高维词向量;接着,对情感词句集合进行分词,以生成分词结果;最后根据高维词向量以及分词结果生成备选提示答案。本发明提供了提出了一种面向方面的提示答案生成方法。包括数据增广、word2vec训练、输入文本向量化、生成备选提示答案、生成最佳提示答案等关键步骤。本发明解决了现有方法中方面信息被忽略的问题。在对小样本数据进行情感分析时,利用回译和生成等方法,有效对数据进行增广;利用连续词袋模型对文本进行向量化,有效捕捉词语的上下文信息;根据种子词对词向量聚类,找到备选提示答案;并通过模型的梯度下降速度找到最佳提示答案。
本申请的实施例还提供能够实现上述实施例中的基于情感分析的备选提示答案生成方法中全部步骤的一种电子设备的具体实施方式,参见图23,电子设备具体包括如下内容:
处理器(processor)1201、存储器(memory)1202、通信接口(CommunicationsInterface)1203和总线1204;
其中,处理器1201、存储器1202、通信接口1203通过总线1204完成相互间的通信;通信接口1203用于实现服务器端设备以及用户端设备等相关设备之间的信息传输。
处理器1201用于调用存储器1202中的计算机程序,处理器执行计算机程序时实现上述实施例中的基于情感分析的备选提示答案生成方法中的全部步骤,例如,处理器执行计算机程序时实现下述步骤:
步骤100:根据预先生成的情感词句集合生成高维词向量;
步骤200:对所述情感词句集合进行分词,以生成分词结果;
步骤300:根据所述高维词向量以及所述分词结果生成备选提示答案。
本申请的实施例还提供能够实现上述实施例中的基于情感分析的备选提示答案生成方法中全部步骤的一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的基于情感分析的备选提示答案生成方法的全部步骤,例如,处理器执行计算机程序时实现下述步骤:
步骤100:根据预先生成的情感词句集合生成高维词向量;
步骤200:对所述情感词句集合进行分词,以生成分词结果;
步骤300:根据所述高维词向量以及所述分词结果生成备选提示答案。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于硬件+程序类实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
虽然本申请提供了如实施例或流程图的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
机译: 答案生成装置,答案学习装置,答案生成方法以及答案生成程序
机译: (54)标题:一种扩展商务智能系统的形式和功能的基于内容的方法(57)摘要:商务智能(BI)系统具有通过以下方式将其功能扩展到项目生命周期之外的能力:具体内容。复杂的多维查询被解释为原子子表达式的树,这些原子子表达式组合成类似解析树的结构以形成整体查询。每个子树在提供适当的上下文时都是有效的。任何子树都可以是作为应用程序内容存储的表达模板,该表达模板在生成时使用带有实例特定参数的简单文本替换来生成多维表达语法。该系统包括一个复杂的类型系统和语义层,使用户摆脱了使用OLAP数据库所固有的复杂性。商业智能专家可以为每个作为内容的表达模板提供类型和语义提示。
机译: 一种用于查找网站邀请提示关键字并基于属性生成邀请提示指令的系统