首页> 中国专利> 基于反向翻译的中文幽默分类模型

基于反向翻译的中文幽默分类模型

摘要

基于反向翻译的中文幽默分类模型,属于自然语言处理领域,包括:S1.文本输入层;S2.BERT嵌入层;S3.汉语拼音特征嵌入层;S4.文本词性特征嵌入层;S5.特征融合层;S6.BiGRU层;S7.全连接层,最终由全连接层完成对中文文本幽默的分类输出;有益效果是:在基于反向翻译技术结合语言学幽默理论的方法基础上,提出了基础模型BERT‑BiGRU‑Softmax对中文文本幽默进行分类研究,并在模型中逐步加入不同的幽默特征,实现特征融合模型BERT+POS+Homophony‑BiGRU‑Softmax,该模型对最终判断中文文本是否为幽默是有效果的。

著录项

  • 公开/公告号CN112818118A

    专利类型发明专利

  • 公开/公告日2021-05-18

    原文格式PDF

  • 申请/专利权人 大连民族大学;

    申请/专利号CN202110088848.4

  • 发明设计人 孙世昶;孟佳娜;刘玉宁;朱彦霖;

    申请日2021-01-22

  • 分类号G06F16/35(20190101);G06F40/58(20200101);G06F40/268(20200101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构21235 大连智高专利事务所(特殊普通合伙);

  • 代理人李猛

  • 地址 116600 辽宁省大连市经济技术开发区辽河西路18号

  • 入库时间 2023-06-19 11:02:01

说明书

技术领域

本发明属于自然语言处理领域,涉及一种基于反向翻译的中文幽默分类模型。

背景技术

幽默,情感表达的重要方式之一,一直伴随着人们的生活。随着国家科技的飞速发展 和互联网以及通讯设备的大规模普及,互联网以及人工智能领域的应用正由“阅读式”向“交 互式”进行着剧烈的转变。幽默“交互式”同样应运而生。幽默不仅可以给人们带来快乐, 同时也会提高社交能力以及工作效率等。目前,“交互式”应用代表——聊天机器人,大多 是收集各种网络资源然后进行整合信息从而与服务对象进行交互,而具备幽默功能的聊天机 器人却是寥寥无几,这样的聊天机器人是没有“温度的”,聊天机器人不应该仅仅是机械式 的机器人,还应该具有人性化思维,知冷暖,通表达,即应该具备幽默的能力。“幽默”对 于聊天机器人有着特殊的意义。因此聊天服务机器人需要具备并理解说话者的幽默成分,要 达到这一功能的实现基础就是使聊天服务机器人可以对语句进行幽默分类。

中文文本幽默分类任务是国内自然语言处理领域的一个重要研究领域,该领域的技术主 要涉及认知科学、语言学、机器学习以及信息检索等技术,近年来在国内外的发展也是逐渐 火热。中文文本幽默分类的研究工作主要是将文本中所表达的话语,按照表达者的态度或幽 默倾向性将文本划分为幽默与非幽默的研究。

幽默分类这一任务的研究最早起源于西方国家,经过多年的研究与发展,幽默分类任务 已经成为自然语言处理的一项热门的研究,国外研究学者对这一任务的研究有些已经逐渐趋 于成熟。世界上第一次提出幽默理论的是Raskin,他在1985年提出了幽默的语义脚本理 论(SSTH),这成为了人工智能在幽默计算分析的基础理论,也是奠基石。随后,Attardo 和Raskin基于Raskin基础理论的扩展和修正,提出了言语幽默的一般理论,即六个主要的 幽默元素:脚本对立、逻辑机制、情境、对象、叙述策略和幽默言语,并从具体到抽象划 分为6个不同的等级,这对于幽默理论的发展有着重要的意义。随着人工智能技术的逐步发 展,高性能的深度神经网络模型对数据规模的要求也逐步提升,均需要大数据量、高质量的 训练集支撑。然而,现在公开的很多领域的数据集,比如情感分类,命名实体识别,图像分 析等领域,都存在高质量的数据集不足导致不能更好的匹配高性能的模型的问题,因此数据 增强技术就应运而生。

近年来,由于自然语言处理领域同样存在文本数据训练集不足或者训练样本质量不高的 情况,因此数据增强技术也广泛的应用在自然语言处理领域。其中,很多研究学者受到生成 对抗网络,GAN在图像处理上成功的启发,将GAN网络应用到文本数据增强任务中。2019 年OpenAI对GPT-2模型的提出以及中文GPT-2[28]的改进,对数据增强在自然语言处理领 域中产生了积极地影响。目前,数据增强技术在自然语言处理领域的方法主要有噪声,EDA 以及反向翻译等方法,在不同领域取得了优秀的效果。

不同的幽默语句在不同的人眼中所代表的幽默性是不一样的,它需要交流识别者具备大 量的知识背景的储备。目前,在幽默分类识别领域的研究中,较少的使用了语言学的幽默理 论基础,没有将理论与深度学习很好的结合在一起。因此,如何更好的结合语言学幽默理论 特征来提取文本中的幽默特征,追溯到幽默的本源来完成幽默分类任务是一大挑战。

除了幽默理论方面,数据方面同样存在不足的问题。由于中文幽默分类较国外研究发展 较晚,所以现有的中文幽默的高质量的文本数据较少。如果将其他领域的数据增强技术迁移 到文本上,由于领域不同不一定具备较好的泛化能力,很可能存在噪声问题,较少的噪声亦 或对模型提高性能有帮助,如若噪声较多,那势必影响模型的性能。因此,中文文本幽默数 据集对模型的学习也存在一定的影响。

幽默分类任务的研究起步较晚,滞后于文本情感分类的早期研究。早期的幽默分类任务 研究都是基于英文数据的,由于高质量的中文幽默数据集比较少,近年来,中文幽默分类的 研究才逐渐开始发展起来。此外,中文的幽默形式及特征与英文的幽默语言相比,在句法结 构、语法形式上存在一些差异,使机器学习不能较好的获取其中的含义以及不能具有针对性 的来选择特征判断文本语料是否为幽默语句。

发明内容

为了判断中文文本是否为幽默,本发明提出如下技术方案:一种基于反向翻译的中文幽 默分类模型,其特征在于,包括:

S1.文本输入层;

S2.BERT嵌入层;

S3.汉语拼音特征嵌入层;

S4.文本词性特征嵌入层;

S5.特征融合层;

S6.BiGRU层;

S7.全连接层,最终由全连接层完成对中文文本幽默的分类输出。

进一步的,所述文本输入层以句子为输入。

进一步的,所述汉语拼音特征嵌入层包括以下步骤:

汉字转拼音:将所要表征的句子中的每个汉字转换为汉语拼音;

获取唯一字符集:每个字符对应一个整数作为它的ID;

拼音向量化:根据以上两步的工作,将需要转换的文本进行拼音向量化。

进一步的,述文本词性特征嵌入层中,使用jieba工具将文本导入停用词库,对文本中 的句子进行分词操作,然后提取所有词性并转化为词性特征向量。

进一步的,所述特征融合层中,将BERT模型提取的特征向量矩阵、通过反向翻译方法对比 得出的汉语拼音特征以及文本词性特征向量进行特征融合,形成了多特征的模式,在深度学 习模型中进行训练;将文本输入层的样本句子经过BERT模型生成的特征向量矩阵为V,与 该样本句子对应的领域性特征融合句子的公式可用公式4.1表示为:

上面公式中,W表示产生的新的特征向量,f1表示词向量特征,f2表示汉语拼音特征。

进一步的,所述BiGRU层包括前向GRU层和后向GRU层,利用正反向神经网络对特征融合层融合输出的特征向量矩阵W进行上下文学习,对文本进行更深层次的特征提取操作。

进一步的,所述的反向翻译方法如下,将中文幽默数据集运用机器翻译的方法翻译成 英文数据集,再将英文数据集翻译回中文数据集。

有益效果:利用深度学习技术,着重研究本文数据集所具备的显著特征并提取,在基 于反向翻译技术结合语言学幽默理论的方法基础上,提出了基础模型BERT-BiGRU-Softmax 对中文文本幽默进行分类研究,并在模型中逐步加入不同的幽默特征进行实验,实现特征融 合模型BERT+POS+Homophony-BiGRU-Softmax(以下简称BPH-BiGRU-Softmax模型)的 构建与训练,对最终判断中文文本是否为幽默是有效果的。由具体实施例中的实验数据可以 看出,实验中分别以公开数据集、自建数据集为文本,通过对多特征对中文文本幽默分类的 结果影响、与其他网络模型作对比、实验探究重要模型超参数、不同数据增强技术对比四个 方向进行实验,得出将BERT基础特征与词性特征、汉语拼音特征结合在一起生成的 BPH-BiGRU-Softmax模型,得到的实验结果均为最佳。不仅验证了模型的有效性,而且减 少实验所用的时间成本、提高机器的内存使用率,还能找到更准确的下降方向,以降低模型 的震荡幅度。反向翻译可以改变句子的表述结构、方式,使增强后的数据可以有异于原语句 的结构,有时可以在改变语法结构的情况下保留正确的语义信息,增加了文本语料库的数据 多样性,更好的增加了模型的鲁棒性和泛化能力。

附图说明

图1CBOW模型结构示意图;

图2Skip-Gram模型结构示意图;

图3机器学习的基本结构示意图;

图4SVM二维划分方式示意图;

图5Textcnn原理图;

图6RNN结构图;

图7循环层展开图;

图8LSTM网络结构图;

图9总体结构图;

图10反向翻译的结构图;

图11原句子的句法可视化;

图12反译后的句法可视化;

图13模型设计框架图;

图14向量表示矩阵V;

图15GRU基础模型图;

图16Batchsize对模型效果的影响示意图。

具体实施方式

1.1解决问题

本发明提出一种基于反向翻译的中文幽默分类模型,当今社会人工智能以及人机交互快 速发展的背景下,使机器具有情感更具有幽默感是迫切的,幽默分类任务也应运而生。本发 明针对中文文本幽默的倾向性进行分析,系统的分析文本幽默分类的相关研究以及对不同的 深度学习深层次表示在幽默分类任务中存在的不同的影响能力的探索。利用深度学习技术, 研究本发明数据集所具备的显著特征并提取,在基于反向翻译技术结合语言学幽默理论的方 法基础上,提出了基础模型BERT-BiGRU-Softmax对中文文本幽默进行分类研究,并在模型 中逐步加入不同的幽默特征进行实验,实现特征融合模型 BERT+POS+Homophony-BiGRU-Softmax(以下简称BPH-BiGRU-Softmax模型)的构建与 训练,最终判断中文文本是否为幽默。

2.1幽默分类

2.1.1文本幽默分类

文本幽默分类是情感分析研究领域的一个分支,同时也是人工智能领域重要的任务之一。 文本幽默分类任务的主要研究的对象是文本的“主观因素”,即发布者或作者所要表达出来 的主观倾向性是否包含幽默效果,分类的结果是对于一个特定的文本要得到它是否支持某种 幽默的信息。由于科学技术的快速发展,进而迸发出三种主要的幽默分类方法,分别是基于 统计和语法分析的分类方法、基于机器学习的分类方法、基于深度学习的分类方法。其中, 基于统计和语法分析的分类方法和基于机器学习的分类方法都是比较传统的分类方法,基于 深度学习的分类方法是近年来较为活跃的分类方法。

2.1.2文本预处理

在数据挖掘任务中或自然语言处理任务中,文本预处理都是一项必不可少的工作,文本 预处理的精细程度在很大程度上会直接影响实验模型的基本性能。文本预处理工作主要包括 中文分词,去停用词,词性标注,依存句法分析等工作。一般来说文本预处理工作主要是在 去除指定无用符号,使文本只保留中文汉字的基础上进行中文分词操作,然后去除停用词, 即情感色彩较弱或无实际意义的词语,并针对文本进行词性标注或依存句法分析,进而使得 计算机具备自动化分析情感色彩的能力。

(1)去除指定符号

通常在文本预处理的开始,不管是中文数据集还是英文数据集,由于数据集很多是从 网站或其他地方爬取下来的,所以我们都需要对数据集进行一个去除指定的无用符号的操作。 这样才能更好进行下面的文本预处理操作。

(2)中文分词

目前,基于中文的分词技术可分为两大类:基于字符串匹配的分词方法、基于统计的分 词方法。基于字符串匹配的分词方法又称机械分词方法,它是按照一定的策略将待分析的汉 字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成 功,即识别出一个词。按照扫描方向的不同,字符串匹配分词方法可以分为正向匹配和逆向 匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按 照是否与词性标注过程相结合,可以分为单纯分词方法和分词与词性标注相结合的一体化方 法。常用的字符串匹配方法有正向最大匹配法,逆向最大匹配法,最小切分法,双向最大匹 配法。这类算法的优点是速度快,实现简单,但是对于歧义词或者未登陆词效果不太理想; 基于统计的分词方法是在给定大量已经分词的文本的前提下,利用统计机器学习模型学习词 语切分的规律,从而实现对未知文本的切分。例如最大概率分词方法和最大熵分词方法等。 随着大规模语料库的建立,统计机器学习方法的研究和发展,基于统计的中文分词方法渐渐 成为了主流方法。主要的统计模型有:N元文法模型(N-gram),隐马尔可夫模型(HMM), 最大熵模型(ME),条件随机场模型(CRF)等。

在实际的应用中,基于统计的分词系统都需要使用分词词典来进行字符串匹配分词,同 时使用统计方法识别一些新词,即将字符串频率统计和字符串匹配结合起来,既发挥匹配分 词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的 优点。近年来,结巴中文分词技术因其采用了动态规划查找较大概率路径,找出基于词频的 较大切分组合,对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算 法,取得较好的结果。因此,本发明采用结巴中文分词技术来对预训练语料进行分词操作。

(3)去停用词

在自然语言处理中,通常我们为了节省存储空间和提高检索效率,会使用去停用词操作。 这些停用词一般包括两类,第一类是极其普遍的功能词,与其他词相比没有什么实际意义的 词。第二类是包括一些使用非常广泛的词汇,对于特定任务没有什么帮助的词。本发明所使 用的停用词表为哈工大停用词表。

(4)词性标注

词性标注,即使用计算机自动化的将句子中词语的词性标记出来的过程,比如说名词, 动词,形容词等。但是词性标注这项工作并不是文本预处理中必须要做的,不过它有时候可 以帮助我们简化一些工作。例如,在词性标注的过程中,可以针对特定的任务将不需要的句 子中的带有某些词性的词去掉,以达到更好的文本预处理效果。

(5)依存句法分析

依存句法分析是自然语言处理领域中的关键技术之一,最早由法国语言学家L.Tesniere 在其著作《结构句法基础》中提出,对语言学的发展产生了深远的影响,在计算语言学界也 是备受推崇。其基本任务是确定句子的句法结构或者句子中词汇之间的依存关系。主要包括 两方面的内容,一是确定语言的语法体系,即对语言中合法的句子的语法结构给与形式化的 定义;另一方面是句法分析技术,即根据给定的语法体系,自动推导出句子的句法结构,分 析句子所包含的句法单位和这些句法单位之间的关系。

2.1.3词向量表示

(1)独热表示

独热编码(One-Hot Representation)又称one-hot编码,是比较常见的单词表示方法。 其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位, 并且在任意时候,其中只有一位有效。也就是说只有一位为1,其余的都是0。独热编码主 要用于分类任务中,对类别的特征进行归一化处理。比如就性别来说,性别有男有女,那么 新构造的特征就会有两种结果,性别—男、性别—女,与原数据相比,对应位置上相同为1, 否则为零。在实际应用中使用独热编码虽然可以解决分类器不好处理离散数据等问题,但是 在文本特征表示上劣势就凸显出来了。首先,它是一个词袋模型,不考虑词与词之间的顺序。 其次,它假设词与词相互独立。最后,它得到的特征是离散稀疏的。

(2)分布式表示

分布式表示最初是由Hinton等人提出的,源自于认知表示,是深度学习最重要的性质, 可以得出学习特征值的组合信息。与独热表示不同的是,分布式表示以稠密实数向量表达单 词的内在含义。假设数据样本A=[“他”],B=[“厉害”],特征向量是2维向量,那么样 本A和B可用分布式表示为:A:[1.79683,0.326625816],B:[2.6215376,0.9257021];较独热表示,分布式表示的优势很明显。首先,独热表示不能表示文本的关联信息,而分布式表示可以很有效的表示语义相似度,进而更好的对词与词之间的信息进行表示。其次,分布式表示有助于模型具有更好的泛化能力。最突出的是,分布式表示具备非常强大的特征表 达能力。比如N维向量每维k个值,则可以表征为k

2.1.4词向量表示

(1)词表示生成模型

随着对词表示生成的研究的深入,研究学者们逐渐发现,在越大的数据集上利用简单的 网络模型及上下文,可以得到越好的单词表示。由此,Word2vec开创了新纪元。它是GOOGLE 提出的开源工具,即把语料库中的词转化成向量,以便后续在词向量的基础上进行各种计算。 Word2vec模型包括两种训练模型,即CBOW模型和Skip-Gram模型。具体的模型结构分别 如下图1和2所示。

CBOW模型的训练输入是某一个特征词的上下文相关的词对应的词向量,而输出就是 这特定的一个词的词向量。Skip-Gram模型和CBOW的思路是相反的,即输入是特定的一个词的词向量,而输出是特定词对应的上下文词向量。

2014年,Pennington等人受到前人启发,提出了GLOVE词向量,与Word2Vec相同的是,它们都是静态向量。直至2018年,BERT模型的推出,受到了史上最强关注。BERT 模型提升了词向量模型的泛化能力,字与词之间,句子之间都被很好的表示。

2.1.5机器学习相关技术

目前,在幽默文本分类任务中,如若使用机器学习技术实现,大多都是基于有监督训练 的分类方法,通过在大量有标签的数据集上提取句子特征,然后利用机器学习算法学习模型 参数以及生成模型,最后用这些模型对文本进行分类与识别。本小节将介绍机器学习在幽默 文本分类任务中的相关知识与算法。机器学习是一类算法的总称,主要应用于人工智能领域 中。这些算法企图从大批历史存储的数据中挖掘出其隐含的内容规律,并用于预测或者分类。 更具体的说,机器学习可以看作是寻找一个函数,输入是语料库中的样本数据,输出是我们 期望得到的结果,只是这个函数过于复杂,以至于不太方便形式化表达。值得注意的是,机 器学习的目标是使学到的函数很好地适用于“新样本”,而不仅仅是在训练样本上表现很好, 寻求模型泛化能力的最大化。图3为机器学习的基本框图结构。机器学习模型在幽默分类任 务中表现突出的是决策树模型和支持向量机模型,因此,下面将介绍以上两个模型算法。

(1)朴素贝叶斯

朴素贝叶斯[45]是一种很常见并且应用很广泛的文本分类算法,基本原理(贝叶斯原理) 是英国数学家托马斯·贝叶斯提出的。目前,朴素贝叶斯算法是一种简单但极为强大的预测 建模算法。通常的操作是首先确定特征属性,明确预测值是什么。并对每个特征属性进行适 当划分,然后由人工对一部分数据进行分类,形成训练样本,通过输入特征属性和训练样本 并计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率,输出 分类器。最后就是使用分类器对新数据进行分类,输出结果。

为了避开贝叶斯公式的训练障碍,朴素贝叶斯分类器采用了“属性条件独立性假设” (attribute conditional independence assumption),即对已知类别,假设所有属性相互独立, 即每个属性各自独立地对分类结果产生影响,则我们前面提到的贝叶斯公式2.1:

其中d表示属性的个数,xi表示x在第i个属性上的取值,又因为P(x)由样集唯一确定, 即对所有类别P(x)都相同,于是朴素贝叶斯分类器的表达式如2.2:

朴素贝叶斯分类器的训练过程就是基于训练集D来估计类先验概率P(c),并为每个属 性估计条件概率P(xi|c),用Dc表示训练集D中第c类样本组成的集合,若有充足的独立同 分布样本,则可以容易地估计出类先验概率2.3:

对离散属性而言,令Dc,xi表示Dc中在第i个属性上取值为xi的样本组成的集合,则条件概率P(xi|c)为公式2.4

对连续型属性,假定公式2.5

其中μc,i,σ2c,i分别为第c类样本在属性i上的均值与方差(这里要假设对应的连续 型变量服从正态分布),则如公式2.6:

(2)决策树模型

决策树(Decision Tree)是一种基本的分类与回归方法,当决策树用于分类时称为分类 树,用于回归时称为回归树。由于本文讨论的为分类任务,因此本文主要介绍分类树。

分类树是一种描述对实例进行分类的树形结构。在使用分类树进行分类时,从根结点开 始,对实例的某一特征进行测试,根据测试结果,将实例分配到其子结点。这时,每一个子 结点对应着该特征的一个取值。如此递归地对实例进行测试并分配,直至达到叶结点。最后 将实例分到叶结点的类中。分类树学习的目标是根据给定的训练数据集构建一个决策树模型, 使它能够对实例进行正确的分类。决策树学习本质上是从训练数据集中归纳出一组分类规则。 与训练数据集不相矛盾的决策树(即能对训练数据进行正确分类的决策树)可能有多个,也 可能一个也没有。我们需要的是一个与训练数据矛盾较小的决策树,同时具有很好的泛化能 力。从另一个角度看,决策树学习是由训练数据集估计条件概率模型。基于特征空间划分的 类的条件概率模型有无穷多个,我们选择的条件概率模型应该不仅对训练数据有很好的拟合, 而且对未知数据有很好的预测。决策树学习用损失函数表示这一目标,其损失函数通常是正 则化的极大似然函数,决策树学习的策略是以损失函数为目标函数的最小化。当损失函数确 定以后,学习问题就变为在损失函数意义下选择最优决策树的问题。

(3)支持向量机模型

SVM是一种二分类模型,有监督的统计学习方法,能够最小化经验误差和最大化几何 边缘,被称为最大间隔分类器,可用于分类和回归分析。如图4所示,支持向量机的学习策 略就是间隔最大化,可形式化为一个求解凸二次规划的问题,也等价于正则化的合页损失函 数的最小化问题。支持向量机的学习算法是求解凸二次规划的最优化算法。

假设给定一个特征空间上的线性可分的训练数据集T={(x

其中

通过间隔最大化或等价地求解相应的凸二次规划问题学习得到的分离超平面为:

w*x+b=0 (2.7)

其中,w为分类超平面的法向量,b为截距也是偏移量。该平面由法向量w和截距b来决定。分离超平面将空间分为两部分,一部分是正类,一部分是负类,法向量指向的一侧为正类。根据点到平面之间的计算公式,要保证最终分类间隔最大,该问题可转化为以下问题(如公式2.8与2.9):

s.t.y

对上述问题为方便求解,可转化为其对偶问题(如公式2.10与2.11),最后求得最优解 ω

其中α

非线性问题往往不好求解,所以希望能用解线性分类问题的方法解决这个问题。所采取 的方法是进行一个非线性变换,将非线性问题变换为线性问题,通过解变换后的线性问题的 方法求解原来的非线性问题。核心就是引用了核函数,从而减少了在高维空间的计算量。常 用的核函数包括以下三种,线性核函数,多项式核函数,高斯核函数。

线性核函数是最简单的核函数,数学表示如公式2.12所示:

k(x,y)=x

多项式核函数:

k(x,z)=(x·z+1)

对应的支持向量机是一个p次多项式分类器,在此情形下,分类决策函数成为

高斯核函数:

对应的支持向量机是高斯径向基函数分类器。在此情形下,分类决策函数成为:

2.1.6深度学习相关技术

(1)卷积神经网络

卷积神经网络不同于其他网络结构如全连接网络等,它在结构上有着独有的三个特点: 1)局部连接:每个神经元不再和上一层的所有神经元相连,而只和一小部分神经元相连。2) 权值共享:一组连接可以共享同一个权重,而不是每个连接有一个不同的权重,这样就减少 了很多参数。3)下采样:可以减少数据处理量并保留有用信息。Kim等人[48]在2014年提 出将CNN模型应用在文本分类的任务上,可谓是开山之作。CNN模型主要包括卷积层、池 化层和全连接层,如下图5所示。

输入层会将一段文本转换成卷积层所需要的输入格式,一般会得到一个句子的向量矩阵。 其中我们设定n代表一段文本单词数量。因为文本的单词数量是变长的,在这里我们需要对 输入文本做预处理,将其加工成定长。常用的方法有取数据中最长文本长度、统计文本长度 分布取一个能覆盖大部分文本的长度。K代表词嵌入的长度。一般可以使用Glove词向量、 Word2Vec词向量、Bert等,对自然语言处理任务的效果会有所帮助。则则模型输入的句子 矩阵可表示为公式2.17:

其中

然后通过对窗口内的单词进行卷积操作,得到需要的特征值。具体的用c

c

其中

对句子矩阵内每一个可能的窗口进行卷积操作,得到一个特征映射集合,如公式2.19 所示:

最后池化层得到的特征映射集合c进行最大池化操作,得到最终的特征。如公式2.20 所示:

以上描述了从一个卷积核中提取一个特征的过程。通常在实验中,我们使用多个的卷积 核可以获取不同的特征表示,然后将这些特征表示传递到全连接softmax层,就可以输出文 本标签的概率分布,这样就完成了文本分类的一个过程。

(2)循环神经网络

早在1982年,美国加州理工学院物理学家John hopfield发明了一种单层反馈神经网络 Hopfield network,用来解决组合优化问题。这是最早的RNN的雏形。经过后人不断地创新 与完善,提出了现有的循环神经网络模型(recurrent neural network,RNN)。

循环神经网络较大的优势是可以很好的训练序列信息。一个简单的循环神经网络如,它 由输入层、一个隐藏层和一个输出层组成,如下图6所示;将循环层按时间线展开可得到下 图7所示:

这个网络在t时刻接收到输入x

o

s

其中,x

循环神经网络的核心部分为记忆单元,但是在某些情况下,很可能发生的是,相关信息 与需要信息的位置之间的距离非常大,当距离增加,循环神经网络便无法连接相关信息,这 一缺点随着循环神经网络的深入研究,基于循环神经网络衍生出的长短期记忆网络就解决了 此类问题。

(3)长短期记忆网络

长短期记忆网络的网络结构如图8所示。

长短期记忆网络的核心在于单元状态,它可以增加或者删除单元状态中的信息,这些信 息首先要经过被称为“门”的结构的处理。主要包括有输入们、遗忘门和输出门。第一步长 短期记忆网络需要决定从单元状态中舍弃什么信息,它由激活函数sigmoid的神经层决定, 即遗忘门。首先我们将信息作为遗忘门的输入,对于每一个数字,遗忘门输出一个[0,1]区间 的数字,输出1代表“完全保留”,输出0代表“完全遗忘”。令当前时刻为t,遗忘门f

f

第二步是决定我们将需要在单元状态中存储哪些新的信息,定义为i

i

然后,用激活函数tanh层创建一个新的候选值向量,添加到当前候选单元状态,定义 为

接下来,将旧的单元状态更新为新的单元状态,即将输入门的值i

输出门需要决定输出的内容,定义为o

o

最后,通过tanh函数(把值转换为[-1,1]区间)把它的单元状态与激活函数sigmoid门 的输出相乘,这样只输出决定输出的部分。推导公式如图所示。

h

2.1.7本章小结

本章主要对幽默分类技术的理论研究做了介绍,其中包括对文本的预处理,词表示方法 及发展过程以及经典的机器学习与深度学习相关技术,为后续的研究提供了理论技术的基础。

3.1基于反向翻译的数据增强技术研究

反向翻译,即将我们的中文幽默数据集,运用机器翻译的方法翻译成英文数据集,再将 英文数据集翻译回中文数据集,这就是一个反向翻译的过程。张捷

3.1.1反向翻译技术概述

近年来,随着更多的数据增强技术的方法实现,反向翻译技术逐渐走进自然语言处理领 域中。反向翻译技术是数据增强技术中的一种既简便、效果又明显的一项技术。它主要是利 用机器翻译工具,将原语料库中的数据集通过机器翻译工具翻译成我们期望的目标语言(可 以是英文,也可以是其它外文),然后再利用机器翻译工具将目标语言的数据集翻译回我们 原语种的语料库。这样操作就构成反向翻译技术。本文在反向翻译过程中是基于中英文翻译 的,通过语种的差异化来达到数据集的差异化,既有助于我们分析幽默特征,又有利于我们 在有限的中文幽默数据集中生成新的数据集,以达到另一个效果,即数据增强。下图是反向 翻译技术的结构图,如图10所示。

3.1.2本数据集的幽默类别概述

幽默虽然定义的种类方式五花八门,构成幽默的方式也多种多样,但是幽默语言有其最 基本的语言特征。李源

针对以上学者对于汉语幽默语言学特征的研究,本文发现适用于本数据集的幽默理论大 概有4类,包括语音特征理论、汉语结构特征理论、词汇语义特征理论以及新潮词与方言特 征理论。下面将对这四大类理论进行详细的描述。

(1)语音特征理论

幽默在汉语或者英语等其他语种中,最常见的一个现象就是通过语言发音来产生幽默。这种 语言发音主要是指谐音字类型。谐音作为一种常见的汉语语用现象被国人广泛的使用。谐音 是指借助于发音相同或相近的语音特点来表达汉语意思的语言现象。在幽默领域中,谐音通 常以头韵或者是尾韵的形式展现出来。在人际交往中,对话人利用语言语音发出的声音不一 致性引发幽默。比如说在英语中,例如:例1:as fit as fiddle,这一简短表达,看着语 义不存在什么幽默,但是这个词组中发音相同的两个字母F重复使用,构成了头韵即形成 一种语音特征的幽默。再比如说在汉语中,例如:例2:秀发去无踪,头屑更出众!无踪的 “踪”在汉语中拼音发音为“zong”,出众的“众”在汉语中拼音发音为“zhong”,两个字 的发音的“ong”构成了尾韵的手法,给人一种朗朗上口,幽默诙谐的感觉,产生了一种幽 默表达的效果。从例子中我们可以看出语音特征中的谐音对幽默效果的产生是非常强烈的, 在实际许多幽默文本的表达中,即使语义层面的幽默效果不强,但是应用谐音中的头韵或尾 韵的语音特点也可以实现产生诙谐的效果或使幽默的表达效果更加强烈。

(2)结构特征理论

利用句子结构的表达在语言表达中也较为常见。比如我们中国的传统的春联,它是一种独特 的文学形式。其讲究的是上下联的句子字数相等,对仗以及平仄相对等方式。句子结构表达 在汉语中流传许久,同样在幽默的语句表达中也发挥了很大的作用。在幽默的人际交往中, 使用较多的是上下句字数相同的特点并且大多伴随着具有发音等特点。例如:例3:戒烟容 易,戒你太难。这句话不看语义信息,单从我们汉语的表达方式看,存在上下句字数相同的 特点,读起来很顺,易于人们理解,并且都是“戒”字开头,同样也会产生幽默的效果。 有些句子既存在字数相同特点,又具有3.1.1中所讲谐音的特点,这样的句子幽默效果更为 强烈。例如:例4:老鼠扛刀,满街找猫。这句话的抗刀的“刀”的发音“dao”,与找猫的 “猫”的发音“mao”都具有“ao”,构成了尾韵的手法。同时,又具有上下句字数相同的特点,这样双重特点的结合,使表达幽默的效果更加强烈。

(3)词汇语义特征理论

词汇语义特征即同一个词或字在同一句话中表达出不同的意思,造成了语义歧义,这样会引 发幽默。很多情况下,表达不同的语义,词性也随之发生变化。如:例5:老师:你是男生 还是女生?小学生:我是妈妈生!这句话我们可以从语义中理解小学生和老师都说的“生” 这个字并不是同一个含义。男生和女生的“生”倾向于名词性,而妈妈生的“生”是一个动 名词性。因此,同样的词具有不同的词性衍生出同样的词具有不同含义引发的歧义,很容易 产生幽默的效果。

(4)新潮词与方言特征理论

有的时候人际交往,很容易说出新潮词或者方言。比如东北人的方言“干哈呢”,南方人一 听就觉得很有意思,可能不需要有什么实际的表达含义,但就猝不及防的产生了幽默的效果。 新潮词也是一样。不过,如果人际交往很熟悉的情况下,可能有些方言或者新潮词产生的幽 默效果就不是很突出了。因此,新潮词与方言特征理论在某些特定的场合中是可以产生幽默 的。

3.1.3反向翻译对不同类型幽默数据的影响

反向翻译不仅作为数据增强中一个比较新潮的手段,同样,在幽默数据领域中,也可以 发挥出重要作用。我们可以对反向翻译回来的数据集与原数据集进行一个比对分析,利用中 英文语言的差异性并且运用语言学理论的方法深层次的对幽默理论进行一个解读,发现幽默 的本质,这会为以后的幽默学研究以及计算机自动化的判别幽默提供一个理论基础。下面展 示一个利用反向翻译技术以及句法分析可视化可以展现出句子的差异性,如图11和图12 所示。原句子:路见不平一声吼,吼完一声往前走。本次研究将对我们现有数据集进行一个 反向翻译句子与原句子的对比。每个类型展示出3例幽默的语句作为分析,每个列举分为原 句、反向翻译句子、反向翻译后还是否存在幽默、笑点分析以及该类型计算机自动识别涉及 的方法。最后通过对每个类型的分析结果做总结,阐述反向翻译对识别幽默特征的影响。

(1)谐音字

如表3.1所示,为原中文句子通过反向翻译后得到新的中文语句,并做对比识别该句子 所具备谐音字的笑点特征。以句子1为例,该句子在反向翻译后幽默存在丢失的情况。原句 的笑点在于一个农夫山泉的广告,农夫山泉的广告词是:农夫山泉,有点甜。那这句话农妇, 山泉,有点田正好与这个农夫山泉的广告构成了一种同音不同词义的感觉,形成了幽默感。 若识别这种幽默,可以制定同音词的词表及规则来实现。

表3.1谐音字分析

从上表3.1对比分析中,我们可以发现谐音字利用汉语拼音韵母的发音造成幽默的情况 比较常见,我们可以对文本幽默数据集提取汉语拼音特征进行特征提取,从而提高我们幽默 分类的效果。

(2)结构对称

如表3.2所示,为原中文句子通过反向翻译后得到新的中文语句,并做对比识别该句子 所具备结构对称的笑点特征。以句子1为例,该句子在反向翻译后幽默存在丢失的情况,翻 译后的语言结构与谐音丢失了。原句的笑点在于上下句结构对称,字数相同,并且存在谐音 效果,朗朗上口的感觉,从而产生幽默的效果。若要识别这种幽默,需要使用句法分析或谐 音特征来判别上下句关系来实现。

表3.2结构对称分析

从上表3.2对比分析中,我们可以发现结构对称的幽默语句很多时候会同时与谐音的效 果同时出现,因为我们中文幽默很多时候讲究发音与结构同时出现,所以我们提取这类特征 时,不仅可以提取结构特征,同样也可以提取谐音特征进行幽默的分类识别。

(3)一字多义

如表3.3所示,为原中文句子通过反向翻译后得到新的中文语句,并做对比识别该句子所具 备一字多义的笑点特征。以句子1为例,该句子在反向翻译后出现幽默丢失的情况,翻译后 的一字多义的情况消失了。原句的笑点在于领导脸发红是指一个领导的状态,员工有分红是 指员工分到了钱,前者偏向动词词性,后者为名词词性。这两个“红”字在不同语境搭配是完 全不同的意思,产生了幽默的效果。若要识别这种幽默,需要计算“发红”与“分红”的语义距 离,从而判别上下句语义背离关系。

表3.3一字多义分析

从上表3.3对比分析中可以看出,汉语幽默中,一字多义造成的歧义的情况而产生幽默 的效果也是较为常见,我们可以通过利用可以分析出一字多义的特征提取模型来提取特征, 比如说BERT模型就可以很好的解决一字多义的问题。不过在很多情况下,一词多义的现象 往往是由于词性发生了改变,因此,同样可以在特征工程上附加词性特征对幽默进行分类。

(4)新潮词与方言

如表3.4所示,为原中文句子通过反向翻译后得到新的中文语句,并做对比识别该句子 所具备新潮词与方言的笑点特征。以句子1为例,该句子在反向翻译后出现幽默丢失的情况, 翻译后的新潮词丢失。原句的笑点在于HELLO KITTY这个新潮词,说出来幽默的效果。若 识别这种幽默,需要建立一个新潮词的词库与规则来实现。以句子2为例,该句子在反向翻 译后出现幽默丢失的情况,翻译后的方言特色丢失。原句的笑点在于你算老几这句东北方言, 形成了幽默的效果。若识别这种幽默,需要建立一个方言的词库与规则来实现。

表3.4新潮词与方言分析

从上表3.4对比分析中可以看出,新潮词语或者是方言同样也是可以造成幽默效果的, 不过在本数据集中,这种数据存在相对较少,所以在特征提取的阶段不对新潮词与方言这部 分做单独的特征提取操作。

3.1.4本章小结

本章对幽默理论进行了相关的概述,并通过新兴的数据增强方法——反向翻译技术与原 数据集进行对比,识别出深层次的幽默语料特征,追其本源,发现真正人际交往中触发幽默 的一些特征:谐音字特征,同声字特征,结构特征,一字多义特征等。反向翻译技术不仅可 以作为数据增强技术,同样,帮助我们识别出了很多幽默语料中深层次的特征。

谐音字特征和同声字特征同属于语音特征范畴,我们可以利用汉语拼音的特征特点来对 相应的特征进行提取。通过分析发现,结构特征往往很大程度上与谐音字特征一起出现,所 以同样也可以利用汉语拼音的特征特点或者使用更具有深层次的特征向量工具进行特征提 取。一字多义的情况我们可以借助词性特征或者词义特征提取模型进行特征提取等等。这些 特征提取出来可以追溯到幽默的本源,而并不是一味地使用某些先进的自动化模型来追求结 果的高低。分析表明,我们使用反向翻译技术的确可以挖掘幽默的深层次信息,为下面的不 同特征对于幽默的影响分析以及幽默分类提供了坚实的理论论证与实验基础。

4.1基于数据增强的幽默分类研究

传统的幽默分类方法,比如经典的机器学习算法支持向量机、决策树、随机森林以及深 度学习算法CNN、RNN等算法,虽然在一定程度上可以将幽默短文本分类成幽默与非幽默, 但是并不能从幽默理论的本源来辨别文本的幽默性。同时,单独使用传统的词向量表示如 GLOVE、Word2Vec等向量,都只能在文本中获取静态的词向量,而在语境复杂多变,相同 的词可能具有不同的意义的情况下,都无法很好的表示。因此,本章节以BERT模型提取的 特征向量为基础向量,设计了一个基于BERT的BPH-BiGRU-Softmax的中文文本幽默分类模型,提出模型中引入第三章通过反向翻译技术分析总结出的幽默文本中包含的特征进行多 特征表示作为模型的输入,再通过双向GRU网络对特征进行深层特征提取,最后输入到Softmax分类器中,进一步提升了模型系统性能并同时对多特征融合在分类任务上的影响做 了分析。具体的设计框架如图13所示。

4.1.1BERT模型特点分析

BERT模型是一个预训练模型。预训练模型,简单的来说,即在一个任务上学习到了知 识以及网络模型参数,并将它们保存下来。在我们需要进行一个新的任务时,如果采用相同 的模型结构,模型参数会初始化并载入之前预训练好的参数,在新数据集上进行网络训练。 预训练模型在新任务的数据集较少的时候,往往会发挥出它强大的优势,取得不错的效果。 当前使用较多的词向量,诸如GLOVE、Word2Vec、ELMo、BERT。同时,当下自然语言处理领域从某个层面上讲,在训练分类任务的时候可以分成两部分,即特征向量提取部分及对 特征向量操作部分。特征向量提取部分就是利用这些词向量工具,将实验所需要用的文本中 的文字表示成可以进行数学操作的向量。特征向量操作部分也是属于下游任务部分,将向量 输入某些分类器模型进而进行文本分类操作。

Word2Vec是静态的,它只能获取上下文无关的词向量,在下游任务中,如本文幽默文 本中包含很多同一个词语在同一句话中具有不同意思的时候,很容易影响实验的分类效果。 ELMo通过采用Bi-LSTM做encoder来实现上下文相关的,但是它并不是完全双向的模型并 且要预测的下一个词在给定的序列中已经出现,这样训练的词向量效果不一定是最好的。 BERT模型不同于ELMo模型的是,BERT使用Transformer结构作为encoder,这样做的优 势在于它可以具有更深的层数和更好的并行性。BERT模型进一步增加词向量模型泛化能力, 充分描述字符级、词级、句子级甚至句间关系特征,因此它可以解决一字多义问题并且学习 到更深的语义信息。所以,本章幽默分类实验中,使用BERT作为我们的基础特征向量表示。

4.1.2基于多特征融合模型的幽默分类方法

我们通过基于反向翻译的技术,分析出了本次实验的中文文本幽默数据集中主要集中包 含了谐音字特征、结构特征以及词汇词义特征。首先在中文发音中谐音字特征最明显的表现 就是在汉语拼音上,所以在对谐音字特征提取我们借助汉语拼音的特征提取工具,即Pyhton 库中的PyPinyin。在结构特征中我们通过分析发现,具备结构特征的幽默句子几乎都包含谐 音字特征,因为我们汉语中有一种表达方式讲究上下句结构字数相同并且要构成首韵或者尾 韵,所以在这个特征提取方面依然使用提取谐音字的特征提取工具。在词汇词义方面,通常 中文幽默中会借助词汇词义的一字多义或一词多义产生一种字词义的歧义性,从而会产生一 种幽默的表达效果。而BERT提取的特征向量是目前为止效果较好,并且最突出的特点是它 可以捕捉一词多义的现象、上下文相关的词嵌入和其他形式的信息,这对于完成词汇词义歧 义现象有很大帮助。同时,通过第三章的对比结果还可以发现,有些字词在发生歧义的时候, 词性也随之发生了变化。因此,对于词汇词义特征我们采用BERT模型作为基础特征向量提 取工具,同时借助jieba工具对文本词性特征也进行提取。通过以上三部分对特征向量进行 分别提取后,进行特征向量拼接。然后我们将拼接好的特征向量作为输入,输入到BiGRU 模型中。BiGRU模型首先对我们输入的拼接好的特征向量进行降维操作,然后进行深层特 征提取操作,保留重要的特征。最后,将BiGRU模型输出的提取的特征重要信息作为输入, 输入到Softmax层中,Softmax作为一个分类器,输出最终的每类别的分类概率,从而得出 实验分类结果。

4.1.3基于BPH-BiGRU-Softmax模型的方法结构概述

如图13所示,本章幽默分类模型主要包括:文本输入层,BERT-Embedding词嵌入层, 汉语拼音特征嵌入层,文本词性特征嵌入层,特征融合层,BiGRU层以及全连接层,最终由全连接层完成对中文文本幽默的分类输出。

(1)文本输入层

BERT的文本输入层与其他的模型不同,是以句子为输入,接入下一层并转换为向量矩阵。

(2)BERT嵌入层

BERT模型是一个泛化能力较强的预训练模型,也可以作为双向的、深度的文本表示模型。 本嵌入层使用BERT模型做文本表示,将文本输入层输入的句子转换为向量并接入分类层做 分类任务。

BERT的嵌入层包括三部分:Token Embeddings,Segment Embeddings以及Position Embeddings。

Token Embeddings层:要将各个词转换成固定维度的向量。在BERT中,每个词会被转 换成768维的向量表示。

Segment Embeddings:BERT能够处理对输入句子对的分类任务。句子对中的两个句子 被简单的拼接在一起后送入到模型中。在模型中,Segment Embeddings需要区分一个句子对 中的两个句子。

Position Embeddings:可以表示一句话中每个词的位置信息。

BERT模型在文本表示的时候,会在文本输入层给每一句话加上固定的标签符号。在句子开 头加入CLS来表示句子的开始,在句子结尾加入SEP表示句子的结束以及加入句子索引 index。若将文本输入层的其中一个样本句子的每个字用w来表示,那么该句子S可表示为 S={w1,w2,w3,···,wn},n用来表示样本句子的序列长度。通过BERT模型对句子进行向 量表示生成的矩阵V如下图14所示:

(3)汉语拼音嵌入层

Python中提供了汉字转拼音的库,即PyPinyin。它可以用于汉字注音、排序、检索等等 场合,是基于hotto/pinyin这个库开发的。使用汉语拼音进行特征提取的算法步骤如下:

Step1:汉字转拼音

即将我们所要表征的句子中的每个汉字转换为汉语拼音。比如我们想转换“我爱中国” 这句话,那么可以转换为“wo ai zhong guo”这种形式。

Step2:获取唯一字符集

在文本处理的工作中,经常会用到词典(语料库包含的所有词的集合),我们同样需要 先找到这个”词典”(字符集)。每个字符对应一个整数作为他的ID。“字典”的作用就是可 以将字符/词与数字进行互转。

Step3:拼音向量化

基于以上两步的工作,具备了所有形成字向量需要用到的基本条件,将我们所需要转换 的文本进行拼音向量化。

(4)文本词性嵌入层

本次文本词性特征提取使用的jieba工具,它是目前Python社区中最广泛使用的文本处 理工具。具体做法首先导入停用词库,对文本中的句子进行分词操作,然后提取所有词性并 转化为词性特征向量。

(5)特征融合层

为了追踪文本幽默的本源并提升幽默识别的效果,本层将BERT模型提取的特征向量矩 阵与第三章通过反向翻译技术对比得出的汉语拼音特征以及文本词性特征向量进行特征融 合,形成了多特征的模式在深度学习模型中进行训练。若将文本输入层的样本句子经过 BERT模型生成的特征向量矩阵为V,那么与该样本句子对应的领域性特征融合句子的公式 可用公式4.1表示为:

上面公式中,W表示产生的新的特征向量,f

(6)BiGRU层

GRU(Gated Recurrent Unit)是长短时记忆神经网络(LSTM,Long Short-TermMemory) 的一种变体,是为了解决长期记忆和反向传播中的梯度等问题而提出的,和LSTM同属于 循环神经网络(RNN,Recurrent Neural Network)的改进模型。它与LSTM不同的是,GRU 模型只有两个门,即更新门和重置门。也就是图三种的z

BiGRU层主要有前向GRU层和后向GRU层组成,利用正反向神经网络对特征融合层融合 输出的特征向量矩阵W进行上下文学习,对文本进行更深层次的特征提取操作。

(7)Softmax层

Softmax层在机器学习和深度学习中有着非常广泛的应用。在本层Softmax层将上一层 输出的特征转化为判定该标签的概率,即把特征向量映射成概率序列。如果我们将V

4.1.4实验设置与结果分析

(1)实验环境

本次实验配置的硬件运行环境如下表4.1所示:

表4.1实验环境硬件配置表

本次实验配置的软件运行环境如下表4.2所示:

表4.2实验环境软件运行环境

(2)实验性能评价指标

目前,在机器学习及深度学习领域,通常需要建立模型来解决具体的问题,但是鉴别模 型的好坏,即模型的泛化能力,需要使用一些评价指标,比如准确率,召回率,F1值,ROC 以及AUC指标,它们常常应用于信息检索(如搜索引擎)、自然语言处理和检测分类中等任 务中。本文主要采用准确率和F1值作为我们实验评价的主要指标。为使实验更具有公平性, 本文的评价指标结果均取10次实验结果的平均值。

本次实验预测结果与实际结果,使用混淆矩阵表示,可以计算出相应的评价指标,分类结果 关系如下表4.3所示。

表4.3分类结果

1).精确率

精确率是指文本分类预测判断正确的数量与所有预测判断为真的数量之间的比值,即在 被所有预测为正的样本中实际为正样本的概率。大多数情况下精确率越高,模型的性能越好, 公式如下:

2).召回率

召回率是指文本分类预测判断正确的数量与所有真正为真的的文本数量之间的比值,即 在实际为正的样本中被预测为正样本的概率。公式如下:

3).F1值

F1分数即精确率与召回率的调和平均数。在我们训练深度学习模型的时候,往往希望 能够兼顾精确率和召回率,并使用一个统一的单值评价指标来评价我们的深度学习模型的训 练效果。因此,F1值就可以体现出模型性能的好坏。公式如下:

(3)实验语料

本次实验研究语料总共分为两部分,其一是公开语料,其二是自建语料。在第三章介绍 的利用反向翻译对幽默影响的探究是基于公开语料进行的,分析出中文幽默中具有的两个显 著特征,即语音发音特征和词性特征。进行自建语料库的目的是为了验证我们分析出的幽默 特征不是偶然的,而是普遍的,具有普适性的特征。

1)公开语料库

本次实验语料来自第十八届中国计算语言学大会(CCL2019)中的中文幽默语料,该语 料分为两个类别:幽默与非幽默,幽默的标签为1,非幽默的标签为0。语料分为训练集和 测试集,训练集语料16420条语句,测试集语料4105条语句。中文幽默数据集分布表展示参见表4.4。

表4.4中文幽默数据集分布表

本次中文幽默数据集的部分内容展示参见表4.5。

表4.5中文幽默数据集样例

2)自建语料库

本次自己构建的数据集是源自于网上的笑话网站以及段子网站中的文本,利用爬虫技术, 爬取了近2万条数据。由于爬取后的数据有一部分存在书写以及特殊符号亦或者语句问题, 因此通过对数据进行预处理,将其整理成规范的格式,最终我们的自建数据集为12078条数 据。

数据集总共分为了两类,即幽默与非幽默。通过Sklearn库中的随机划分数据集方法, 将整个数据集按照3:1的比例划分为训练集和测试集。

数据集划分情况以及正负例分类情况如表4.6所示。

表4.6数据划分情况表

对数据进行预处理后,实现了除去数据噪声的目的,具体的样例如表4.7所示。

表4.7预处理后数据集样例

(4)实验参数设置

在深度学习的网络结构中,一项核心内容就是参数与超参数,是我们训练深度神经网络 最终要学习的目标。超参数的选择代表着模型的能力,直接影响模型的性能,因此需要大量 时间去调整。在我们实验过程中,常见的超参数大概有学习率、批处理大小、dropout大小、 网络层数、神经元个数、迭代次数等,如表4.8所示。

表4.8模型参数设置表

(5)公开数据集实验结果与分析

1)多特征对中文文本幽默分类的结果影响

本章节实验在基于仅使用BERT的BERT-BiGRU-Softmax模型对文本进行字义特征的提 取的基础上,分别加入了第三章反向翻译技术分析对比的特征,即词性特征和拼音特征。最 后将三个特征融合在一起生成BPH-BiGRU-Softmax模型进行了对比实验,得到的实验数据 结果如下表4.9所示:

表4.9融合不同特征结果对比

从实验结果数据中我们可以看到,单纯基于BERT模型进行字级别的特征提取的准确率 为85.77%,F1值为83.67%。但是我们从第三章分析了现有数据集的中文文本幽默的特征还 有词性特征以及拼音特征,因此,在BERT特征基础上加入了文本词性特征的准确率为 86.46%,F1值为84.17%,准确率较基础BERT特征提高了0.69%。说明在中文文本幽默的 分类识别中,词性特征是一种有效的特征。在BERT特征基础上加入汉语拼音特征,准确率 为86.71%,F1值为84.27%,较前两项实验都有提高,其中准确率较BERT基础特征提高了 近1%,较文本词性特征提高了0.25%。最后将BERT基础特征与词性特征、汉语拼音特征结合在一起,实验结果为最高,准确率和F1值分别为87.09%及84.61%,较BERT-BASE 基础特征结果准确率提高了1.32%,F1值提高了近1%。从表中我们可以看出,不论是准确 率和F1值还是召回率与查准率,在BERT特征基础上都随着加入其它语言特征的加入而稳 步上升。其中我们可以分析出在加入汉语拼音特征之后比加入词性特征之后的结果要好,说 明我们中文文本幽默的很大的一个特点是运用了汉语语言中的谐音的特点来表达幽默。而在三个特征全部融合在一起以后实验结果为最佳。这为以后的中文文本幽默在语言学基础上分 析特征提供了理论与实验基础,验证了模型的有效性。

2)与其他网络模型作对比实验

为了验证本文提出的基于反向翻译技术的多特征融合的分类模型的有效性,在本实验数 据集上与以下经典的网络模型和Khandelwal等人

表4.10实验模型对比结果表

通过上表实验结果,我们可以发现从Khandelwal等人运用的SVM模型到TEXT-RCNN模型的实验准确率逐步提升,其中TEXT-RCNN较SVM方法提高近8.8%,较Chen等人运 用的TEXT-CNN模型提高了近1.2%。通过与我们提出的基于反向翻译的多特征融合的模型 方法相比,本文提出的模型的准确率依然优于TEXT-RCNN模型,较其结果提高4.87%,为 最优模型。说明在本数据集中,普通的模型不能很好的捕获深层次的语义特征进而取得更好 的效果,而本文模型融合了语言学理论的多个幽默特征,追溯了对中文文本识别是否为幽默 的本源,从而提高了幽默分类的实验结果。

3)探究重要模型超参数

在深度学习中,若想要训练一个好的模型,那么需要寻求合适的参数来实现。如果模型 参数选择不当,那么网络模型可能不会发挥出最优的能力,甚至起到相反的效果。比如过拟 合、消耗时间成本过长、收敛能力不好等导致训练结果不尽人意。本小节实验着重探究 Batchsize值对于模型训练的影响效果。

目前,深度学习的数据集体量都较大,如果在样本数量以及内容较多时,一次性训练完所有 的数据不太现实。因此,在训练的过程中,通常采用mini-batch的训练方法。即把整个数据 集每次按照Batchsize个文本数据构成一个batch作为每一步的输入。输出的结果与该批样 本期望值进行比对,利用损失函数计算损失,并更新权重和偏置值,新的参数作为下一个 batch的初始值。这样每一次更新的时候,数据集都不尽相同,都会存在一定的随机性。如 此往复,不断的迭代学习,将网络模型的性能逐渐趋于一个稳定的状态。

通常,Batchsize的值增大到一定程度后,其确定的下降方向基本不再发生变化,如果一味 地增大Batchsize值,会导致占用过大的内存,甚至降低模型的泛化能力。若Batchsize值较 小,那么它很容易难以收敛。

实验基于BPH-BiGRU-Softmax模型,数据集为本章幽默数据集,对Batchsize分别设置 不同的数值来探究对模型的影响情况,实验结果折线图如图15所示。

由图表可以清晰的看出,当设置Batchsize值为1时,需要的时间最长,大大增加了时间的 成本,并且准确率表现也不理想。当Batchsize的值达到64时,即使消耗的时间较少,但是 准确率已经开始呈下降趋势。当设置Batchsize值超过64时,由于机器的内存有限,数据集 过大导致机器超出负载。因为每一个batch的数据集具有差异性,容易导致每一次迭代以后, 得到的梯度无法修正,所以如何在合理的范围内选取一个合适的Batchsize值并且可以平衡 效果与时间成本就显得尤为重要。也就是实验常用的批梯度下降法。在实验时,采集合适的 样本规模,不仅可以减少实验所用的时间成本、提高机器的内存使用率,还能找到更准确的 下降方向,以降低模型的震荡幅度。通过本节实验,当Batchsize的值选取32时,同时兼顾 时间成本以及实验的准确率达到最佳状态。

4)不同数据增强技术对比实验

基于反向翻译技术不仅可以通过将翻译回源语言的数据集与原数据集集合语言学进行 对比从而识别笑点,反向翻译技术同样可以作为很出色的数据增强技术对原数据集进行增广 进而提高模型的鲁棒性和泛化能力,从而得到更好的分类效果。目前,比较主流的数据增强 技术包括基于句子级别的反向翻译技术和基于词语级别的EDA技术。其中,EDA技术是指 对原数据集中的句子进行词语的随机替换,随机删除,随机插入以及随机交换的操作。在各 大数据集也都取得了不错的效果。因此,本章节同样将对数据增强技术做对比实验。具体的 做法就是,将通过两个不同的方法对数据进行数据增强,然后与原数据集合并形成一个新的 数据集,并将新数据集输入到模型中,从而进行对中文文本幽默的分类实验。

使用反向翻译技术与EDA数据增强技术的句子示例如表4.11所示。

表4.11数据增强句子示例

本节实验将两种数据增强方法分别都进行15%的数据增广。实验结果如表4.12所示。

表4.12不同数据增强对比实验结果表

从表中实验结果可以看出,反向翻译数据增强技术应用在幽默分类中略好于EDA数据 增强技术,同时,较本文模型在不使用数据增强技术的情况下,在准确率与F1值上分别提 高了0.44%和0.4%。通过分析其中的潜在原因,可能是在于本文的中文幽默数据集中,通 过反向翻译后改变了数据的原本结构并且增强了语义多样性,与EDA技术相比,产生了更 小的噪声,可以使机器自动的与原句对比学习,更好的增加了模型的鲁棒性和泛化能力。 (6)自建数据集实验结果与分析

由于本次对幽默分类的研究是面向中文的,通过对CCL2019中的公开中文幽默语料反 向翻译以及语言学幽默理论的对比中发现,中文幽默的两个显著特征,即语音特征以及词性 特征,在CCL2019公开中文幽默数据集中已经经过实验验证是有效的,为了继续验证分析 出的这两个显著特征是具有普适性的。因此,本节实验对自己构建的数据集进行了实验分析。 1)多特征对中文文本幽默分类的结果影响

与在公开数据集进行多特征实验影响探究一样,本节主要对自建数据集对比多特征的影 响探究来分析。具体的实验参数与公开数据集一样。实验模型同样采用 BERT-BiGRU-Softmax为基础模型,逐步对于模型加入特征并进行特征融合生成 BPH-BiGRU-Softmax模型。本节自建数据集实验结果如表4.13所示。

表4.13自建数据集实验结果

从实验结果表可以明显的看出,基于基础特征模型BERT的准确率为97.43,F1值为97.33。在加入第一个特征——词性特征并进行特征融合之后,准确率和F1值较基础特征模型BERT分别提高0.14%和0.18%。在加入第二个特征——拼音特征并进行特征融合后,准确率和F1值较基础特征模型BERT分别提高0.17%和0.21%。这两个特征对于特征融合都是有效的。在进行基础特征BERT与词性特征和拼音特征三者融合后,准确率和F1值均达 到了最佳状态,分别为97.89%和97.85%,较基础特征模型BERT准确率和F1值分别提升0.46%和0.52%。三者特征融合优势明显,效果突出,验证了特征方法的有效性。

2)与其他网络模型作对比实验

为了验证本文提出的基于反向翻译技术的多特征融合的分类模型的有效性,在本节自建 数据集的实验依然与以下经典的文本情感分类常用的网络模型,如TEXT-RNN、TEXT-RCNN、DPCNN等网络模型,并且和Khandelwal等人

表4.14实验模型对比结果表

通过上表对比实验结果,我们可以清楚的发现从SVM模型到TEXT-CNN模型的实验准确率结果逐步提高。其中,SVM模型为机器学习在文本情感分类任务中的经典模型,其 后的模型都为深度学习在文本情感分类任务中的经典模型。深度学习模型TEXT-CNN的准 确率比机器学习模型SVM提高4.76%,随着模型的复杂程度提高,实验准确率的效果越高,TEXT-CNN模型达到94.34%。但是同本文提出的BPH-BiGRU-Softmax模型的准确率相比, 本文提出的模型的准确率大大超过了以上经典的网络模型以及在幽默文本分类中常见的网络模型的结果,较TEXT-CNN模型准确率提高了3.36%,为本自建数据集的最优模型。 此实验结果说明,本文提出的模型方法以及通过反向翻译技术对比大量的数据集分析出的特征在自建数据集上也适用,表明本文提出的模型以及特征在中文幽默分类任务中具有普适性, 可以实现较好的实验结果。

3)探究重要模型超参数

与在公开数据集的重要参数探究一样,在自建数据集上同样存在batchsize的大小对于 模型性能影响的问题。若数据集比较小,完全可以采用全数据集(Full BatchLearning)的 形式,优势在于由全数据集确定的方向能够更好地代表样本总体,从而更准确地朝向极值所 在的方向并且由于不同权重的梯度值差别巨大,因此选取一个全局的学习率很困难。不过因 自建数据集较大,因此,需要对batchsize具体的选值进行实验调节。下图16为自建数据集 上不同batchsize值的实验结果。

通过上面的实验对比图可以看出,不同的barchsize值对于模型运行的时间以及模型的 准确率存在较大差异。总体来看,随着batchsize值的逐渐增大,从1到256,模型运行的时 间逐渐较小。不过,模型运行的时间只是训练模型任务中一个方面,模型的准确率才是重中 之重。因此,batchsize是否合适还要同时考虑模型的准确率的表现。由图可以明显的看出, batchsize在设为32的时候,准确率为最高值,表现最好,同时,模型运行的时间也在可以 接纳的范围中,因此,在本自建数据集上,batchsize的值依然选择32作为模型重要参数。 (4)不同数据增强技术对比实验

本小节实验依然采用反向翻译的数据增强技术与EDA数据增强技术做对比,验证适用 于本节中文文本幽默分类的数据增强方法。为确保公平性,对于数据集数据增广比例都设定 在15%,具体实验结果如表4.15所示。

表4.15不同数据增强对比实验结果表

通过上表可以看出,反向翻译的数据增强技术依然略好于EDA数据增强技术,较本文 提出的模型方法在不使用数据增强的情况下,在准确率与F1值上分别提高了0.33%和0.35%。 由于EDA对数据增广为随机增删、替换及移位,会存在一些噪声并且本数据集体量较大, 对EDA性能有一定限制。相比较反向翻译技术在这些弊端限制就少一些,反向翻译可以改 变句子的表述结构、方式,使增强后的数据可以有异于原语句的结构,有时可以在改变语法 结构的情况下保留正确的语义信息,增加了文本语料库的数据多样性,更好的增加了模型的 鲁棒性和泛化能力。

4.1.5本章小结

本章提出了以BERT词向量作为基础向量,通过第三章反向翻译技术分析出的本数据集 所具有的幽默特征,利用拼音以及词性特征提取工具提取出拼音特征向量与词性特征向量, 并与BERT词向量相融合表示文本的信息,然后在此基础上利用通过双向门限循环神经网络 (BiGRU)对特征信息进行深层次提取,实现网络模型对于文本特征信息的深层理解,最 后输入到Softmax分类器中完成中文文本幽默分类的实验,提出了BPH-BiGRU-Softmax模 型。首先介绍了实验的配置环境以及性能评价指标,然后对实验所用到的公开数据集以及自 建数据集进行详细的介绍。而后详细的介绍了实验参数设置。最后,在公开数据集以及自建 数据集上进行实验对比与相关分析。实验结果表明,我们提出的基于BERT词向量的三种特 征融合方法较基础特征模型BERT在公开数据集与自建数据集上均有大幅提升,效果明显。 并且与最近其他做幽默分类的学者提出的利用支持向量机(SVM)和TEXT-CNN模型做了 比较,我们的结果都大幅优于这些模型。同时在公开数据集上也利用了反向翻译技术与今年 较流行的EDA数据增强技术做了比对与分析。实验结果表明我们的方法都是有效的。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号