技术领域
本发明属于自然语言处理技术领域,具体涉及一种基于多样深层主题模型的文本分析方法。
背景技术
随着移动互联网与信息技术的飞速发展,大数据时代已然到来。在浩繁的网络中的海量数据亟待有效的处理与分析方法。尤其是文本类型的数据,往往包含着巨大的信息量,政府、企业与个人对于智能文本分析的需求日益增长,因此自然语言处理技术得以进一步发展。其中,主题模型作为一种文本挖掘方法,能够有效地提取文本特征,发现文本数据中潜在语义主题,被广泛应用于机器学习与数据挖掘领域的文本分析任务中,如文本聚类、热点挖掘、情感分析、信息检索、推荐系统等。目前,现有的主题模型主要都是基于一种经典的模型,即潜在狄利克雷分布(Latent Dirichlet Allocation,LDA),结合应用领域及其数据特性进行相应的扩展研究,提出了各种不同的主题模型。同时,吉布斯采样方法被广泛应用于主题模型的参数学习与变量推断。
现有方法存在不足之处:LDA主题模型不能用于提取深层语义特征主题,难以进行层次化文本分析,现有的深层主题模型虽然能够提取深层特征,但是提取出的高层主题多样性较差,对高层语义特征的表达能力有限,影响层次化特征提取效果,导致后续的文本分类等任务性能较差;并且,采用传统吉布斯采样方法对深层主题模型进行训练,其计算量较大、收敛速度较慢,现有收敛速度较快的改进吉布斯采样方法则不适用于需要进行在线训练的大数据场景,难以并行训练,实用性有限。
西安电子科技大学在其申请的专利文献“基于变分自编码模型的文本深度特征提取方法”(专利申请号201810758180.8,公开号109145288A)中公开了一种基于变分自编码模型的文本深度特征提取方法。该方法构建了可用于提取深层主题关键词的变分自编码推理模型,将输入文档作为训练数据和测试数据,提取两层主题关键词作为对应的文本深度特征提取结果。该方法存在的不足之处是,虽然可以提取出文本深层次特征,但是随着层数加深,提取出的主题关键词相似性较高、多样性较差,不具备较好的可分性,会影响后续的文本分析能力。
南京大学在其申请的专利文献“一种LDA主题模型优化采样方法”(专利申请号201810493178.2,公开号108763207A)中公开了一种LDA主题模型优化采样方法。该方法利用分解吉布斯采样公式、构建AliasTable和累积分布的方法,实现一次构建多次采样,提升了LDA主题模型训练学习的收敛速度。但是,该方法需要一次性输入文本数据进行采样以学习主题模型的参数,当数据量较大时,由于现在计算机硬件计算能力的限制,难以进行并行训练,不适于大数据场景,实用性有限。
发明内容
为了解决现有技术中存在的上述问题,本发明提供了一种基于多样深层主题模型的文本分析方法。本发明要解决的技术问题通过以下技术方案实现:
一种基于多样深层主题模型的文本分析方法,包括:
构建文本数据的训练样本集与测试样本集;
根据所述训练样本集构建多样深层主题模型,并初始化所述多样深层主题模型的初始模型参数;
根据所述训练样本集训练多样深层主题模型得到训练模型参数,并根据训练模型参数更新所述初始模型参数得到训练后多样深层主题模型;
根据所述测试样本集训练所述训练后多样深层主题模型得到若干测试隐层特征;
根据所述若干测试隐层特征对所述文本数据进行可视化分析,得到若干文本主题;
根据所述若干文本主题、所述训练样本集、所述测试隐层特征与所述测试后多样深层主题模型对所述文本数据进行分类。
在本发明的一个实施例中,根据所述训练样本集构建多样深层主题模型,并初始化所述多样深层主题模型的初始模型参数,所述初始模型参数为隐层特征,包括:
根据所述多样深层主题模型得到若干所述多样深层主题模型的隐层特征,所述多样深层主题模型的隐层特征包括多样隐变量和共享隐变量;
初始化若干所述多样隐变量和所述共享隐变量。
在本发明的一个实施例中,根据所述训练样本集训练多样深层主题模型得到训练模型参数,并根据训练模型参数更新所述初始模型参数得到训练后多样深层主题模型,所述训练模型参数为训练隐层特征,包括:
将所述训练样本集分为若干训练数据集;
若干所述训练数据集在多样深层主题模型中进行若干次分析,得到若干训练模型参数;
根据所述若干训练模型参数更新所述初始模型参数,得到训练后多样深层主题模型。
在本发明的一个实施例中,根据所述训练样本集、所述测试隐层特征与所述测试后多样深层主题模型对所述文本数据进行分类,包括:
根据所述训练样本集、所述若干文本主题以及测试隐层特征的带训练支持向量机分类;
根据所述训练支持向量机分类对测试样本集进行分类,得到预测文本类别标签;
将预测样本集的类别标签与预测文本类别标签作对比,得到文本分类正确率,并完成对测试样本集的分类。
本发明的有益效果:
本发明通过提取文本数据的深层特征,从各个层次进行文本分析,使得本发明提取的隐层特征信息更充分,更能全面反映文本数据特性,提高了文本分类等任务的性能;本发明在多样深层主题模型中提出了共享隐变量和多样隐变量,分别用于表征文本对应的公共主题特征与多样主题特征,可以提取出多样性较好的主题,克服了现有深层主题模型提取出主题关键词相似性较高、多样性较差的问题,使得本发明提取出的文本主题具备叫好的可分性,提高后续文本分析能力;本发明采用了随机梯度马尔科夫蒙特卡洛采样方法,使得本模型可以适用于大数据场景,较快地对模型进行并行训练,提高了模型实用性。
以下将结合附图及实施例对本发明做进一步详细说明。
附图说明
图1是本发明实施例提供的一种基于多样深层主题模型的文本分析方法的步骤框图;
图2是本发明实施例提供的一种基于深层主题模型的文本分析方法的文本数据的第一层可视化主题的仿真图;
图3是本发明实施例提供的一种基于多样深层主题模型的文本分析方法的文本数据的第三层可视化主题的仿真图;
图4是本发明实施例提供的一种基于多样深层主题模型的文本分析方法的用于验证层次化特征可分性的仿真图。
具体实施方式
下面结合具体实施例对本发明做进一步详细的描述,但本发明的实施方式不限于此。
请参见图1,图1是本发明实施例提供的一种基于多样深层主题模型的文本分析方法的步骤框图,包括:
构建文本数据的训练样本集与测试样本集;
根据所述训练样本集构建多样深层主题模型,并初始化所述多样深层主题模型的初始模型参数;
根据所述训练样本集训练多样深层主题模型得到训练模型参数,并根据训练模型参数更新所述初始模型参数得到训练后多样深层主题模型;
根据所述测试样本集训练所述训练后多样深层主题模型得到若干测试隐层特征;
根据所述若干测试隐层特征对所述文本数据进行可视化分析,得到若干文本主题;
根据所述若干文本主题、所述训练样本集、所述测试隐层特征与所述测试后多样深层主题模型对所述文本数据进行分类。
进一步地,构建文本数据的训练样本集与测试样本集时,从训练样本集中选取篇文档作为输入文档,对输入数据做预处理,得到N篇输入文档分别对应的词袋向量;将N篇文档的词袋向量划分为两部分,其中70%的词袋向量组成训练样本集,其余词袋向量组成测试样本集。
上述的预处理操作包括:
第1步,统计N篇文档中出现的所有单词总个数,记为M个单词:
M=M
其中,M
第2步,对于第1步获取到的M个单词,合并M
所述合并M
保留M
所述合并M
保留M
在时态动词,得到M
第3步,统计词典中的
其中,X
进一步地,根据所述训练样本集构建多样深层主题模型时,设定该多样深层主题模型的总隐层数为L层,第l层的隐层特征维度为K
按照下式确定每一层的多样隐变量参数矩阵
其中,
按照下式确定每一层的共享隐变量参数矩阵:
其中,
所述的第l层多样隐变量伽玛分布的形状参数S
其中,μ
设定该多样深层主题模型的输入数据x服从以下分布:
其中,Pois(·)为泊松分布。
本发明通过提取文本数据的深层特征,从各个层次进行文本分析,使得本发明提取的隐层特征信息更充分,更能全面反映文本数据特性,提高了文本分类等任务的性能;本发明在多样深层主题模型中提出了共享隐变量和多样隐变量,分别用于表征文本对应的公共主题特征与多样主题特征,可以提取出多样性较好的主题,克服了现有深层主题模型提取出主题关键词相似性较高、多样性较差的问题,使得本发明提取出的文本主题具备叫好的可分性,提高后续文本分析能力;本发明采用了随机梯度马尔科夫蒙特卡洛采样方法,使得本模型可以适用于大数据场景,较快地对模型进行并行训练,提高了模型实用性。
在本发明的一个实施例中,根据所述训练样本集构建多样深层主题模型,并初始化所述多样深层主题模型的初始模型参数,所述初始模型参数为隐层特征,步骤包括:
根据所述多样深层主题模型得到若干所述多样深层主题模型的隐层特征,所述多样深层主题模型的隐层特征包括多样隐变量和共享隐变量;
初始化若干所述多样隐变量和所述共享隐变量。
进一步地,在初始化多样深层主题模型的初始模型参数时,设置多样深层主题模型的隐层数为3层,第1层隐层特征的维度K
1.初始化每一层的多样隐变量参数矩阵
首先,初始化每个隐层的多样隐变量伽玛分布的形状参数S
(1)设置用于调节语义主题与公共项主题的调节常数因子;
μ
(2)对每个隐层的多样全局变量矩阵
其中,
(3)对顶层(即第3层)的多样隐变量伽玛分布的形状参数
其中,γ
γ
接着,初始化每一层的多样隐变量伽玛分布的幅度参数A
(1)对第一层的多样隐变量伽玛分布的幅度参数A
A
其中,p参数通过贝塔分布进行初始化:
p~Beta(0.01,0.01);
(2)对第二层、第三层的多样隐变量伽玛分布的幅度参数a
1/A
2.初始化每一层的共享隐变量参数矩阵θ
对于第一层、第二层、第三层,对共享隐变量伽玛分布的形状参数a
在本发明的一个实施例中,根据所述训练样本集训练多样深层主题模型得到训练模型参数,并根据训练模型参数更新所述初始模型参数得到训练后多样深层主题模型,所述训练模型参数为训练隐层特征,步骤包括:
将所述训练样本集分为若干训练数据集;
若干所述训练数据集在多样深层主题模型中进行若干次分析,得到若干训练模型参数;
根据所述若干训练模型参数更新所述初始模型参数,得到训练后多样深层主题模型。
进一步地,根据训练文本集获取用于训练多样深层主题模型的迷你块数据集:随机打乱训练数据集,并将训练数据集划分成单个样本数为200个的迷你块数据集,若剩余的样本数不足200个,则这部分剩余的样本数据将不被划分至迷你块数据集中。
设置迷你块数据集扫描总次数为8000次,对划分好的迷你块数据集进行逐个扫描,设置每个迷你块数据集的循环训练次数均为40次。在对每一个迷你块数据集的每一次循环训练中的具体步骤如下:
1.获取模型中的局部参数;
(1)通过下式得到第l层的二维层间增广多样矩阵
其中,w,g分别为矩阵下标编号,w=1,2,...,K
(2)通过下式得到第l层的三维增广矩阵T
其中,w,g,h分别为矩阵下标编号,w,g如(1),h=1,2,...,K
(3)通过下式得到第l层与第l+1层之间的二维层间增广矩阵x
其中,CRT为中国餐馆过程中的最大餐桌分布,
(4)利用下式对c
其中,Y=1,...,K
(5)利用下式对γ
其中,~为等价关系,W=1,...,K
(6)利用下式对
其中,g=1,...,N,~为等价关系;
(7)利用下式对
其中,~为等价关系,g=1,...,N;
(8)利用下式得到
(9)通过下式采样得到第l层的共享隐变量
(10)通过下式采样得到第l层的多样隐变量
2.由下向上逐层训练,更新模型中的全局参数;
对多样深层主题模型的各个隐层按第1个、第2个、第3个隐层的顺序进行训练,即由底层向顶层逐层训练;在训练第l层(l=1,2,3)时,根据迷你块数据集的200个样本,首先更新该层的多样全局变量矩阵Φ
(1)利用下式得到第l层一维多样期望矩阵
其中,t为第t个迷你块数据集,
(2)利用下式得到第l层一维共享期望矩阵
(3)利用下式对第l层多样全局参数
其中,D=1,...,K
(4)利用下式对第l层共享全局参数
其中,
(5)利用下式计算得到中间向量
(6)利用下式得到顶层一维多样期望矩阵M
其中,j=1,...,,N;
(7)利用下式对顶层全局参数r
其中,j=1,...,N,
进一步地,根据所述测试样本集训练所述训练后多样深层主题模型得到若干测试隐层特征。
由顶层向底层逐层更新网络的局部参数,具体更新步骤如下:
(1)通过下式得到第l层的二维层间增广多样矩阵
其中,w,g分别为矩阵下标编号,w=1,2,...,K
(2)通过下式得到第l层的三维增广矩阵T
其中,w,g,h分别为矩阵下标编号,w,g如(1),h=1,2,...,K
(3)通过下式得到第l层与第l+1层之间的二维层间增广矩阵x
其中,CRT为中国餐馆过程中的最大餐桌分布;
(4)利用下式对c
其中,Y=1,...,K
(5)利用下式对γ
其中,~为等价关系,W=1,...,K
(6)利用下式对
其中,g=1,...,N,~为等价关系;
(7)利用下式对
其中,~为等价关系,g=1,...,N;
(8)利用下式得到
(9)通过下式采样得到第l层的共享隐变量
(10)通过下式采样得到第l层的多样隐变量
判断测试循环次数是否达到预设的K=200次,如果是,则测试阶段完成,保存该次循环更新获取的参数用于文本分类时对分类器的训练,进入步骤7;否则,保存该次测试循环过程中更新的参数并作为下次测试的初始值,返回到步骤5。
进一步地,根据所述若干隐层特征对所述训练模型参数行可视化分析;
下面给出模型主题可视化流程:
第一步:确定第一层主题。将第一层学习得到的多样全局变量矩阵借助BOG编码方式,映射到语音区间,多样全局变量的每个列向量对应一个主题,每个主题在语音区间对应的词语按照在该向量值的大小从大到小进行排序,按照这个顺序把各个主题中的词进行展示,便组成了第一层的主题。
第二步:模型第二层与第三层主题,是借助下式:
得到
在本发明的一个实施例中,根据所述若干文本主题、所述训练样本集、所述测试隐层特征与所述测试后多样深层主题模型对所述文本数据进行分类,包括:
根据所述训练样本集、所述若干文本主题以及测试隐层特征的带训练支持向量机分类;
根据所述训练支持向量机分类对测试样本集进行分类,得到预测文本类别标签;
将预测样本集的类别标签与预测文本类别标签作对比,得到文本分类正确率,并完成对测试样本集的分类。
下面结合仿真实验对本发明做进一步的描述。
1.仿真条件:
本发明的仿真实验中所用的数据库包含20组不同类别的新闻数据,共包含18845篇文档,对应的词表大小为61188。其中训练样本集包含11315篇新闻文档,测试样本集包含7530篇新闻文档。
2.仿真内容与结果分析:
本发明的仿真实验包括两个,仿真实验1是用于验证本发明方法可以提取出文本数据的层次化主题,并且其中高层主题具备多样性。仿真实验2是用于验证本发明方法得到的数据的隐层特征具有更好的可分性。
仿真实验1是用本发明的方法与现有技术即潜在狄利克雷分布模型分别对仿真条件中所述的新闻数据集进行层次化特征提取。分别得到两种方法中第一层主题与第三层的多样主题特征,其可视化结果如图2与图3所示。图2、图3均为当前层的第i组主题。
由图2、图3可以看出,本发明方法可以得到更加多样,具有更加丰富语义信息的主题。
仿真实验2是用本发明的方法对仿真条件中所述的新闻数据集进行深层特征提取得到的隐层特征,经过SVM进行分类,在模型的各个不同维度下得到的分类准确率结果,以及与现有方法潜在狄利克雷分布模型(LDA)、深层潜在狄利克雷分布模型(DLDA)的对比。其中潜在狄利克雷分布模型是单层模型,其隐层维度与深层潜在狄利克雷分布模型与深层多样潜在狄利克雷分布模型的第一层隐层维度相同。由图4可以看出,本发明方法可以得到可分性更好的隐层特征。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
机译: 基于主题模型的联想词分析方法,电子仪器和存储介质
机译: 用于开发单语文档的基于计算机的系统和方法基于计算机的系统,用于翻译外语源中的文本输入,并且基于计算机的单,多语翻译方法涉及用于翻译语言源中的文本的计算机。一种基于计算机的语言开发方法用于文档开发单,多语言翻译和领域模型三方
机译: 基于输入文本的标记,处理和/或重新格式化的文本分析方法和系统