公开/公告号CN114969312A
专利类型发明专利
公开/公告日2022-08-30
原文格式PDF
申请/专利权人 特赞(上海)信息科技有限公司;
申请/专利号CN202210638181.5
申请日2022-05-30
分类号G06F16/34(2019.01);G06F16/35(2019.01);G06F16/33(2019.01);G06F40/253(2020.01);G06F40/216(2020.01);G06N20/00(2019.01);
代理机构北京知果之信知识产权代理有限公司 11541;
代理人高科
地址 200000 上海市浦东新区中国(上海)自由贸易试验区张衡路200号2幢3层
入库时间 2023-06-19 16:33:23
法律状态公告日
法律状态信息
法律状态
2022-09-16
实质审查的生效 IPC(主分类):G06F16/34 专利申请号:2022106381815 申请日:20220530
实质审查的生效
技术领域
本发明涉及营销案例技术领域,具体涉及一种基于变分自编码器的营销案例主题提取方法及系统。
背景技术
面对海量的营销案例,挖掘其语义分布并建立关联是对案例内容的有效挖掘手段,传统的判断文档的关联度只是通过查看文档共同出现的关键词的数量,很有可能在文档中出现的共同关键词很少,甚至没有。但是实际上,文档却又是关联的。因此,文档之间的关联度不仅仅取决于字面上关键词的重复度,还取决于关键词背后的语义关联。而主题模型对关键词语义关联的挖掘,可以让搜索更加智能化。主题提取方法被称为主题提取模型,目前,传统的主题模型(topic model)是以非监督的方式对文集的隐含语义结构(latentsemantic structure)进行聚类(clustering)的统计模型。传统基于统计的方式有LDA(Latent Dirichlet Allocation),其作用是可以对文档进行N类聚类,并输出每个类别下对该类别贡献最大的词。该传统方法仅以统计的方式计算文本字符特征,没有考虑文本上下文语义,其对简单的领域语料(如新闻领域)可以做到不错的主题区分,但是,当案例主题粒度复杂时(如面对营销领域案例文本),其主题不能很好的独立区分。
综上所述,现有的主题提取模型存在无法考虑文本上下文语义以及当案例主题粒度复杂时,主题不能很好独立区分的问题。
发明内容
本发明实施例的目的在于提供一种基于变分自编码器的营销案例主题提取方法及系统,用以解决现有的主题提取模型存在无法考虑文本上下文语义以及当案例主题粒度复杂时,主题不能很好独立区分的问题。
为实现上述目的,本发明实施例提供一种基于变分自编码器的营销案例主题提取方法,方法包括以下步骤:
获取营销案例语料文本,同时对营销案例语料文本中每条文本数据进行词袋BOW特征处理和上下文语义向量特征处理;
将特征处理后的文本数据载入到主题提取模型中,利用特征处理后的文本数据对主题模型M进行训练;
使用训练好的主题模型M输出所有主题或使用训练好的主题模型M输出每条文本的主题。
进一步地,在进行词袋BOW特征处理之前,还包括:
统计营销案例语料文本中所有的词汇,并建立随机索引字典;
对每条文本数据建立N维的全0向量d,统计对应文本中的每个词的词频,每个词通过索引字典后得到对应词在向量d中的索引位置i,并将向量d的索引位置i的0替换为f,得到向量d作为对应文本文本的词袋BOW特征。
进一步地,在进行上下文语义向量特征处理之前,还包括:
使用中文预训练语言模型提取每条文本稠密的语义特征c,得到对应的向量c。
进一步地,将特征处理后的文本数据载入到主题提取模型中,利用特征处理后的文本数据对主题模型M进行训练的具体过程包括:
通过拼接向量d和向量c得到向量h;
将向量h经过主题模型线性层得到对应文本的特征分布,表现为均值u和方差d;
在均值u和方差d的分布模式下,通过对分布模式采样得到新的特征表示k;
将特征表示k经过模型解码器,解码器通过解码特征表示k在主题矩阵beta上的分布分数,得到重构后的词袋特征d
重复执行上述步骤,直至误差损失收敛下降到最低点后结束循环,主题模型M训练结束。
进一步地,使用训练好的主题模型M输出所有主题具体过程包括:
在主题模型M中提取主题矩阵beta,对主题矩阵beta进行解码,得到所有主题和贡献最高的词汇。
进一步地,使用训练好的主题模型M输出每条文本的主题具体过程包括:
将向量d和向量c载入主题模型M,得到对应文本在主题矩阵beta上的得分s,取s分数最大的索引为营销案例语料文本的主题类型。
一种基于变分自编码器的营销案例主题提取系统,所述系统包括:
处理模块,用于获取营销案例语料文本,同时对营销案例语料文本中每条文本数据进行词袋BOW特征处理和上下文语义向量特征处理;
训练模块,用于将特征处理后的文本数据载入到主题提取模型中,利用特征处理后的文本数据对主题模型M进行训练;
输出模块,用于使用训练好的主题模型M输出所有主题或使用训练好的主题模型M输出每条文本的主题。
进一步地,所述处理模块还包括:
索引字典生成单元,统计营销案例语料文本中所有的词汇,并建立随机索引字典;
词袋BOW特征构建单元,对每条文本数据建立N维的全0向量d,统计对应文本中的每个词的词频,每个词通过索引字典后得到对应词在向量d中的索引位置i,并将向量d的索引位置i的0替换为f,得到向量d作为对应文本文本的词袋BOW特征。
进一步地,所述处理模块还包括:
向量生成单元,使用中文预训练语言模型提取每条文本稠密的语义特征c,得到对应的向量c。
进一步地,所述训练模块还包括:
向量拼接单元,通过拼接向量d和向量c得到向量h;
特征分布获取单元,将向量h经过主题模型线性层得到对应文本的特征分布,表现为均值u和方差d;
分布模式采样单元,在均值u和方差d的分布模式下,通过对分布模式采样得到新的特征表示k;
词袋特征误差损失计算单元,将特征表示k经过模型解码器,解码器通过解码特征表示k在主题矩阵beta上的分布分数,得到重构后的词袋特征d
其中,重复执行上述的各单元的处理动作,直至误差损失收敛下降到最低点后结束循环,主题模型M训练结束。
本发明实施例具有如下优点:
1.本发明通过获取营销案例语料文本,同时对营销案例语料文本中每条文本数据进行词袋BOW特征处理和上下文语义向量特征处理;将特征处理后的文本数据载入到主题提取模型中,利用特征处理后的文本数据对主题模型M进行训练;使用训练好的主题模型M输出所有主题或使用训练好的主题模型M输出每条文本的主题。解决了现有的主题提取模型存在无法考虑文本上下文语义以及当案例主题粒度复杂时,主题不能很好独立区分的问题。
2.本申请结合预训练语言模型兼顾了文本的上下文信息,补充了基于统计的主题模型在语义表达上的不足,对比传统主题提取模型,本申请使得最终得到的主题词汇在语义上更加连贯,主题之间更加独立。
3.本申请利用变分自编码器在分布特征上的学习特点将主题归类问题转化成自监督特征表示学习问题,基于自监督的主题提取模型不需要标注语料,节约了人工标注成本。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。
图1为本发明实施例提供的一种基于变分自编码器的营销案例主题提取方法的方法流程图;
图2为本发明实施例提供的一种基于变分自编码器的营销案例主题提取系统的系统的框架图;
图3为本发明实施例提供的一种基于变分自编码器的营销案例主题提取系统中处理模块的框架图;
图4为本发明实施例提供的一种基于变分自编码器的营销案例主题提取系统中训练模块的框架图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
结合图1说明本实施方式,本实施方式的一种基于变分自编码器的营销案例主题提取方法,方法包括以下步骤:
获取营销案例语料文本,同时对营销案例语料文本中每条文本数据进行词袋BOW特征处理和上下文语义向量特征处理;
将特征处理后的文本数据载入到主题提取模型中,利用特征处理后的文本数据对主题模型M进行训练;
使用训练好的主题模型M输出所有主题或使用训练好的主题模型M输出每条文本的主题。
本实施方式中通过获取营销案例语料文本,同时对营销案例语料文本中每条文本数据进行词袋BOW特征处理和上下文语义向量特征处理;将特征处理后的文本数据载入到主题提取模型中,利用特征处理后的文本数据对主题模型M进行训练;使用训练好的主题模型M输出所有主题或使用训练好的主题模型M输出每条文本的主题。解决了现有的主题提取模型存在无法考虑文本上下文语义以及当案例主题粒度复杂时,主题不能很好独立区分的问题。
本实施方式可丰富下游任务,如:基于主题特征的文档相似度计算、提取为文档主题贡献程度高的词汇为关键词。
本实施方式完成对营销案例主题提取后,可以根据每个文档中分词的特征表示之间的余弦度量距离来提取能表示该文档主题的关键词。
优选实施例中,本实施方式在进行词袋BOW特征处理之前,还包括:
统计营销案例语料文本中所有的词汇,并建立随机索引字典;
对每条文本数据建立N维的全0向量d,统计对应文本中的每个词的词频,每个词通过索引字典后得到对应词在向量d中的索引位置i,并将向量d的索引位置i的0替换为f,得到向量d作为对应文本文本的词袋BOW特征。
优选实施例中,本实施方式在进行上下文语义向量特征处理之前,还包括:
使用中文预训练语言模型提取每条文本稠密的语义特征c,得到对应的向量c。
优选实施例中,本实施方式将特征处理后的文本数据载入到主题提取模型中,利用特征处理后的文本数据对主题模型M进行训练的具体过程包括:
通过拼接向量d和向量c得到向量h;
将向量h经过主题模型线性层得到对应文本的特征分布,表现为均值u和方差d;
在均值u和方差d的分布模式下,通过对分布模式采样得到新的特征表示k;
将特征表示k经过模型解码器,解码器通过解码特征表示k在主题矩阵beta上的分布分数,得到重构后的词袋特征d
重复执行上述步骤,直至误差损失收敛下降到最低点后结束循环,主题模型M训练结束。
优选实施例中,本实施方式使用训练好的主题模型M输出所有主题具体过程包括:
在主题模型M中提取主题矩阵beta,对主题矩阵beta进行解码,得到所有主题和贡献最高的词汇。
优选实施例中,本实施方式使用训练好的主题模型M输出每条文本的主题具体过程包括:
将向量d和向量c载入主题模型M,得到对应文本在主题矩阵beta上的得分s,取s分数最大的索引为营销案例语料文本的主题类型。
实施例2
结合图2至图4说明本实施方式,本实施方式的一种基于变分自编码器的营销案例主题提取系统,所述系统包括:
处理模块10,用于获取营销案例语料文本,同时对营销案例语料文本中每条文本数据进行词袋BOW特征处理和上下文语义向量特征处理;
训练模块20,用于将特征处理后的文本数据载入到主题提取模型中,利用特征处理后的文本数据对主题模型M进行训练;
输出模块30,用于使用训练好的主题模型M输出所有主题或使用训练好的主题模型M输出每条文本的主题。
本实施方式中通过获取营销案例语料文本,同时对营销案例语料文本中每条文本数据进行词袋BOW特征处理和上下文语义向量特征处理;将特征处理后的文本数据载入到主题提取模型中,利用特征处理后的文本数据对主题模型M进行训练;使用训练好的主题模型M输出所有主题或使用训练好的主题模型M输出每条文本的主题。解决了现有的主题提取模型存在无法考虑文本上下文语义以及当案例主题粒度复杂时,主题不能很好独立区分的问题。
优选实施例中,本实施方式所述处理模块10还包括:
索引字典生成单元101,统计营销案例语料文本中所有的词汇,并建立随机索引字典;
词袋BOW特征构建单元102,对每条文本数据建立N维的全0向量d,统计对应文本中的每个词的词频,每个词通过索引字典后得到对应词在向量d中的索引位置i,并将向量d的索引位置i的0替换为f,得到向量d作为对应文本文本的词袋BOW特征。
优选实施例中,本实施方式所述处理模块10还包括:
向量生成单元103,使用中文预训练语言模型提取每条文本稠密的语义特征c,得到对应的向量c。
优选实施例中,本实施方式所述训练模块20还包括:
向量拼接单元201,通过拼接向量d和向量c得到向量h;
特征分布获取单元202,将向量h经过主题模型线性层得到对应文本的特征分布,表现为均值u和方差d;
分布模式采样单元203,在均值u和方差d的分布模式下,通过对分布模式采样得到新的特征表示k;
词袋特征误差损失计算单元204,将特征表示k经过模型解码器,解码器通过解码特征表示k在主题矩阵beta上的分布分数,得到重构后的词袋特征d
其中,重复执行上述的各单元的处理动作,直至误差损失收敛下降到最低点后结束循环,主题模型M训练结束。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
机译: 基于深度学习的变分推理模型的信号单元特征变分推理方法及其系统
机译: 基于深度学习的变分推理模型的信号单元特征变分推理方法及其系统
机译: 基于条件变分自动编码器的使用辅助信息进行协同过滤的装置和方法