法律状态公告日
法律状态信息
法律状态
2020-07-03
授权
授权
2018-11-27
实质审查的生效 IPC(主分类):G06F17/30 申请日:20180522
实质审查的生效
2018-11-02
公开
公开
技术领域
本发明涉及文本数据处理技术领域,尤其涉及一种考虑专家知识的交互式主题建模方法及装置。
背景技术
随着在线社交媒体和电子商务网站等的发展,基于用户制造内容(UGC)的平台已经变成人们日常生活中不可缺少的部分。基于UGC的平台的发展,为企业带来了巨大的商业机会,可以帮助企业发现需求、研发产品以及进行客户管理等。
相关技术中对上述内容进行处理的过程中,通常会采用主题建模的方式发现上述内容中主题。然而,由于每个主题有不同的上下文环境,导致相同或者相似主题或者词语有不同的语义,使最终获取的内容主题存在语义信息模糊的问题。
发明内容
针对现有技术中的缺陷,本发明提供了一种考虑专家知识的交互式主题建模方法及装置,用于解决相关技术中主题建模时存在的语义信息模糊的技术问题。
第一方面,本发明实施例提供了一种考虑专家知识的交互式主题建模方法,所述方法包括:
获取初始文档集合;
利用潜在狄利克雷分布模型LDA对所述初始文档集合进行主题提取,得到K个第一主题-词分布;K为整数;
按照概率值大小的顺序对所述K个第一主题-词分布中每个主题-词分布下的词语进行排序,获取所述每个主题-词分布下的概率值较大的前L个词语;L小于或者等于K;
基于专家数据库对所述L个词语中每个词语进行评分,得到每个主题的待分配概率;
根据所述待分配概率调整所述每个第一主题-词分布下的所有词语的概率,得到每个主题的第二主题-词分布;
基于所述第二主题-词分布,利用带约束的交互式主题模型获取所述初始文档集合的第三主题-词分布。
可选地,获取初始文档集合包括:
获取原始语料;
对所述原始语料进行文本预处理,得到初始文档集合;所述文本预处理至少包括分词、去停用词和去除标点中的一种或者多种。
可选地,基于专家数据库对所述L个词语中每个词语进行评分包括:
从所述专家数据库中随机选取多位专家;
获取所述多位专家对所述L个词语中每个词语的评分;
计算所述每个词语的评分的平均值作为每个词语最终的评分。
可选地,基于所述第二主题-词分布,利用带约束的交互式主题模型获取所述初始文档集合的第三主题-词分布包括:
根据所述第二主题-词分布计算所述初始文档集合中所有词语中每个词语与所属主题的联合概率密度分布;
基于所述联合概率密度分布,利用吉布斯Gibbs抽样算法获取K个第三主题-词分布。
第二方面,本发明实施例提供了一种考虑专家知识的交互式主题建模装置,所述装置包括:
初始文档获取模块,用于获取初始文档集合;
第一分布获取模块,用于利用潜在狄利克雷分布模型LDA对所述初始文档集合进行主题提取,得到K个第一主题-词分布;K为整数;
主题排序模块,用于按照概率值大小的顺序对所述K个第一主题-词分布中每个主题-词分布下的词语进行排序,获取所述每个主题-词分布下的概率值较大的前L个词语;L小于或者等于K;
专家评分获取模块,用于基于专家数据库对所述L个词语中每个词语进行评分,得到每个主题的待分配概率;
第二分布获取模块,用于根据所述待分配概率调整所述每个第一主题-词分布下的所有词语的概率,得到每个主题的第二主题-词分布;
第三分布获取模块,用于基于所述第二主题-词分布,利用带约束的交互式主题模型获取所述初始文档集合的第三主题-词分布。
可选地,所述初始文档获取模块包括:
原始语料获取单元,用于获取原始语料;
初始文档获取单元,用于对所述原始语料进行文本预处理,得到初始文档集合;所述文本预处理至少包括分词、去停用词和去除标点中的一种或者多种。
可选地,所述专家评分获取模块包括:
专家选取单元,用于从所述专家数据库中随机选取多位专家;
词语评分单元,用于获取所述多位专家对所述L个词语中每个词语的评分;
评分计算单元,用于计算所述每个词语的评分的平均值作为每个词语最终的评分。
可选地,所述第三分布获取模块包括:
联合密度计算单元,用于根据所述第二主题-词分布计算所述初始文档集合中所有词语中每个词语与所属主题的联合概率密度分布;
第三分布获取单元,用于基于所述联合概率密度分布,利用吉布斯Gibbs抽样算法获取K个第三主题-词分布。
由上述技术方案可知,本发明实施例利用专家数据库对选出的L个词语进行评分,从而使得到的第二主题-词分布更准确,有利于解决或者缓解相关技术中语义信息模糊的问题,从而提高所得到的初始文档集合的第三主题-词分布的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。
图1为本发明一实施例提供的考虑专家知识的交互式主题建模方法的流程示意图;
图2~图5为本发明一实施例提供的交互式主题建模装置的框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
鉴于相关技术中对UGC内容采用主题建模的过程中,由于每个主题有不同的上下文环境,导致相同或者相似主题或者词语有不同的语义,使最终获取的内容主题存在语义信息模糊的问题。
为解决上述技术问题,本发明实施例提供了一种考虑专家知识的交互式主题建模方法。图1为本发明一实施例提供的考虑专家知识的交互式主题建模方法的流程示意图。参见图1,一种考虑专家知识的交互式主题建模方法包括:
101,获取初始文档集合。
102,利用潜在狄利克雷分布模型LDA对所述初始文档集合进行主题提取,得到K个第一主题-词分布。
103,按照概率值大小的顺序对所述K个第一主题-词分布中每个主题-词分布下的词语进行排序,获取所述每个主题-词分布下的概率值较大的前L个词语。
104,基于专家数据库对所述L个词语中每个词语进行评分,得到每个主题的待分配概率。
105,根据所述待分配概率调整所述每个第一主题-词分布下的所有词语的概率,得到每个主题的第二主题-词分布。
106,基于所述第二主题-词分布,利用带约束的交互式主题模型获取所述初始文档集合的第三主题-词分布。
下面结合附图和实施例对考虑专家知识的交互式主题建模方法的各步骤作详细描述。
首先,介绍101,获取初始文档集合的步骤。
本实施例,从指定位置或者第三方提供商获取初始文档集合D=(D1,...,dd,...,D|D|)。其中,|D|表示文档数量,Dd表示第d篇文档。假设文档Dd的词语集合是w={w1,...,ww,...,w|W|}。所有文档的所有词语集合是w={w1,...,wi,...,wN},其中,N表示所有词语数量。
其次,介绍102,利用潜在狄利克雷分布模型LDA对所述初始文档集合进行主题提取,得到K个第一主题-词分布的步骤。
本实施例中利用潜在狄利克雷分布模型LDA对初始文档集合进行主题抽取。以抽取K个主题为例,可以得到K个主题-词分布:φ={φ1,...,φk,...,φK},φk表示第k个主题-词分布,每个主题-词分布是一个多项式概率分布,是在每个词语上的分布,
再次,介绍103,按照概率值大小的顺序对所述K个第一主题-词分布中每个主题-词分布下的词语进行排序,获取所述每个主题-词分布下的概率值较大的前L个词语的步骤。
本实施例中,按照概率值大小的顺序对K个第一主题-词分布中每个主题-词分布下的词语进行排序,即
第四,介绍104,基于专家数据库对所述L个词语中每个词语进行评分,得到每个主题的待分配概率的步骤。
本实施例中,从专家数据库中随机选择专家U对排序后的每个第一主题-词分布下前L个词语进行评分,评分值的范围是{0,0.2,0.4,0.6,0.8},分别表示该词语以多大的概率属于当前主题。专家U对主题k前L个词语的评分是:
在一实施例中,从所述专家数据库中随机选取多位专家;获取所述多位专家对所述L个词语中每个词语的评分;计算所述每个词语的评分的平均值作为每个词语最终的评分。可见,通过多个专家评分的平均值,可以避免个别专家主观性太强,影响到评分的准确性。
第五,介绍105,根据所述待分配概率调整所述每个第一主题-词分布下的所有词语的概率,得到每个主题的第二主题-词分布的步骤。
本实施例中,根据待分配概率调整每个第一主题-词分布下的所有词语的概率,得到每个主题的第二主题-词分布。
对于专家调整的词语,每个词语的概率为:
式中,|U|表示专家调整的词语总数。
对于没有被专家调整的词语,每个词语的概率为:
从而,本实施例中可以得到第二主题-词分布是
第六,介绍106,基于所述第二主题-词分布,利用带约束的交互式主题模型获取所述初始文档集合的第三主题-词分布的步骤。
本实施例中,利用带约束的交互式主题模型iLDA获取初始文档集合的第三主题-词分布,步骤可以为:
(1)根据第二主题-词分布
p(w,z,θ,φ|φnew,α,β)=p(w|z,φ,φnew)p(z|θ)p(θ|α)p(φ|β)。
式中,p(w|z,φ,φnew)=∑[λ1φ+λ2φnew],λ1和λ2是两个加权系数,λ1+λ2=1;并且λ1和λ2的取值范围是0-1之间;w是初始文档集合中所有词语的集合,z是初始文档集合中每个单词对应的主题编号集合,φ是初始文档集合中的主题-词分布,α和β分别是初始文档集合中主题分布和主题-词分布的先验。
(2)根据吉布斯Gibbs抽样算法,可以得到最终的K个主题-词分布φfinal:
由上述技术方案可知,本发明实施例利用专家数据库对选出的L个词语进行评分,从而使得到的第二主题-词分布更准确,有利于解决或者缓解相关技术中语义信息模糊的问题,从而提高所得到的初始文档集合的第三主题-词分布的准确度。
为验证本发明实施例提供的一种考虑专家知识的交互式主题建模方法的有效性和优越性,本发明一实施例中对微博数据和路透社数据两个数据集进行主题抽取,其中抽取的主题使用一致性(Coherence)指标进行检验,得到选择主题数量为10的结果,如表1所示:
表1
本实施例中,一致性指标越大表明结果越好。通过表1中数据分析可知,对于微博数据iLDA对应的均值-577.195大于LDA对应的均值-585.018,对于路透社数据iLDA对应的均值-391.343大于LDA对应的均值-397.856,即本发明提供的交互式主题建模方法的结果优于经典主题模型。
图2为本发明一实施例提供的考虑专家知识的交互式主题建模装置。参见图2,本发明实施例还提供了一种考虑专家知识的交互式主题建模装置,所述装置包括:
初始文档获取模块201,用于获取初始文档集合;
第一分布获取模块202,用于利用潜在狄利克雷分布模型LDA对所述初始文档集合进行主题提取,得到K个第一主题-词分布;K为整数;
主题排序模块203,用于按照概率值大小的顺序对所述K个第一主题-词分布中每个主题-词分布下的词语进行排序,获取所述每个主题-词分布下的概率值较大的前L个词语;
专家评分获取模块204,用于基于专家数据库对所述L个词语中每个词语进行评分,得到每个主题的待分配概率;
第二分布获取模块205,用于根据所述待分配概率调整所述每个第一主题-词分布下的所有词语的概率,得到每个主题的第二主题-词分布;
第三分布获取模块206,用于基于所述第二主题-词分布,利用带约束的交互式主题模型iLDA获取所述初始文档集合的第三主题-词分布。
图3为本发明另一实施例提供的考虑专家知识的交互式主题建模装置。参见图3,在图2所示交互式主题建模装置的基础上,所述初始文档获取模块201包括:
原始语料获取单元301,用于获取原始语料;
初始文档获取单元302,用于对所述原始语料进行文本预处理,得到初始文档集合;所述文本预处理至少包括分词、去停用词和去除标点中的一种或者多种。
图4为本发明另一实施例提供的考虑专家知识的交互式主题建模装置。参见图4,在图2所示交互式主题建模装置的基础上,所述专家评分获取模块204包括:
专家选取单元401,用于从所述专家数据库中随机选取多位专家;
词语评分单元402,用于获取所述多位专家对所述L个词语中每个词语的评分;
评分计算单元403,用于计算所述每个词语的评分的平均值作为每个词语最终的评分。
图5为本发明另一实施例提供的考虑专家知识的交互式主题建模装置。参见图5,在图2所示交互式主题建模装置的基础上,所述第三分布获取模块206包括:
联合密度计算单元501,用于根据所述第二主题-词分布计算所述初始文档集合中所有词语中每个词语与所属主题的联合概率密度分布;
第三分布获取单元502,用于基于所述联合概率密度分布,利用吉布斯Gibbs抽样算法获取K个第三主题-词分布。
需要说明的是,本发明实施例提供的考虑专家知识的交互式主题建模装置与上述方法是一一对应的关系,上述方法的实施细节同样适用于上述装置,本发明实施例不再对上述系统进行详细说明。
本发明的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。
机译: 主题建模装置,主题建模方法和主题建模程序
机译: 主题建模装置,主题建模方法,主题建模程序
机译: 主题建模装置,主题建模方法和主题建模程序