法律状态公告日
法律状态信息
法律状态
2022-07-01
专利权人的姓名或者名称、地址的变更 IPC(主分类):G06F17/30 专利号:ZL2014100177232 变更事项:专利权人 变更前:杭州远传新业科技有限公司 变更后:杭州远传新业科技股份有限公司 变更事项:地址 变更前:310000 浙江省杭州市滨江区信诚路857号世茂中心23楼 变更后:311611 浙江省杭州市滨江区浦沿街道信诚路857号悦江商业中心23011室
专利权人的姓名或者名称、地址的变更
2019-11-01
专利权的转移 IPC(主分类):G06F17/30 登记生效日:20191014 变更前: 变更后: 申请日:20140115
专利申请权、专利权的转移
2019-04-12
专利实施许可合同备案的生效 IPC(主分类):G06F17/30 合同备案号:2019330000035 让与人:杭州电子科技大学 受让人:杭州远传新业科技有限公司 发明名称:基于LDA的新闻评论的话题挖掘方法 申请公布日:20140507 授权公告日:20170301 许可种类:普通许可 备案日期:20190320 申请日:20140115
专利实施许可合同备案的生效、变更及注销
2017-03-01
授权
授权
2014-06-11
实质审查的生效 IPC(主分类):G06F17/30 申请日:20140115
实质审查的生效
2014-05-07
公开
公开
查看全部
技术领域
本发明涉及一种评论的话题挖掘方法,具体是一种基于LDA的新闻评论的话题挖掘方法。
背景技术
随着移动互联网的快速发展,我们逐渐步入大数据时代,越来越多的人可以将自己的观点、心情等信息发布到网络平台中。评论话题挖掘的一个巨大挑战是每一条评论都由不同的人发表,每条评论比较简短、信息量较少,错别字、网络词汇使用较多,所有评论包含话题信息广泛。每一条评论包含评论者从某一个角度对事件的一个态度,和其他评论没有相关性,因此可以看作一篇简短的文档。但是评论又围绕事件做出描述,可以将所有评论进行主题聚类,使用户可以轻松方便地知道其他用户关注事件的各个方面。
发明内容
本发明针对现有技术的不足,提供一种基于LDA的新闻评论的话题挖掘方法。
本发明方法具体包括以下步骤:
(1)将维基百科语料库建立文档反向索引列表。
(2)使用LDA主题模型确定主题。
(3)使用k中心聚类评论。
所述的将维基百科语料库建立文档反向索引列表,包括如下步骤:
A)下载维基百科中文语料库,去除不相关的页面(图片、音乐分类、运动项目、城市人口、国家人口等)。
B)使用中科院的NLPIR分词系统对文档进行分词,并过滤停用词。
C)统计所有文档中出现的词汇,过滤在所有文档中只出现一次的词汇,并建立索引词典(index,term)。
D)计算每篇文档中出现词汇的权重,wi=tfi×idf=tfi×log(N/cfi),其中tfi是文档中的词频,idf是逆文档值,N是总的文档数目,cfi是文档中出现词的文档数。
E)查找索引字典和文档词汇的权重建立文档的反索引列表,每一篇文档由(index,wterm)集合组成,wterm是索引号为index的词汇的权值。
所述的使用LDA主题模型确定主题,包括如下步骤:
F)对某一事件的所有评论作为LDA主题模型的输入文档集。
G)给定参数k作为评论中包含的主题数,并采用gensim的LDA主题模型训练文档集。
H)将评论与每个主题的相似度进行降序排列,获取大于阈值的评论作为聚类的数据源并确定了评论的主题。
所述的使用k中心聚类评论,包括如下步骤:
I)对于H)中的评论数据使用维基百科概念的反向列表转化每一条评论。
J)使其用维基百科的概念表示属性,构成空间向量。
K)使用余弦相似度公式度量两个评论间的距离。
L)并进行k-中心聚类成k个主题簇。
本发明的有益效果:
第一,由于本发明设计了LDA主题模型提取K个主题的核心特征词,所以能准确定义主题特征向量,有效地提高聚类的准确率。
第二,由于本发明设计了维基百科的概念扩充特征词的信息,所以能提高评论相似度的计算,有效地提高评论聚类的精确度。
附图说明
图1为维基百科文档反向索引流程图;
图2为LDA主题模型流程图;
图3为评论话题挖掘流程图
具体实施方式
下面结合附图,对本发明实现评论分类所采取的技术方案做进一步说明:
1、根据图1所示,获取维基百科中文语料库,并建立文档的反向列表。1)从http://download.wikipedia.com/zhwiki/latest/下载最新的XML文档数据语料zhwiki-latest-pages-articles.xml.bz2,大小为869.2M,这个XML文档对应整个维基百科页面文档,其中存储的是文档的标题、正文部分;2)使用Wikipedia Extractor抽取正文文本;3)文本数据的繁简转换;4)使用中科院的分词系统进行中文分词并去除停用词;5)统计所有概念中出现的词汇,并去除所有概念文档中只出现一次的词汇;6)对所有词汇建立索引词典,例如:(1,科技),(2,技术);7)计算每篇文档中词汇的TFIDF,并建立文档的反向列表。
2、根据图2所示,对所有的评论进行训练获取k个主题的特征词。1)对某一事件的所有评论作为LDA主题模型的输入文档集;2)给定参数k作为评论中包含的主题数,并采用gensim的主题模型训练文档集;3)将评论与每个主题的相似度进行降序排列,获取大于阈值的评论作为聚类的数据源并确定评论的主题特征词。
3、根据图3所示,1)对于步骤二中的评论数据使用维基百科概念的反向列表转化每一条评论,使其用维基百科的概念表示属性,构成空间向量;2)使用余弦相似度公式度量两个评论间的距离;3)进行k-中心聚类成k个主题簇类。
机译: 基于改进LDA模型的在线互联网主题挖掘方法
机译: 基于话题意见和社会影响者的话题检测跟踪系统及方法
机译: 社交话题自适应网络(STAN)系统,允许基于组的上下文交易报价和接受以及热点话题监视