首页> 中国专利> 一种基于文本挖掘的热点新闻发现方法

一种基于文本挖掘的热点新闻发现方法

摘要

本发明公开一种基于文本挖掘的热点新闻发现方法,包括步骤:将预处理后的新闻的标题的权重扩大,在分词及去停用词处理后,获取新闻的TF‑IDF的特征向量;基于所述TF‑IDF的特征向量,利用聚类算法预测新闻的所属类别;将新闻的标题及摘要合并成一句子,然后对句子进行分词、去停用词处理;利用TextRank算法,对新闻标题排序后输出热点新闻。本发明在聚类时增加了新闻标题权重,以提升其正确率;将新闻的标题、摘要、关键词一并用于排序,一方面增加新闻标题的权重,一方面能减少新闻标题的重复。

著录项

  • 公开/公告号CN112528018A

    专利类型发明专利

  • 公开/公告日2021-03-19

    原文格式PDF

  • 申请/专利号CN202011381648.X

  • 申请日2020-12-01

  • 分类号G06F16/35(20190101);G06F16/33(20190101);

  • 代理机构12107 天津市三利专利商标代理有限公司;

  • 代理人韩新城

  • 地址 300457 天津市滨海新区天津经济技术开发区第二大街57号泰达MSD-G1-1001单元

  • 入库时间 2023-06-19 10:19:37

说明书

技术领域

本发明涉及新闻发现技术领域,特别是涉及一种基于文本挖掘的热点新闻发现方法。

背景技术

现有技术热点新闻发现方法比较多:利用LDA主题模型,提出一个多核心活体模型,能够识别同一话题下关注的核心,之后采用划分聚类和层次聚类结合的办法对新闻报道进行精确聚类。采用single-pass聚类思想和凝聚式层次聚类与K-Means聚类算法相结合发现热点新闻。改进关联规则算法,根据互信息来计算文本字符串的相似度,然后得出热点新闻关键词集合,再进行热度计算来研究新闻热点。利用聚类算法得到新闻的类别,然后利用TextRank排序,取前几个新闻即为热点新闻。

然而现有热点新闻发现中,没有考虑新闻的结构,导致区分度以及正确率上尚未达到满意的效果,且也存在重复标题的新闻热点发现问题。

发明内容

本发明的目的是针对现有技术中的缺陷,而提供一种基于文本挖掘的热点新闻发现方法,本发明方法增加了区分度,提升了正确率,解决了新闻标题的重复的问题。

为实现本发明的目的所采用的技术方案是:

一种基于文本挖掘的热点新闻发现方法,包括步骤:

将预处理后的新闻的标题的权重扩大,在分词及去停用词处理后,获取新闻的TF-IDF的特征向量;

基于所述TF-IDF的特征向量,利用聚类算法预测新闻的所属类别;

将新闻的标题及摘要合并成一句子,然后对句子进行分词、去停用词处理;

利用TextRank算法对句子处理,对新闻标题排序后输出热点新闻。

优选的,所述预处理包括去重、清洗的处理步骤。

优选的,利用训练TF-IDF模型获取新闻的TF-IDF的特征向量。

优选的,利用训练k-means模型预测新闻的所属类别。

优选的,TextRank算法顺序的步骤是,计算所述句子间相似度,根据所述相似度计算句子权重,根据所述权重对新闻标题进行排序。

本发明在热点新闻挖掘中,在聚类时,增加了新闻标题的权重,以提升其正确率;在排序时,将新闻的标题、摘要、关键词一并用于排序,一方面增加新闻标题的权重,一方面能减少新闻标题的重复。

附图说明

图1是本发明的基于文本挖掘的热点新闻发现方法的流程示意图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

如图1所示,本发明基于文本挖掘的热点新闻发现方法,包括以下步骤:

将预处理后的新闻的标题的权重扩大,在分词及去停用词处理后,获取新闻的TF-IDF的特征向量;

基于所述TF-IDF的特征向量,利用聚类算法预测新闻的所属类别;

将新闻的标题及摘要合并成一句子,然后对句子进行分词、去停用词处理;

利用TextRank算法对句子处理,对新闻标题排序后输出热点新闻。

为了表示一个文本,需要获取文本的特征。常见方法有词频、TF-IDF、词嵌入(wordembedding)、独热编码(one-hot representation)。

本发明使用TF-IDF。在TF-IDF表示中,词的重要程度有两个因素有关。一个是词频,一个是逆文档频率。TF-IDF的主要思想是:如果某个词在一篇新闻中出现的频率TF高,并且在其他新闻中很少出现,则认为此词具有很好的类别区分能力。TF-IDF实际上是:TF×IDF,TF词频(Term Frequency),IDF逆文档频率(Inverse Document Frequency)。TF表示词条在文档D中出现的频率。IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m,而其它类包含t的文档总数为k,显然所有包含t的文档数n=m+k,当m大的时候,n也大,按照IDF公式得到的IDF的值会小,就说明该词条t类别区分能力不强。但是实际上,如果一个词条在一个类的文档中频繁出现,则说明该词条能够很好代表这个类的文本的特征,这样的词条应该给它们赋予较高的权重,并选来作为该类文本的特征词以区别与其它类文档。这就是IDF的不足之处.在一份给定的文件里,词频(term frequency,TF)指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数(term count)的归一化,以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词数,而不管该词语重要与否。)对于在某一特定文档里的词语来说,它的重要性可表示为:

以上式子中分子是该词在文档中的出现次数,而分母则是在文档中所有字词的出现次数之和。

逆文档频率(inverse document frequency,IDF)是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取以10为底的对数得到:

其中:

|D|:语料库中的文件总数。

分母:表示包含词语的文档数目,如果该词语不在语料库中,就会导致分母为零,因此一般情况下使用作为分母。1+|{d∈D:t∈d}|

最后,TF-IDF的公式是:tfidf

聚类,是一种无监督的学习方式,与监督学习不同的是它不需要对原来的数据打上标签,不用打上标签的数据来训练一种分类的模型,它仅仅利用某种距离计算将多个数据对象划分成集合的过程,使得每个集合便是一个簇,簇中的对象距离较小,彼此相似;但与其他的簇的对象之间的距离较大,相差较大。

使用聚类往往是因为数据中没有类标号信息,但是仍需对其进行分类。正因为如此,聚类方法在数据分析上很常用也很好用,它可以发现数据中事先未知的类别信息。

本发明中,所使用的热点新型分类模型的训练和预测都是基于Spark ML开源机器学习库完成。其中,模型训练的主要步骤:针对新闻的训练集,去重,清洗,将标题重复一次,即将标题的权重扩大一倍;分词;去停用词;训练TF-IDF模型;训练k-means模型。

对应的,所述的热点新型分类模型预测的主要步骤如下:针对新闻,去重,清洗,将标题重复一次,即将标题的权重扩大一倍;分词;去停用词;利用训练的TF-IDF模型,求新闻的TF-IDF的特征向量。利用训练的k-means模型和TF-IDF的特征向量,预测新闻的所属的类别。

所述的TextRank其思想来源于PageRank算法,PageRank算法的核心思想比较直观,如果一个网页被很多其它网页链接到,说明这个网页很重要,对应的PR(PageRank)值也越高;如果一个PR值较高的网页链接了某个网页,则该网页的PR值也会相应提高。

PageRank算法与TextRank算法的区别,PageRank算法根据网页之间的链接关系构造网络,TextRank算法根据词之间的共现关系构造网络;PageRank算法构造的网络中的边是有向无权边,TextRank算法构造的网络中的边是无向有权边。TextRank算法计算公式:

其中WS(V

本发明中,利用TextRank算法对新闻标题排序的步骤如下:

将新闻的标题以及新闻的摘要合并成一句,然后分词、去停用词处理;计算句子之间的相似度,根据相似度计算句子权重,根据权重进行排序。

以上所述仅是本发明的优选实施方式,应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号