首页> 中国专利> 一种基于文本挖掘的热点新闻发现方法

一种基于文本挖掘的热点新闻发现方法

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明公开一种基于文本挖掘的热点新闻发现方法，包括步骤：将预处理后的新闻的标题的权重扩大，在分词及去停用词处理后，获取新闻的TF‑IDF的特征向量；基于所述TF‑IDF的特征向量，利用聚类算法预测新闻的所属类别；将新闻的标题及摘要合并成一句子，然后对句子进行分词、去停用词处理；利用TextRank算法，对新闻标题排序后输出热点新闻。本发明在聚类时增加了新闻标题权重，以提升其正确率；将新闻的标题、摘要、关键词一并用于排序，一方面增加新闻标题的权重，一方面能减少新闻标题的重复。

著录项

公开/公告号CN112528018A

专利类型发明专利
公开/公告日2021-03-19

原文格式PDF
申请/专利权人天津中科智能识别产业技术研究院有限公司;
展开▼

申请/专利号CN202011381648.X
发明设计人张大朋;赵晓玲;孙哲南;张堃博;薛文芳;
展开▼

申请日2020-12-01
分类号G06F16/35(20190101);G06F16/33(20190101);
代理机构12107 天津市三利专利商标代理有限公司;
代理人韩新城
地址 300457 天津市滨海新区天津经济技术开发区第二大街57号泰达MSD-G1-1001单元
入库时间 2023-06-19 10:19:37

说明书

技术领域

本发明涉及新闻发现技术领域，特别是涉及一种基于文本挖掘的热点新闻发现方法。

背景技术

现有技术热点新闻发现方法比较多：利用LDA主题模型，提出一个多核心活体模型，能够识别同一话题下关注的核心，之后采用划分聚类和层次聚类结合的办法对新闻报道进行精确聚类。采用single-pass聚类思想和凝聚式层次聚类与K-Means聚类算法相结合发现热点新闻。改进关联规则算法，根据互信息来计算文本字符串的相似度，然后得出热点新闻关键词集合，再进行热度计算来研究新闻热点。利用聚类算法得到新闻的类别，然后利用TextRank排序，取前几个新闻即为热点新闻。

然而现有热点新闻发现中，没有考虑新闻的结构，导致区分度以及正确率上尚未达到满意的效果，且也存在重复标题的新闻热点发现问题。

发明内容

本发明的目的是针对现有技术中的缺陷，而提供一种基于文本挖掘的热点新闻发现方法，本发明方法增加了区分度，提升了正确率，解决了新闻标题的重复的问题。

为实现本发明的目的所采用的技术方案是：

一种基于文本挖掘的热点新闻发现方法，包括步骤：

将预处理后的新闻的标题的权重扩大，在分词及去停用词处理后，获取新闻的TF-IDF的特征向量；

基于所述TF-IDF的特征向量，利用聚类算法预测新闻的所属类别；

将新闻的标题及摘要合并成一句子，然后对句子进行分词、去停用词处理；

利用TextRank算法对句子处理，对新闻标题排序后输出热点新闻。

优选的，所述预处理包括去重、清洗的处理步骤。

优选的，利用训练TF-IDF模型获取新闻的TF-IDF的特征向量。

优选的，利用训练k-means模型预测新闻的所属类别。

优选的，TextRank算法顺序的步骤是，计算所述句子间相似度，根据所述相似度计算句子权重，根据所述权重对新闻标题进行排序。

本发明在热点新闻挖掘中，在聚类时，增加了新闻标题的权重，以提升其正确率；在排序时，将新闻的标题、摘要、关键词一并用于排序，一方面增加新闻标题的权重，一方面能减少新闻标题的重复。

附图说明

图1是本发明的基于文本挖掘的热点新闻发现方法的流程示意图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明基于文本挖掘的热点新闻发现方法，包括以下步骤：

将预处理后的新闻的标题的权重扩大，在分词及去停用词处理后，获取新闻的TF-IDF的特征向量；

基于所述TF-IDF的特征向量，利用聚类算法预测新闻的所属类别；

将新闻的标题及摘要合并成一句子，然后对句子进行分词、去停用词处理；

利用TextRank算法对句子处理，对新闻标题排序后输出热点新闻。

为了表示一个文本，需要获取文本的特征。常见方法有词频、TF-IDF、词嵌入(wordembedding)、独热编码(one-hot representation)。

本发明使用TF-IDF。在TF-IDF表示中，词的重要程度有两个因素有关。一个是词频，一个是逆文档频率。TF-IDF的主要思想是：如果某个词在一篇新闻中出现的频率TF高，并且在其他新闻中很少出现，则认为此词具有很好的类别区分能力。TF-IDF实际上是：TF×IDF，TF词频(Term Frequency)，IDF逆文档频率(Inverse Document Frequency)。TF表示词条在文档D中出现的频率。IDF的主要思想是：如果包含词条t的文档越少，也就是n越小，IDF越大，则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m，而其它类包含t的文档总数为k，显然所有包含t的文档数n＝m+k，当m大的时候，n也大，按照IDF公式得到的IDF的值会小，就说明该词条t类别区分能力不强。但是实际上，如果一个词条在一个类的文档中频繁出现，则说明该词条能够很好代表这个类的文本的特征，这样的词条应该给它们赋予较高的权重，并选来作为该类文本的特征词以区别与其它类文档。这就是IDF的不足之处.在一份给定的文件里，词频(term frequency，TF)指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数(term count)的归一化，以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词数，而不管该词语重要与否。)对于在某一特定文档里的词语来说，它的重要性可表示为：

以上式子中分子是该词在文档中的出现次数，而分母则是在文档中所有字词的出现次数之和。

逆文档频率(inverse document frequency，IDF)是一个词语普遍重要性的度量。某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取以10为底的对数得到：

其中：

|D|：语料库中的文件总数。

分母：表示包含词语的文档数目，如果该词语不在语料库中，就会导致分母为零，因此一般情况下使用作为分母。1+|{d∈D：t∈d}|

最后，TF-IDF的公式是：tfidf

聚类，是一种无监督的学习方式，与监督学习不同的是它不需要对原来的数据打上标签，不用打上标签的数据来训练一种分类的模型，它仅仅利用某种距离计算将多个数据对象划分成集合的过程，使得每个集合便是一个簇，簇中的对象距离较小，彼此相似；但与其他的簇的对象之间的距离较大，相差较大。

使用聚类往往是因为数据中没有类标号信息，但是仍需对其进行分类。正因为如此，聚类方法在数据分析上很常用也很好用，它可以发现数据中事先未知的类别信息。

本发明中，所使用的热点新型分类模型的训练和预测都是基于Spark ML开源机器学习库完成。其中，模型训练的主要步骤：针对新闻的训练集，去重，清洗，将标题重复一次，即将标题的权重扩大一倍；分词；去停用词；训练TF-IDF模型；训练k-means模型。

对应的，所述的热点新型分类模型预测的主要步骤如下：针对新闻，去重，清洗，将标题重复一次，即将标题的权重扩大一倍；分词；去停用词；利用训练的TF-IDF模型，求新闻的TF-IDF的特征向量。利用训练的k-means模型和TF-IDF的特征向量，预测新闻的所属的类别。

所述的TextRank其思想来源于PageRank算法，PageRank算法的核心思想比较直观，如果一个网页被很多其它网页链接到，说明这个网页很重要，对应的PR(PageRank)值也越高；如果一个PR值较高的网页链接了某个网页，则该网页的PR值也会相应提高。

PageRank算法与TextRank算法的区别,PageRank算法根据网页之间的链接关系构造网络，TextRank算法根据词之间的共现关系构造网络；PageRank算法构造的网络中的边是有向无权边，TextRank算法构造的网络中的边是无向有权边。TextRank算法计算公式：

其中WS(V

本发明中，利用TextRank算法对新闻标题排序的步骤如下：

将新闻的标题以及新闻的摘要合并成一句，然后分词、去停用词处理；计算句子之间的相似度，根据相似度计算句子权重，根据权重进行排序。

以上所述仅是本发明的优选实施方式，应当指出的是，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于文本挖掘的热点新闻发现方法 [P] . 中国专利： CN112528018A . 2021-03-19
2. 一种基于招聘文本挖掘的专业主要就业方向识别方法 [P] . 中国专利： CN113886588A . 2022-01-04
3. SIMILAR CONSTRUCTION APPARATUS AND METHOD USING TEXT MINING BASED DATABASE [P] . KR20210061872A . 2021-05-28

机译：基于文本挖掘数据库的类似施工装置和方法
4. Method and device for determining the effectiveness of points of interest based on Internet text mining [P] . JP6846469B2 . 2021-03-24

机译：基于互联网文本挖掘确定兴趣点有效性的方法和装置
5. SYSTEM AND METHOD FOR AUTOMATICALLY VERIFYING SECURITY EVENTS BASED ON TEXT MINING [P] . KR102221492B1 . 2021-03-02

机译：基于文本挖掘自动验证安全事件的系统和方法