公开/公告号CN108090157A
专利类型发明专利
公开/公告日2018-05-29
原文格式PDF
申请/专利权人 百度在线网络技术(北京)有限公司;
申请/专利号CN201711320431.6
发明设计人 潘建;
申请日2017-12-12
分类号
代理机构北京市铸成律师事务所;
代理人郗名悦
地址 100085 北京市海淀区上地十街10号百度大厦三层
入库时间 2023-06-19 05:28:32
法律状态公告日
法律状态信息
法律状态
2018-11-06
授权
授权
2018-06-22
实质审查的生效 IPC(主分类):G06F17/30 申请日:20171212
实质审查的生效
2018-05-29
公开
公开
技术领域
本发明涉及数据挖掘技术领域,尤其涉及一种热点新闻挖掘方法、装置及服务器。
背景技术
新闻是指最新发生的,人们未知、欲知、应知的事实的报道。新点新闻是指互联网中的热门新闻。热点新闻挖掘是指利用算法技术识别互联网中的热门新闻,然后分发给用户,抢占用户需求。
热点新闻的挖掘与提供极大地方便了用户对新闻信息的获取。然而,在海量数据中,能准确且全面挖掘当前热点新闻十分困难,传统方法通常采用人工监控互联网站上的新闻来判断热点新闻,这种方式显然需要较大人力成本,且时效性较差,不能及时为用户提供热点新闻,相应地,也降低了用户获取热点新闻的效率。还有通过简单聚类算法技术,利用爬虫技术实时抓取各个站点新闻,并通过聚类技术对新闻做聚类,但由于各个新闻站点发布新闻时间不同,所以当重大新闻出现时,需要较长时间来识别是否为热点新闻,因此也降低了效率。
发明内容
本发明实施例提供一种热点新闻挖掘方法、装置及服务器,以至少解决现有技术中的以上技术问题。
第一方面,本发明实施例提供了一种热点新闻挖掘方法,所述方法包括:
通过网络爬虫程序抓取包含有新闻热词的网站,以抽取其中的新闻热词并存储;
对所述新闻热词进行聚类处理,并根据聚类结果计算所述聚类后的新闻热词的热度;
根据所述新闻热词的热度对所述新闻热词进行排序,将排序后的新闻热词对应的新闻发送至用户。
结合第一方面,本发明在第一方面的第一种实施方式中,对所述新闻热词进行聚类处理,包括:
对相同网站抓取到的新闻热词进行去重处理;
计算去重处理后的所述新闻热词之间的相似度,通过相似度对每个所述新闻热词进行聚类。
结合第一方面,本发明在第一方面的第二实施方式中,根据聚类结果计算所述聚类后的新闻热词的热度,包括:
获取对所述新闻热词进行聚类过程中生成的新闻聚类数;
在预设时间内计算所述新闻热词的新闻爆发度;
通过计算每一新闻热词聚类中,对应的新闻的平均发布时间和中位数时间点,对新闻做调权,以得到新闻聚类时的时间因子;
根据新闻聚类数、新闻爆发度和时间因子计算出新闻的热度。
结合第一方面,本发明在第一方面的第三实施方式中,在预设时间内计算所述新闻热词的新闻爆发度,包括:
计算所述新闻热词在第一时刻的新闻聚类数和所述新闻热词在第二时刻的新闻聚类数;
比较所述第一时刻的新闻聚类数和所述第二时刻的新闻聚类数;
若所述第二时刻的新闻聚类数大于所述第一时刻的新闻聚类数超过预设阈值,则根据所述第一时刻和和所述第二时刻的新闻聚类数计算所述新闻热词的新闻爆发度。
结合第一方面的第一种实施方式,通过相似度对每个所述新闻热词进行聚类之前,包括:
根据所述网站的规模,对所述网站的新闻聚类数进行加权处理。
第二方面,本发明实施例提供了一种热点新闻挖掘装置,包括:
抽取模块,配置为通过网络爬虫程序抓取包含有新闻热词的网站,以抽取其中的新闻热词并存储;
第一热度计算模块,配置为对所述新闻热词进行聚类处理,并根据聚类结果计算所述聚类后的新闻热词的热度;
发送模块,配置为根据所述新闻热词的热度对所述新闻热词进行排序,将排序后的新闻热词对应的新闻发送至用户。
结合第二方面,在第二方面的的第一种实施方式,所述第一热度计算模块包括:
去重处理模块,配置为对相同网站抓取到的新闻热词进行去重处理;
聚类处理模块,配置为计算去重处理后的所述新闻热词之间的相似度,通过相似度对每个所述新闻热词进行聚类。
结合第二方面,在第二方面的第二种实施方式,所述第一热度计算模块包括:
获取模块,配置为获取对所述新闻热词进行聚类过程中生成的新闻聚类数;
新闻爆发度计算模块,配置为在预设时间内计算所述新闻热词的新闻爆发度;
时间因子计算模块,配置为通过计算每一新闻热词聚类中,对应的新闻的平均发布时间和中位数时间点,对新闻做调权,以得到新闻聚类时的时间因子;
第二热度计算模块,配置为根据新闻聚类数、新闻爆发度和时间因子计算出新闻的热度。
结合第二方面,在第二方面的第三种实施方式,所述新闻爆发度计算模块包括:
新闻聚类数计算模块,配置为计算所述新闻热词在第一时刻的新闻聚类数和所述新闻热词在第二时刻的新闻聚类数;
比较模块,配置为比较所述第一时刻的新闻聚类数和所述第二时刻的新闻聚类数;
处理模块,配置为若所述第二时刻的新闻聚类数大于所述第一时刻的新闻聚类数超过预设阈值,则将所述第二时刻的新闻聚类数作为所述新闻热词的新闻爆发度。
结合第二方面的第一种实施方式,所述第一热度计算模块还包括:
加权处理模块,配置为根据所述网站的规模,对所述网站的新闻聚类数进行加权处理。
第三方面,本发明实施例提供一种服务器,所述服务器包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上所述的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如上所述的方法。
上述技术方案中的一个技术方案具有如下优点或有益效果:通过网络爬虫程序抓取包含新闻热词,并对新闻热词进行聚类处理,并根据聚类结果计算所述聚类后的新闻热词的热度,然后将根据热度排序后的新闻热词对应的新闻发送至用户,该技术方案考虑到新闻的时效性、覆盖面和准确性,能够满足用户的需求。
上述技术方案中的另一个技术方案具有如下优点或有益效果:该技术方案对同一站点的相同新闻进行去重处理,有效地避免网站发布大量相同文章造成的聚类不准确;同时对一些较大网站进行加权处理,可以识别出新闻的权威性。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。
图1为本发明实施例一的热点新闻挖掘方法的流程图;
图2为本发明实施例二的热点新闻挖掘方法的流程图;
图3为本发明实施例三的热点新闻挖掘装置的示意图;
图4为本发明实施例四的服务器的示意图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
传统的简单聚类算法挖掘热点新闻时,虽然能做到全网覆盖,但是时效性较弱,由于各网站发布新闻的时间不同,聚类技术只有当一篇新闻有足够数量才会识别为热点新闻,但是这往往需要比较长的时间;另外,有些规模较小的网站由于被黑客入侵而肆意乱发新闻,也可能导致被识别出的新闻不是热点新闻。
实施例一
本发明实施例提供一种热点新闻挖掘方法。如图1所示,为本发明实施例的热点新闻挖掘方法的流程图。本发明实施例的热点新闻挖掘方法包括如下步骤:
S101,通过网络爬虫程序抓取包含有新闻热词的网站,以抽取其中的新闻热词并存储。
具体地,首先抓取现有的包含有新闻热词的网站,例如,百度新闻、新浪新闻和腾讯新闻。这些新闻热词可由不同的搜索引擎提供商、新闻网站通过自己的方法生成,例如将新闻的核心关键词作为新闻热词。
S102,对所述新闻热词进行聚类处理,并根据聚类结果计算所述聚类后的新闻热词的热度。
具体地,可采用现有聚类方法将指代相同事件的新闻热词聚成一类。然后根据这一类的新闻计算这一聚类的热度。
S103,根据所述新闻热词的热度对所述新闻热词进行排序,将排序后的新闻热词对应的新闻发送至用户。
本技术方案针对新闻的特点,考虑到新闻的时效性、覆盖面及准确性等来对新闻进行挖掘,将通过根据热度排序的新闻发送给用户,使用户能够及时获知当前的热点新闻。
上述技术方案中的一个技术方案具有如下优点或有益效果:通过网络爬虫程序抓取包含新闻热词,并对新闻热词进行聚类处理,并根据聚类结果计算所述聚类后的新闻热词的热度,然后将根据热度排序后的新闻热词对应的新闻发送至用户,该技术方案考虑到新闻的时效性、覆盖面和准确性,能够满足用户的需求。
实施例二
本发明实施例提供一种热点新闻挖掘方法。如图2所示,为本发明实施例的热点新闻挖掘方法的流程图。本发明实施例的热点新闻挖掘方法包括如下步骤:
S201,通过网络爬虫程序抓取包含有新闻热词的网站,以抽取其中的新闻热词并存储。
S202,对相同网站抓取到的新闻热词进行去重处理。
具体地,由于网站上的新闻可能是分页展示的,爬虫抓取会抓取多次,那么聚类计数时应该只计数一次,也就是说对于相同站点下的相同新闻,只计数一次。
S203,计算去重处理后的所述新闻热词之间的相似度,通过相似度对每个所述新闻热词进行聚类。
另外,还可以根据所述网站的规模,对所述网站的新闻聚类数进行加权处理。
本发明在其中一个实施例中,可以将聚类处理过的新闻进行加权处理,例如,规模较大的知名网站发布的一篇新闻计数为3,普通门户网新闻计数为2,规模较小的网站计数为1。这样充分考虑了新闻的权威性。
S204,获取对所述新闻热词进行聚类过程中生成的新闻聚类数。
S205,在预设时间内计算所述新闻热词的新闻爆发度。
步骤S205包括:A,计算所述新闻热词在第一时刻的新闻聚类数和所述新闻热词在第二时刻的新闻聚类数;B,比较所述第一时刻的新闻聚类数和所述第二时刻的新闻聚类数;C,若所述第二时刻的新闻聚类数与所述第一时刻的新闻聚类数的差值超过预设阈值,则将所述第二时刻的新闻聚类数作为所述新闻热词的新闻爆发度。
新闻爆发度是指几个相邻的事件间隔上,新闻聚类数突然暴涨。例如,新闻a在t、(t+1)和(t+2)这三个时刻的聚类数分别是1、10、100,新闻b在t、(t+1)和(t+2)这三个时刻的聚类数分别是90、95、100,虽然在(t+2)时刻a和b两篇新闻的聚类数都为100,但是新闻a是在短时间内突增到100,说明新闻a是一个突发性的重大事件。则可以根据所述第一时刻和和所述第二时刻的新闻聚类数计算所述新闻热词的新闻爆发度,例如将第二时刻的新闻聚类数与第一时刻的新闻聚类数相减等方法计算。
S206,通过计算每一新闻热词聚类中,对应的新闻的平均发布时间和中位数时间点,对新闻做调权,以得到新闻聚类时的时间因子。
新闻具有较强的时效性特点,一般情况下新闻在发布后,在较短的时间内,该新闻的热度突然变得非常高,但在较长的时间内该新闻的热度又是呈下降趋势,因此,仅计算时间爆发度无法对新闻热度做准确的判断,本实施例针对新闻的这一特点,对计算一定时间段内的新闻热度时调整其权重,即对每一时间段内的新闻热度进行调权。
例如,12点发布的某新闻的新闻聚类数为0,1点钟统计的该某新闻的新闻聚类数为200,2点钟统计的该某新闻的新闻聚类数为1000,6点钟统计的该某新闻的新闻聚类数为1200;则在1点钟时,新闻的平均发布时间为1小时,中位数时间点为12点30分,对新闻做调权,如乘以平均发布时间的倒数,如200×1/1=200,时间因子为200;在两点钟时,新闻的平均发布时间为2小时,中位数时间点为1点钟,对新闻做调权,乘以平均发布时间的倒数,为1000×1/2=500,时间因子为500;在6点钟时,新闻的平均发布时间为6小时,中位数时间点为3点钟,对新闻做调权,乘以平均发布时间的倒数,时间因子为1200×1/6=200。可以看出,随着时间的延长,新闻的热度是先升高再降低的。
S207,根据新闻聚类数、新闻爆发度和时间因子计算出新闻的热度。
具体地,新闻热度的计算公式如下:
h=c*b*t,
其中,h表示新闻热度,c表示新闻聚类数,b表示新闻的爆发度,t表示新闻聚类时的时间因子。
S208,根据所述新闻热词的热度对所述新闻热词进行排序,将排序后的新闻热词对应的新闻发送至用户。
上述技术方案中的另一个技术方案具有如下优点或有益效果:该技术方案对同一站点的相同新闻进行去重处理,有效地避免网站发布大量相同文章造成的聚类不准确;同时对一些较大网站进行加权处理,可以识别出新闻的权威性。
实施例三
本发明实施例提供一种热点新闻挖掘装置。如图3所示,为本发明实施例的热点新闻挖掘装置的示意图。本发明实施例的热点新闻挖掘装置包括:
所述装置包括:
抽取模块31,配置为通过网络爬虫程序抓取包含有新闻热词的网站,以抽取其中的新闻热词并存储;
第一热度计算模块32,配置为对所述新闻热词进行聚类处理,并根据聚类结果计算所述聚类后的新闻热词的热度;
发送模块33,配置为根据所述新闻热词的热度对所述新闻热词进行排序,将排序后的新闻热词对应的新闻发送至用户。
进一步地,所述第一热度计算模块32包括:
去重处理模块321,配置为对相同网站抓取到的新闻热词进行去重处理;
聚类处理模块322,配置为计算去重处理后的所述新闻热词之间的相似度,通过相似度对每个所述新闻热词进行聚类。
进一步地,所述第一热度计算模块32包括:
获取模块323,配置为获取对所述新闻热词进行聚类过程中生成的新闻聚类数;
新闻爆发度计算模块324,配置为在预设时间内计算所述新闻热词的新闻爆发度;
时间因子计算模块325,配置为通过计算每一新闻热词聚类中,对应的新闻的平均发布时间和中位数时间点,对新闻做调权,以得到新闻聚类时的时间因子;
第二热度计算模块326,配置为根据新闻聚类数、新闻爆发度和时间因子计算出新闻的热度。
进一步地,所述新闻爆发度计算模块324包括:
新闻聚类数计算模块(图中未示出),配置为计算所述新闻热词在第一时刻的新闻聚类数和所述新闻热词在第二时刻的新闻聚类数;
比较模块(图中未示出),配置为比较所述第一时刻的新闻聚类数和所述第二时刻的新闻聚类数;
处理模块(图中未示出),配置为若所述第二时刻的新闻聚类数大于所述第一时刻的新闻聚类数超过预设阈值,则将所述第二时刻的新闻聚类数作为所述新闻热词的新闻爆发度。
进一步地,所述第一热度计算模块32还包括:
加权处理模块327,配置为根据所述网站的规模,对所述网站的新闻聚类数进行加权处理。
本发明的热点新闻挖掘装置,能够实现对有效性的新闻进行抽取的技术效果与如图1所示实施例的有益效果相同,在此不再赘述。
实施例四
本发明实施例四提供一种服务器,如图4所示,该设备包括:存储器41和处理器42,存储器41内存储有可在处理器42上运行的计算机程序。处理器42执行所述计算机程序时实现上述实施例中的信息分类方法。存储器41和处理器42的数量可以为一个或多个。
该设备还包括:
通信接口43,用于存储器41和处理器42与外部设备之间的通信。
存储器41可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果存储器41、处理器42和通信接口43独立实现,则存储器41、处理器42和通信接口43可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,Peripheral Component)总线或扩展工业标准体系结构(EISA,Extended Industry Standard Component)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器41、处理器42及通信接口43集成在一块芯片上,则存储器41、处理器42及通信接口43可以通过内部接口完成相互间的通信。
实施例五
本发明实施例提供一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现如图1至2中任一实施例所述的方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
本发明实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质的更具体的示例至少(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读存储介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
在本发明实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于指令执行系统、输入法或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、射频(Radio Frequency,RF)等等,或者上述的任意合适的组合。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
机译: 一种用于流数据的频繁并发事件组的单遍挖掘方法和一种用于流数据的频繁并发事件组的单遍挖掘方法
机译: 热点新闻的生成方法,装置及装置
机译: 通用标签,服务器和媒介的挖掘方法和装置