首页> 中国专利> 新闻所属地的识别方法、识别装置、设备及存储介质

新闻所属地的识别方法、识别装置、设备及存储介质

摘要

本申请实施例提供一种新闻所属地的识别方法、识别装置、设备及存储介质,通过获取新闻采集设备输出的新闻文本,提取所述新闻文本中包含的地名和机构名,根据所述新闻文本中包含的地名以及所述新闻文本中各机构名对应的地名,生成目标地名集合,确定目标地名集合中分数最高的地名为新闻所属地的地名,将所述新闻文本和所述新闻所属地的地名发送给舆情分析设备进行舆情分析。从而实现了准确识别新闻所属地,为舆情分析提供参数的目的。

著录项

  • 公开/公告号CN113127713A

    专利类型发明专利

  • 公开/公告日2021-07-16

    原文格式PDF

  • 申请/专利号CN201911396180.9

  • 发明设计人 陈雪飞;郑兴华;都仪敏;谢海华;

    申请日2019-12-30

  • 分类号G06F16/951(20190101);G06F16/29(20190101);G06F16/35(20190101);

  • 代理机构11205 北京同立钧成知识产权代理有限公司;

  • 代理人袁义科;刘芳

  • 地址 100871 北京市海淀区成府路298号中关村方正大厦9层

  • 入库时间 2023-06-19 11:52:33

说明书

技术领域

本发明涉及计算机技术领域,具体涉及一种新闻所属地的识别方法、识别装置、设备及存储介质。

背景技术

当下互联网成为人们日常生活的重要活动平台之一,随着互联网技术的不断发展,网络便捷性、及时性的优点日益突出,但网络舆情这个巨大的社会舆情力量,对社会发展和稳定有一定的影响和冲击。随着网络媒体的普及,民众对新闻的关注度和参与度得到很大的提升,由于网络媒体上信息交流具有门槛低、参与群体庞大、实时性强等特点,网民积极参与事件的讨论和传播,能够在一定程度上推动和改变事件的发展和走向。

由于不同地区的新闻的传播速度以及影响力往往是不一样的,因此新闻所属地的识别在舆情分析中具有十分重要的作用。

然而,当前并没有一种方法能够根据新闻文本别出新闻所属地。

发明内容

本申请实施例提供一种新闻所属地的识别方法、识别装置、设备及存储介质,用以根据新闻文本识别新闻所属地,为舆情分析提供参数。

本申请实施例第一方面提供一种新闻所属地的识别方法,该方法包括:

获取新闻采集设备输出的新闻文本;

提取所述新闻文本中包含的地名和机构名;

根据预设的映射关系,确定所述新闻文本中的机构名所对应的地名,其中所述映射关系是指机构名与机构所属地的地名之间的关系;

根据所述新闻文本中包含的地名以及所述新闻文本中各机构名对应的地名,生成目标地名集合;

确定目标地名集合中分数最高的地名为新闻所属地的地名;

将所述新闻文本和所述新闻所属地的地名发送给舆情分析设备进行舆情分析。

在一种实施例中,所述提取所述新闻文本中包含的地名和机构名,包括:

从所述新闻文本中清除满足第一预设句式的句子,并从剩余的新闻文本中提取地名和机构名。

在一种实施例中,所述提取所述新闻文本中包含的地名和机构名之前,所述方法还包括:

删除所述新闻文本中除文字和标点以外的其他内容。

在一种实施例中,所述提取所述新闻文本中包含的地名和机构名之前,所述方法还包括:

基于预设的分类模型,确定所述新闻文本是否是国际新闻,其中,若否则执行所述提取所述新闻文本中包含的地名和机构名的步骤。

本申请实施例第二方面提供一种新闻所属地识别装置,包括:

获取模块,用于获取新闻文本;

提取模块,用于提取所述新闻文本中包含的地名和机构名;

第一确定模块,用于根据预设的映射关系,确定所述新闻文本中的机构名所对应的地名,其中所述映射关系是指机构名与机构所属地的地名之间的关系;

生成模块,用于根据所述新闻文本中包含的地名以及所述新闻文本中各机构名对应的地名,生成目标地名集合;

第二确定模块,用于确定目标地名集合中分数最高的地名为新闻所属地的地名;

舆情分析模块,用于将所述新闻文本和所述新闻所属地的地名发送给舆情分析设备进行舆情分析。

在一种实施例中,所述提取模块包括:

处理单元,用于从所述新闻文本中清除满足第一预设句式的句子,并从剩余的新闻文本中提取地名和机构名。

在一种实施例中,该装置还包括:

删除模块,用于删除所述新闻文本中除文字和标点以外的其他内容。

在一种实施例中,该装置还包括:

第三确定模块,用于基于预设的分类模型,确定所述新闻文本是否是国际新闻,其中,若否则执行所述提取所述新闻文本中包含的地名和机构名的步骤。

本申请实施例第三方面提供一种计算机设备,包括处理器和存储器;

所述存储器中存储有指令,当所述指令被所述处理器执行时,所述处理器执行如上述第一方面所述的方法。

本申请实施例第四方面提供一种计算机存储介质,所述计算机存储介质上存储有计算机指令,所述计算机指令用于使所述计算机执行上述第一方面所述的方法。

基于以上各方面,本申请实施例提供的新闻所属地的识别方法、识别装置、设备及存储介质,通过获取新闻采集设备输出的新闻文本,提取所述新闻文本中包含的地名和机构名,根据预设的映射关系,确定所述新闻文本中的机构名所对应的地名,根据所述新闻文本中包含的地名以及所述新闻文本中各机构名对应的地名,生成目标地名集合,确定目标地名集合中分数最高的地名为新闻所属地的地名,将所述新闻文本和所述新闻所属地的地名发送给舆情分析设备进行舆情分析,从而实现了准确识别新闻所属地,为舆情分析提供参数的目的。

应当理解,上述发明内容部分中所描述的内容并非旨在限定本申请的实施例的关键或重要特征,亦非用于限制本申请的范围。本公申请的其它特征将通过以下的描述变得容易理解。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种新闻所属地的识别方法的流程图;

图2为本申请实施例提供的另一种新闻所属地的识别方法的流程图;

图3为本申请实施例提供的再一种新闻所属地的识别方法的流程图;

图4为本申请实施例提供的一种新闻所属地识别装置的结构示意图;

图5为本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本申请的实施例。虽然附图中显示了本申请的某些实施例,然而应当理解的是,本申请可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本申请。应当理解的是,本申请的附图及实施例仅用于示例性作用,并非用于限制本申请的保护范围。

本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

图1为本申请实施例提供的一种新闻所属地的识别方法的流程图,该方法可以由一种新闻所属地识别装置执行,如图1所示,新闻所属地的识别方法,包括:

S101、获取新闻采集设备输出的新闻文本。

本实施中所称的新闻采集设备包括如下至少一种:计算机、手机。具体的,新闻采集设备用于根据指定的关键词、统一资源定位符(Uniform Resource Locator,URL)或信息主题,使用基于链接分析的搜索引擎网络爬虫方法,通过多线程下载队列并发地自动采集新闻文本,其中,新闻文本包括:新闻的标题、作者和正文内容,但不局限于新闻的标题、作者和正文内容,比如在一些实施例中,新闻文本可能还包括播放该新闻文本的站点或频道的信息,以及新闻的来源信息、分类信息、相关图片等。

S102、提取所述新闻文本中包含的地名和机构名。

在本实施例中,因为新闻文本的机构名中也可能包含地名,例如,“山东大学党委组织”包含山东省,所以不光提取新闻文本中的地名,还提取新闻文本中的机构名。

示例的,在一种实施方式中,可以先从新闻文本中清除满足第一预设句式的句子,再从剩余的新闻文本中提取地名和机构名。比如在句式“5月23日济南电”中,济南并不是新闻候选地名,因此,可以从新闻文本中去掉这类满足“日期+地名+电”句式的句子。

进一步的,可通过正则表达式提取新闻文本中包含的地名和机构名,其中,地名中包含省、市、区。

示例地,在一种情形中,如果新闻文本中前N句话,且前M个字符出现如下正则表达式:“在+地名+(举行|召开|举办|开幕|考察|启动|开展|发布|拉开|落幕|实施|签署|闭幕|会见|落下|成立)”,则优先提取表达式中的地名作为候选的新闻所属地,其中,N与M可以灵活调整,本实施例中取N=4,M=300。

S103、根据预设的映射关系,确定所述新闻文本中的机构名所对应的地名,其中所述映射关系是指机构名与机构所属地的地名之间的关系。

具体的,映射关系是预先配置并存储好的。

示例的,例如,“山东大学党委组织”通过映射关系映射为地名“山东省”。

S104、根据所述新闻文本中包含的地名以及所述新闻文本中各机构名对应的地名,生成目标地名集合。

本实施例根据新闻文本得到的地名可以包括省、市、县地名中的至少一种,以及新闻文本中各机构对应的省、市、县的地名,可以将从新闻文本中提取出的所有地名集中在一起生成一个集合,即目标地名集合。

S105、确定目标地名集合中分数最高的地名为新闻所属地的地名。

具体的,首先分别计算目标地名集合中各地名在机构名中出现的次数以及在非机构名中出现的次数,然后将计算得到的次数代入预设的分数计算模型中,得地名的分数,最后将得分最高的地名作为新闻所属地的地名。其中,分数计算模型为:score=X*w1+Y*w2(w1>w2),X代表在非机构名中出现的次数,Y代表在机构名中出现的次数,w1、w2是权重值,为常数。

示例的,例如,地名“山东”在非机构名中出现的次数为3,在机构名中出现的次数为2,最后“山东”省的分数为:score=3*w1+2*w2。

或者在其他实施例中,步骤S105也可以被替换为确定目标地名集合中个数最多的地名为新闻所属地的地名。

本实施例,具体的,统计目标地名集合中出现地名的个数,以出现个数最多的地名作为新闻所属地的地名。

可选的,本实施例在执行确定新闻所属地的地名的操作时,首先可以先分别计算目标地名集合中各地名出现的次数占目标地名集合中总地名数量的比例,若所有地名出现的比例均小于预设阈值,则确定新闻所属地没有所属地。若存在出现比例大于预设阈值的地名,则从该些地名中选择出现个数最多的作为新闻所属地的地名,比如,如果目标地名集合中仅含有省名,则选出现个数最多的省名作为新闻所属地的地名;如果目标地名集合中仅含有市名,则选出现个数最多的市名作为新闻所属地的地名;如果目标地名集合中仅含有县名,则选出现个数最多的县名作为新闻所属地的地名;如果目标地名集合中含有省名、市名和县名,则选出由目标地名集合中出现个数最多的省名、市名和县名构成的地名作为新闻所属地的地名。

或者在其他实施例中,步骤S105也可以被替换为:将目标地名集合中出现在预设句型中的地名确定为新闻所属地的地名。比如,如果新闻文本中出现如下正则句型:

a)'我省|本省';

b)'我市[^场]|本市[^场]|首府',其中“市[^场]”代表“市”字的后面不跟着“场”字;

c)'我区|本区|我县|本县';

表示新闻文本为本地新闻文本,则可以获取播放该新闻文本的频道或站点中的地名,并将该地名作为新闻的所属地地名。

可选的,如果同时满足上述两种情形,则选择第二种情形的地点作为新闻的所属地。

S106、将所述新闻文本和所述新闻所属地的地名发送给舆情分析设备进行舆情分析。

具体的,舆情分析设备可将收集到的新闻文本和新闻所属地的地名进行舆情分析,并可将分析结果发送给新闻所属地的国家行政机关、大型企业等。

本实施例通过获取新闻采集设备输出的新闻文本,提取所述新闻文本中包含的地名和机构名,根据预设的映射关系,确定所述新闻文本中的机构名所对应的地名,根据所述新闻文本中包含的地名以及所述新闻文本中各机构名对应的地名,生成目标地名集合,确定目标地名集合中分数最高的地名为新闻所属地的地名,将所述新闻文本和所述新闻所属地的地名发送给舆情分析设备进行舆情分析,从而实现了准确识别新闻所属地,为舆情分析提供参数的目的。

图2为本申请实施例提供的另一种新闻所属地的识别方法的流程图,如图2所示,S102所述提取所述新闻文本中包含的地名和机构名之前,所述方法还包括:

S1、删除所述新闻文本中除文字和标点以外的其他内容。

具体的,可采用正则表达式等方式删除所述新闻文本中除文字和标点以外的其他内容。

示例的,例如,清除一些无意义的字符“●、↓、▲、▼、★、

本实施例通过删除所述新闻文本中除文字和标点以外的其他内容,保证了提取所述新闻文本中包含的地名和机构名的准确性。

图3为本申请实施例提供的再一种新闻所属地的识别方法的流程图,如图3所示,S102所述提取所述新闻文本中包含的地名和机构名之前,所述方法还包括:

S2、基于预设的分类模型,确定所述新闻文本是否是国际新闻,其中,若否则执行所述提取所述新闻文本中包含的地名和机构名的步骤。

本实施例,具体的,分类模型可采用对数几率回归模型lr、支持向量机模型svm、卷积神经网络模型cnn、循环神经网络模型rnn等。

本实施例通过基于预设的分类模型,确定所述新闻文本是否是国际新闻,其中,若否则执行所述提取所述新闻文本中包含的地名和机构名的步骤,提高了新闻所属地识别的精准性和舆情分析的准确性。

在可选的实施例中,S102所述提取所述新闻文本中包含的地名和机构名之前,所述方法还可以包括:通过国家机关词语的占比确定所述新闻文本是否是国家新闻,其中,若否则执行所述提取所述新闻文本中包含的地名和机构名的步骤。

具体的,国家机关发布的新闻常常包含如下关键词:国家发展和改革委员会、国家发展改革委员会、国家民族事务委员会、国家安全部等。

如果新闻出现的地点次数大于N(本实施例中N为3),且国家机关词语占比大于一个阈值(本实施例中阈值为0.5),那么此新闻为国家机关新闻。

图4为本申请实施例提供的一种新闻所属地识别装置的结构示意图,如图4所示,新闻所属地识别装置40包括:

获取模块41,用于获取新闻文本;

提取模块42,用于提取所述新闻文本中包含的地名和机构名;

第一确定模块43,用于根据预设的映射关系,确定所述新闻文本中的机构名所对应的地名,其中所述映射关系是指机构名与机构所属地的地名之间的关系;

生成模块44,用于根据所述新闻文本中包含的地名以及所述新闻文本中各机构名对应的地名,生成目标地名集合;

第二确定模块45,用于确定目标地名集合中分数最高的地名为新闻所属地的地名;

舆情分析模块46,用于将所述新闻文本和所述新闻所属地的地名发送给舆情分析设备进行舆情分析。

在一种实施方式中,提取模块42包括:

处理单元,用于从所述新闻文本中清除满足第一预设句式的句子,并从剩余的新闻文本中提取地名和机构名。

在一种实施方式中,新闻所属地识别装置40还包括:

删除模块,用于删除所述新闻文本中除文字和标点以外的其他内容。

在一种实施方式中,新闻所属地识别装置40还包括:

第三确定模块,用于基于预设的分类模型,确定所述新闻文本是否是国际新闻,其中,若否则执行所述提取所述新闻文本中包含的地名和机构名的步骤。

本实施例提供的装置能够执行上述任一方法实施例的方法,其执行方式和效果类似,在这里不再赘述。

图5为本申请实施例提供的一种计算机设备的结构示意图,如图5所示,计算机设备500,包括处理器510和存储器511;

所述存储器中存储有指令,当所述指令被所述处理器执行时,所述处理器执行上述任一项实施例所述的方法。

本申请实施例还提供一种计算机存储介质,所述计算机存储介质上存储有计算机指令,所述计算机指令用于使所述计算机执行上述任一项实施例所述的方法。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外,虽然采用特定次序描绘了各操作,但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行,或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地,在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号