首页> 中国专利> 新闻标题事件名生成方法和装置

新闻标题事件名生成方法和装置

摘要

本申请涉及一种新闻标题事件名生成方法和装置,该方法包括如下步骤:输入新闻标题;对新闻标题进行语义角色标注,从中抽取事件名;如果抽取成功,则输出抽取的事件名;如果不成功,则对新闻标题进行依存句法分析,抽取事件名。本方案首先对标题进行语义角色标注,尝试从中抽取事件名;在尝试无效的情况下,再对标题进行依存句法分析;本方法能够尽可能挖掘事件名结构,在准确率和召回率上达到不错的效果;经测试,本方案生成的事件名形式简短、语义丰富、表达连续、语句通顺,达到了实用的水平。

著录项

  • 公开/公告号CN116227476A

    专利类型发明专利

  • 公开/公告日2023-06-06

    原文格式PDF

  • 申请/专利权人 北京智慧星光信息技术有限公司;

    申请/专利号CN202310220477.X

  • 发明设计人 郑才松;

    申请日2023-03-08

  • 分类号G06F40/258(2020.01);G06F40/211(2020.01);G06F40/30(2020.01);

  • 代理机构北京细软智谷知识产权代理有限责任公司 11471;

  • 代理人涂凤琴

  • 地址 100080 北京市海淀区海淀大街8号A座22层A区

  • 入库时间 2023-06-23 06:30:03

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-06-23

    实质审查的生效 IPC(主分类):G06F40/258 专利申请号:202310220477X 申请日:20230308

    实质审查的生效

说明书

技术领域

本申请涉及自然语言处理技术领域,具体涉及一种新闻标题事件名生成方法和装置。

背景技术

随着互联网技术的飞速发展,网民通过互联网进行意见发表和观点表达已成为常态。因此,及时掌握网络舆情事件,尤其是负面舆情事件,对保护企业品牌、维护企业形象、顺利举办活动等至关重要。

事件名生成是事件抽取的重要技术,在舆情分析中有很广泛的应用场景。基于句法分析的主谓宾事件短语提取和基于语句压缩的事件描述提取是事件名称生成的两个重要方法。基于句法的主谓宾提取,一方面对句法分析的性能要求较高,在实际的使用过程中常会因为句法分析错误而导致提取错误,并存在召回率差等特点。

基于语句压缩的事件描述提取方法,从实现的技术来看,可分为基于模版规则的方法、基于统计的方法和基于深度学习的方法。不过,在模板规则上,存在着与句法分析一样的不足;在深度学习方法上,需要大量的标注语料,整体技术仍处于初步阶段。

发明内容

为至少在一定程度上克服相关技术中存在的常因句法分析错误而导致提取错误,且存在召回率差等问题,本申请提供一种新闻标题事件名生成方法和装置。

根据本申请实施例的第一方面,提供一种新闻标题事件名生成方法,包括如下步骤:

输入新闻标题;

对新闻标题进行语义角色标注,从中抽取事件名;

如果抽取成功,则输出抽取的事件名;如果不成功,则对新闻标题进行依存句法分析,抽取事件名。

进一步地,对新闻标题进行语义角色标注,包括如下步骤:

以新闻标题的谓词为中心,分析新闻标题中各成分与谓词之间的关系,确定谓词-论元结构;

基于谓词-论元结构确定事件名。

进一步地,基于谓词-论元结构确定事件名,包括如下步骤:

基于谓词-论元结构,确定谓词以及相应的施事和受事,构造三元组;

按照施事-谓词-受事的顺序进行拼接,获得事件名。

进一步地,对新闻标题进行依存句法分析,包括如下步骤:

分析新闻标题中词语之间的依存关系,确定语句结构;

基于语句结构形成主谓宾三元组,将主谓宾三元组拼接后获得事件名。

进一步地,所述语句结构包括:句子的核心的动词,以及相应与该动词有关系的词语;

基于语句结构形成主谓宾三元组,包括如下步骤:

以动词为核心,找到对应的主语和宾语;

通过修饰关系和并列关系对主语和宾语进行补充,形成主谓宾三元组。

根据本申请实施例的第二方面,提供一种新闻标题事件名生成装置,包括:

输入模块,用于输入新闻标题;

标注模块,用于对新闻标题进行语义角色标注,从中抽取事件名;如果抽取成功,则输出抽取的事件名;

分析模块,用于在标注模块抽取不成功时,对新闻标题进行依存句法分析,抽取事件名。

进一步地,所述标注模块对新闻标题进行语义角色标注时,具体用于:以新闻标题的谓词为中心,分析新闻标题中各成分与谓词之间的关系,确定谓词-论元结构;基于谓词-论元结构确定事件名。

进一步地,所述标注模块基于谓词-论元结构确定事件名时,具体用于:基于谓词-论元结构,确定谓词以及相应的施事和受事,构造三元组;按照施事-谓词-受事的顺序进行拼接,获得事件名。

进一步地,所述分析模块对新闻标题进行依存句法分析时,具体用于:分析新闻标题中词语之间的依存关系,确定语句结构;基于语句结构形成主谓宾三元组,将主谓宾三元组拼接后获得事件名。

进一步地,所述语句结构包括:句子的核心的动词,以及相应与该动词有关系的词语;

所述分析模块基于语句结构形成主谓宾三元组时,具体用于:以动词为核心,找到对应的主语和宾语;通过修饰关系和并列关系对主语和宾语进行补充,形成主谓宾三元组。

本申请的实施例提供的技术方案具备以下有益效果:

本方案首先对标题进行语义角色标注,尝试从中抽取事件名;在尝试无效的情况下,再对标题进行依存句法分析;本方法能够尽可能挖掘事件名结构,在准确率和召回率上达到不错的效果;经测试,本方案生成的事件名形式简短、语义丰富、表达连续、语句通顺,达到了实用的水平。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。

图1是本发明实施例示出的一种新闻标题事件名生成方法的流程图。

图2是本发明实施例示出的一种事件名生成方法的执行逻辑图。

图3是本发明实施例示出的一种新闻标题事件名生成装置的框图。

图4是本发明实施例示出的一种计算机设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的方法和装置的例子。

针对当前方法存在的问题,本申请提出一种新闻标题事件名生成的方法。新闻标题一般长度较短,同时蕴含的信息丰富,是事件名生成的理想实验对象。

图1是根据一示例性实施例示出的一种新闻标题事件名生成方法的流程图。该方法可以包括如下步骤:

步骤S1、输入新闻标题;

步骤S2、对新闻标题进行语义角色标注,从中抽取事件名;

步骤S3、如果抽取成功,则输出抽取的事件名;如果不成功,则对新闻标题进行依存句法分析,抽取事件名。

本方案首先对标题进行语义角色标注,尝试从中抽取事件名;在尝试无效的情况下,再对标题进行依存句法分析;本方法能够尽可能挖掘事件名结构,在准确率和召回率上达到不错的效果;经测试,本方案生成的事件名形式简短、语义丰富、表达连续、语句通顺,达到了实用的水平。

应当理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

为了使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明的实施例作进一步详细描述。

如图2所示,本申请实施例的方法包括如下步骤:

S1、输入新闻标题;

S2:对标题进行语义角色标注,从中抽取事件名,抽取成功则结束,若抽取不到,转到S3;

S3:进行依存句法分析,抽取事件名。

本申请的方案结合语义角色标注和依存句法分析,统计分析热搜命名特点,尽可能挖掘事件名结构,在准确率和召回率上达到不错的效果。目前生成事件名形式简短、语义丰富、表达连续、语句通顺,达到了实用的水平。本方案首先对标题进行语义角色标注,从中抽取以谓词为中心的事件三元组。在上述方法无效的情况下,再对标题进行依存句法分析。下面分别对两种方式做具体的说明。

1、语义角色标注

运用语义角色标注工具分析新闻标题。本申请的实施例中,使用LTP(LanguageTechnology Platform,语言技术平台),它是哈工大社会计算与信息检索研究中心开发的一整套中文语言处理系统。它提供了中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等丰富、高效、精准的自然语言处理技术。这里应用了语义角色标注功能。

在一些实施例中,步骤S2对新闻标题进行语义角色标注,具体包括如下步骤:以新闻标题的谓词为中心,分析新闻标题中各成分与谓词之间的关系,确定谓词-论元结构;基于谓词-论元结构确定事件名。

语义角色标注是实现浅层语义分析的一种方式。在一个句子中,谓词是对主语的陈述或说明,指出“做什么”、“是什么”或“怎么样”,代表了一个事件的核心,跟谓词搭配的名词称为论元。

在一些实施例中,基于谓词-论元结构确定事件名,包括如下步骤:基于谓词-论元结构,确定谓词以及相应的施事和受事,构造三元组;按照施事-谓词-受事的顺序进行拼接,获得事件名。

语义角色是指论元在动词所指事件中担任的角色。主要有:施事者(Agent)、受事者(Patient)、客体(Theme)、经验者(Experiencer)、受益者(Beneficiary)、工具(Instrument)、处所(Location)、目标(Goal)和来源(Source)等。

语义角色标注(Semantic Role Labeling,SRL)以句子的谓词为中心,不对句子所包含的语义信息进行深入分析,只分析句子中各成分与谓词之间的关系,即句子的谓词(Predicate)-论元(Argument)结构。

事件名生成方式:找到谓词,相应的施事和受事,构造三元组(施事,谓词,受事),拼接后即是事件名。

2、依存句法分析

在一些实施例中,步骤S3对新闻标题进行依存句法分析,具体包括如下步骤:分析新闻标题中词语之间的依存关系,确定语句结构;基于语句结构形成主谓宾三元组,将主谓宾三元组拼接后获得事件名。

依存句法分析,通过分析句子中词语之间的依存关系确定句子结构。本申请的实施例中,使用DDparser(BaiduDependencyParser)作为依存句法分析工具。DDParser是百度自然语言处理部基于深度学习平台飞桨(PaddlePaddle)和大规模标注数据研发的依存句法分析工具。

在一些实施例中,所述语句结构包括:句子的核心的动词,以及相应与该动词有关系的词语。基于语句结构形成主谓宾三元组,包括如下步骤:以动词为核心,找到对应的主语和宾语;通过修饰关系和并列关系对主语和宾语进行补充,形成主谓宾三元组。

通过对一个句子进行依存句法分析,得到句子的核心的动词及相应与该动词有关系的依附的词,如主语关系、动宾关系、谓语关系集合。在此基础上,以动词为核心,找到对应的主语和宾语,并通过修饰关系以及并列关系等对主语和宾语进行补充,最终形成主谓宾三元组,拼接后即是事件名。

为了尽可能覆盖事件名的句法结构,选取了2000条百度热搜进行研究,统计分析其特点,并对每种结构设置相应的模板。本申请的方案在对10000条新闻标题进行测试,发现主谓宾结构占比达到87.7%,该类结构抽取的准确性在90%以上。表明本方法能够在绝大多数的新闻标题上达到较好的效果。

图3是根据一示例性实施例示出的一种新闻标题事件名生成装置的框图。参照图3,该装置包括:输入模块301、标注模块302和分析模块303。

输入模块301用于输入新闻标题;

标注模块302用于对新闻标题进行语义角色标注,从中抽取事件名;如果抽取成功,则输出抽取的事件名;

分析模块303用于在标注模块302抽取不成功时,对新闻标题进行依存句法分析,抽取事件名。

一些实施例中,所述标注模块302对新闻标题进行语义角色标注时,具体用于:以新闻标题的谓词为中心,分析新闻标题中各成分与谓词之间的关系,确定谓词-论元结构;基于谓词-论元结构确定事件名。

一些实施例中,所述标注模块302基于谓词-论元结构确定事件名时,具体用于:基于谓词-论元结构,确定谓词以及相应的施事和受事,构造三元组;按照施事-谓词-受事的顺序进行拼接,获得事件名。

一些实施例中,所述分析模块303对新闻标题进行依存句法分析时,具体用于:分析新闻标题中词语之间的依存关系,确定语句结构;基于语句结构形成主谓宾三元组,将主谓宾三元组拼接后获得事件名。

一些实施例中,所述语句结构包括:句子的核心的动词,以及相应与该动词有关系的词语。所述分析模块303基于语句结构形成主谓宾三元组时,具体用于:以动词为核心,找到对应的主语和宾语;通过修饰关系和并列关系对主语和宾语进行补充,形成主谓宾三元组。

关于上述实施例中的装置,其中各个模块执行操作的具体步骤已经在有关该方法的实施例中进行了详细描述,此处不再详细阐述说明。上述新闻标题事件名生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库可以用于存储新闻标题,例如,用于进行分析验证的2000条百度热搜。上述实施例中的数据库系统也可以是通过独立于该计算机设备的数据库设备实现。该计算机设备的网络接口用于接入网络,从而与外部的终端进行通信连接。该计算机程序被处理器执行时以实现一种新闻标题事件名生成方法。

可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是,在本申请的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。

此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器,磁盘或光盘等。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号