首页> 中国专利> 基于端到端深度学习模型的文章标题生成方法

基于端到端深度学习模型的文章标题生成方法

摘要

本发明公开了基于端到端深度学习模型的文章标题生成方法,本发明对文章进行分类,对文章标题进行意图识别,在输入端提供文章品类和标题意图组合,这些额外信息优化了标题生成的质量,并且可以人工控制标题内容形式,具备更强的多样性。本发明能够选取热门的标题意图组合,生成的标题内容更加具有吸引力;因为模型生成的标题内容和输入的意图组合有关,因此可以通过给定不同的意图组合来控制标题的内容形式,在文章标题需要突出某些方面内容时有很大作用。

著录项

  • 公开/公告号CN112560458A

    专利类型发明专利

  • 公开/公告日2021-03-26

    原文格式PDF

  • 申请/专利权人 杭州艾耕科技有限公司;

    申请/专利号CN202011451526.3

  • 发明设计人 刘畅;罗学优;

    申请日2020-12-09

  • 分类号G06F40/258(20200101);G06F40/289(20200101);G06F16/34(20190101);G06F16/35(20190101);

  • 代理机构33283 杭州天昊专利代理事务所(特殊普通合伙);

  • 代理人何碧珩;卓彩霞

  • 地址 310052 浙江省杭州市滨江区六和路368号一幢(北)三楼D3052室

  • 入库时间 2023-06-19 10:24:22

说明书

技术领域

本发明具体涉及基于端到端深度学习模型的文章标题生成方法。

背景技术

针对垂直领域文章标题自动生成的问题,目前主要有以下的解决方法:

(1)根据用户输入搜索网络上垂直领域的文章标题。

(2)收集垂直领域文章标题后,总结内容规律,人工编写标题模板,在模板中填充文章的具体信息来生成标题。

现有技术中,存在以下缺点:

(1)基于搜索和模板的标题自动生成方法,生成的标题与文章正文关联度低,会给读者带来题文不符的不良感受。

(2)现有技术生成的标题多样性较差,无法人工控制标题内容形式。

发明内容

针对上述情况,为克服现有技术的缺陷,本发明提供基于端到端深度学习模型的文章标题生成方法。

为了实现上述目的,本发明提供以下技术方案:

基于端到端深度学习模型的文章标题生成方法,包括以下步骤:

(1)将文章正文输入文章品类分类模型,得到文章品类;将文章分割成小段,利用意图分类模型,预测文章意图;根据文章品类和文章意图,从该文章品类下的热门的标题意图组合中,优先选取由文章意图组成的标题意图组合;

(2)对文章正文进行分词,选取摘要,得到正文摘要;

(3)将正文摘要、文章品类、标题意图组合拼接后得到输入数据,将其输入到端到端标题生成模型,得到文章标题。

进一步地,所述端到端标题生成模型的构建包括数据集建立与模型训练,所述数据集建立与模型训练包括以下步骤:

(1.1)搜集垂直领域的文章语料;

(1.2)由垂直领域专家对步骤(1.1)得到的文章语料中的文章进行归类,得到文章品类;选取一定量的文章,得到文章数据集{A

(1.3)对文章标题按照标点符号分割成小段,得到小段标题数据集{T

(1.4)处理全量文章语料:利用步骤(1.2)和(1.3)得到的模型预测文章品类和标题意图组合;对文章正文和文章标题进行分词,选取正文摘要,将文章品类、标题意图组合和正文摘要拼接后作为输入,将分词后的标题作为预测目标,训练transformer模型得到端到端标题生成模型。

进一步地,根据步骤(1.4)中得到的文章品类和标题意图组合,将标题意图组合按照文章品类归类,并根据文章在网络上的阅读量进行排序,得到每个文章品类下热门的标题意图组合。

进一步地,步骤(1)具体为:将文章正文输入所述步骤(1.2)中的文章品类分类模型,对文章正文预测得到文章品类,将文章正文按照标点符号分割成小段,利用所述步骤(1.3)中的意图分类模型,预测文章意图,根据文章品类和文章意图,从对应文章品类下的热门的标题意图组合,优先选取由文章意图组成的标题意图组合;也就是说:计算热门的标题意图组合属于文章意图的意图比例,然后选择意图比例高的意图组合作为标题意图组合。

进一步地,步骤(2)具体为:使用sentencepiece分词工具对文章正文进行分词,计算文章单词总数,如果不超过500,将整篇正文作为摘要,如果超过500,则选取文章开头400个单词和结尾的100个单词组成正文摘要。

进一步地,步骤(3)具体为:将文章品类、标题意图组合和正文摘要用空格拼接后输入到端到端标题生成模型,生成相应的文章标题。

一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时能够实现以上所述的文章标题生成方法中的步骤。

一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时能够实现以上所述的文章标题生成方法中的步骤。

本发明的有益效果是:

(1)本发明采用深度学习技术,对文章进行分类,对文章标题进行意图识别,在输入端提供文章品类和标题意图组合,这些额外信息优化了标题生成的质量,并且可以人工控制标题内容形式,具备更强的多样性。

(2)本发明能够选取热门的标题意图组合,生成的标题内容更加具有吸引力;因为模型生成的标题内容和输入的意图组合有关,因此可以通过给定不同的意图组合来控制标题的内容形式,在文章标题需要突出某些方面内容时有很大作用。

(3)采用本发明方法得到的标题多样性更好,而且本发明的文章标题生成方法可以方便快速地迁移到不同的垂直领域。

附图说明

图1是标题生成模型训练流程图。

图2是标题生成流程图。

图3是计算机设备的示意图。

具体实施方式

以下结合附图对本发明的技术方案在汽车领域做进一步详细说明,应当指出的是,具体实施方式只是对本发明的详细说明,不应视为对本发明的限定。

实施例1

如图2所示,基于端到端深度学习模型的文章标题生成方法,包括以下步骤:

(1)将文章正文输入文章品类分类模型,得到文章品类;根据文章品类和文章包含的意图,从该品类下的热门标题意图组合中,优先选取文章意图组成的标题意图组合;

(2)对文章正文进行分词,选取摘要,得到正文摘要;

(3)将正文摘要、文章品类、标题意图组合拼接后得到输入数据,将其输入到端到端标题生成模型,得到文章标题。

在一些优选的方式中,端到端标题生成模型的构建包括数据集建立与模型训练,如图1所示,所述数据集建立与模型训练包括以下步骤:

(1.1)搜集垂直领域的文章语料;本实施例中,所述垂直领域为汽车领域;

(1.2)由汽车领域专家对步骤(1.1)得到的文章语料中的汽车文章进行归纳分析,得到21个文章品类,例如单车导购、双车对比等,总结每个品类中文章的特征,编写文章分类标注指南并指导数据标注人员学习。选取大约几千篇文章,得到文章数据集{A

(1.3)由汽车领域专家对汽车文章标题进行归纳分析,得到26个标题意图类别,例如动力、价格、外观等,总结每个标题意图类别的特征,编写意图分类标注指南,说明每个意图类别对应的内容形式或者关键词,并且附上一些示例,根据标注指南指导数据标注人员学习。选取大约几千篇文章的标题,将文章标题按照标点符号分割成小段,得到小段标题数据集{T

采用上述的数据集训练bert模型得到意图分类模型;此处的bert模型为现有技术中常规的bert模型,本发明不对其进行改进。

(1.4)处理全量文章语料:利用步骤(1.2)和(1.3)得到的模型预测文章品类a和标题意图组合b;使用sentencepiece分词工具对文章正文、文章标题进行分词,对文章正文分词后,计算文章单词总数,如果不超过500,将整篇正文作为摘要c,如果超过500,则选取文章开头400个单词和结尾的100个单词组成正文摘要c,将文章品类a、标题意图组合b和正文摘要c用空格拼接后作为输入,将分词后的标题d作为预测目标,训练transformer模型得到端到端标题生成模型;此处的transformer模型为现有技术中已知的模型,本发明不对其进行改进。

在一些优选的方式中,根据步骤(1.4)中得到的文章品类和标题意图组合,将标题意图组合按照文章品类归类,并根据文章在网络上的阅读量进行排序,得到每个文章品类下热门的标题意图组合。因为一篇文章对应地会有文章品类和标题意图组合,所以文章品类和标题意图组合是相互关联的,可以将标题意图组合按照文章品类归类。文章的品类确定后,该文章的标题意图组合对应的文章品类也就确定了。所述热门的标题意图组合就是热门文章的标题对应的意图组合。

在一些优选的方式中,步骤(1)具体为:将文章正文输入上文所述的步骤(1.2)中的文章品类分类模型,对文章正文预测得到文章品类,比如对一篇文章进行分类得到其文章品类为“单车导购”;

将文章正文按照标点符号分割成小段,利用步骤(1.3)中的意图分类模型,预测文章包含的意图,比如文章的意图组合为{动力,价格,外观};根据文章品类和文章包含的意图,从得到的热门的标题意图组合中选取对应文章品类下的热门的标题意图组合,优先选取由文章意图组成的标题意图组合;也就是说:计算热门的标题意图组合属于文章意图的意图比例,然后选择意图比例高的意图组合作为标题意图组合。

比如“单车导购”品类下的热门的标题意图组合有{“动力,价格”,“价格,外观”,“动力,内饰”},计算这些标题意图组合中属于文章意图的意图比例,选择意图比例高的意图组合,作为标题意图组合。“动力,价格”和“价格,外观”的意图比例为100%,而“动力,内饰”的意图比例为50%,因此选择“动力,价格”和“价格,外观”。

因为意图分类模型虽然使用标题意图数据进行训练得到,但是标题内容和正文内容的差异性不大,使用该模型对文章正文进行预测得到文章包含的意图,也有不错的效果。

在一些优选的方式中,步骤(2)具体为:使用sentencepiece分词工具对文章正文进行分词,计算文章单词总数,如果不超过500,将整篇正文作为摘要,如果超过500,则选取文章开头400个单词和结尾的100个单词组成正文摘要。

在一些优选的方式中,步骤(3)具体为:将文章品类、标题意图组合和正文摘要用空格拼接后输入到端到端标题生成模型,生成相应的文章标题,标题内容与标题意图组合对应。

实施例2,参照附图3。

在本实施例中,提供了一种计算机设备100,包括存储器102、处理器101及存储在存储器102上并可在处理器101上运行的计算机程序103,处理器101执行计算机程序103时能够实现上述实施例1所提供的文章标题生成方法中的步骤。

实施例3

在本实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时能够实现上述各个实施例所提供的文章标题生成方法中的步骤。

在本实施例中,所述计算机程序可以是实施例2中的计算机程序。

在本实施例中,所述计算机可读存储介质可以被实施例2中的计算机设备所运行。

本领域普通技术人员可以理解实现上述实施例中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例的所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明的保护范围应以所附权利要求为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号