首页> 中国专利> 一种新闻文本自动摘要及语音播报系统

一种新闻文本自动摘要及语音播报系统

摘要

本发明属于人工智能技术领域,公开了一种新闻文本自动摘要及语音播报系统及方法,基于潜在语义分析方法,实现新闻文本摘要的自动生成;基于语音合成方法,实现摘要及全文的语音播报;综合采用文本自动摘要技术和语音合成技术,从任意长度的新闻文本中抽取权重最高的3句作为摘要,实现长文本的快速归纳及播报,潜在语义分析方法包括通过统计的方法,提取并量化潜在的语义结构,消除同义词、多义词的影响,提高文本准确性;新闻文本摘要的自动生成包括通过大量文本数据的训练,自动摘要系统实现对于任意长度文本,摘要的可控生成,并且可以通过参数控制输出摘要的句数。本发明有效地提升了信息的获取效率,丰富了新闻的展现形式。

著录项

  • 公开/公告号CN112685556A

    专利类型发明专利

  • 公开/公告日2021-04-20

    原文格式PDF

  • 申请/专利权人 西安掌上盛唐网络信息有限公司;

    申请/专利号CN202011591547.5

  • 发明设计人 杨洲;徐涛;卜晓晨;李梓甜;

    申请日2020-12-29

  • 分类号G06F16/34(20190101);G06F40/30(20200101);G10L13/027(20130101);

  • 代理机构

  • 代理人

  • 地址 710000 陕西省西安市高新区唐延南路东侧逸翠园-西安(二期)第4幢2单元4层20404号房

  • 入库时间 2023-06-19 10:41:48

说明书

技术领域

本发明属于人工智能技术领域,尤其涉及一种新闻文本自动摘要及语音播报系统。

背景技术

目前:为了对企业信息查询平台和平台专业版新闻舆情维度进行优化以及舆情子站的搭建,扩展新闻来源并提高新闻时效性,需要对新闻舆情维度进行全面改造。在展示新闻列表时,不仅需要展示新闻题目,同时需要显示新闻摘要作为该新闻正文的简介,方便用户对该新闻正文的大致浏览。

一般地,直接截取正文的一部分作为摘要显示,例如新闻正文的第一段内容作为新闻摘要显示给用户。可见,现有新闻摘要中,仅仅采用截取新闻正文前几百字的方式进行显示,导致新闻摘要与搜索关键词的相关度不够高,展示效果不好。为了提高新闻摘要的准确度,一般都是通过新闻编辑人员进行人为提取,但是这种方式效率低下,无法适应后互联网时代下对海量新闻内容摘要的实际需要,而且浪费人力,人员成本高。

通过上述分析,现有技术存在的问题及缺陷为:

(1)人为提取新闻摘要的方式,效率低下,无法适应后互联网时代下对海量新闻内容摘要的实际需要。

(2)浪费人力,人员成本高

解决以上问题及缺陷的难度为:

单纯凭借人工无法解决。

解决以上问题及缺陷的意义为:

解决了大量的新闻编辑人员人力成本,实现了对海量新闻内容的快速摘要,提升了用户的资讯获取效率,并且优化了新闻阅读体验(新闻简讯语音播报)。

发明内容

针对现有技术存在的问题,本发明提供了一种新闻文本自动摘要及语音播报系统。

本发明是这样实现的,一种新闻文本自动摘要及语音播报方法包括:

步骤一,基于潜在语义分析方法,实现新闻文本摘要的自动生成;

步骤二,基于语音合成方法,实现摘要及全文的语音播报;

步骤三,综合采用文本自动摘要技术和语音合成技术,从任意长度的新闻文本中抽取权重最高的3句作为摘要,实现长文本的快速归纳及播报。

进一步,所述潜在语义分析方法包括:

通过统计的方法,提取并量化潜在的语义结构,消除同义词、多义词的影响,提高文本准确性。

进一步,所述新闻文本摘要的自动生成包括:

通过大量文本数据的训练,自动摘要系统实现对于任意长度文本,摘要的可控生成,并且可以通过参数控制输出摘要的句数。

进一步,所述新闻文本的获取方式为新闻页面链接、文本文件或字符串。

进一步,所述新闻文本在获取后首先进行预处理,所述预处理采用的方法具体包括:

(1)中文存在复杂的符号:将中文符号分为三类,①停顿,如逗号、顿号、冒号、句号等,在这些位置进行断句,单独成句并进行模型推理;②不停顿,如书名号、引号等,对这些符号进行删除处理;③导致语气变化,如问号,保留并导入模型进行推理;

(2)根据表示停顿的符号位置,对长句进行切分,逐次进行推理,并对结果进行拼接;

(3)采用中英文模型相结合的方法,设计算法对外来词和汉字进行区分,并分别采用英文模型和中文模型处理,其中,对于出现频率较高的英文字母朗读,在本地以数组的形式保存其标准读音,实现本地调用,提升模型效率;

(4)基于cn2an库和自有算法,通过对原始数据的预处理,将阿拉伯数字转为对应的汉字,再进行模型推理。

进一步,步骤二中,所述语音合成方法采用espnet2框架,训练了新闻播报场景下的中文、英文女声语音合成模型。

本发明的另一目的在于提供一种新闻文本自动摘要及语音播报系统,所述新闻文本自动摘要及语音播报系统包括:

新闻文本自动摘要模块:采用文本自动摘要技术,从任意长度的新闻文本中抽取权重最高(最能体现新闻主旨)的3句作为摘要,实现了长文本的快速归纳。

语音播报模块:采用语音合成技术,通过模型推理,将文本内容转换成相应的音频。

结合上述的所有技术方案,本发明所具备的优点及积极效果为:

本发明能够实现对新闻文本的自动摘要及语音播报,能够降低人力成本、优化阅读体验(特指简讯语音播报这种新颖的新闻呈现方式)、提升信息获取效率。

本发明有效地提升了信息的获取效率,丰富了新闻的展现形式。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的新闻文本自动摘要及语音播报方法流程图。

图2是本发明实施例提供的新闻文本的预处理方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

针对现有技术存在的问题,本发明提供了一种新闻文本自动摘要及语音播报系统,下面结合附图对本发明作详细的描述。

如图1所示,本发明实施例提供的新闻文本自动摘要及语音播报方法包括:

S101,基于潜在语义分析方法,实现新闻文本摘要的自动生成;

S102,基于语音合成方法,实现摘要及全文的语音播报;

S103,综合采用文本自动摘要技术和语音合成技术,从任意长度的新闻文本中抽取权重最高的3句作为摘要,实现长文本的快速归纳及播报。

如图2所示,本发明实施例提供的新闻文本的预处理方法包括:

S201,中文存在复杂的符号:将中文符号分为三类,①停顿,如逗号、顿号、冒号、句号等,在这些位置进行断句,单独成句并进行模型推理;②不停顿,如书名号、引号等,对这些符号进行删除处理;③导致语气变化,如问号,保留并导入模型进行推理。

S202,根据表示停顿的符号位置,对长句进行切分,逐次进行推理,并对结果进行拼接;

S203,采用中英文模型相结合的方法,设计算法对外来词和汉字进行区分,并分别采用英文模型和中文模型处理,其中,对于出现频率较高的英文字母朗读,在本地以数组的形式保存其标准读音,实现本地调用,提升模型效率;

S204,基于cn2an库和自有算法,通过对原始数据的预处理,将阿拉伯数字转为对应的汉字,再进行模型推理。

下面结合具体实施例对本发明进一步进行描述:

①基于NLP--LSA(潜在语义分析)技术,实现了新闻文本摘要的自动生成

1.1自然语言处理在文本摘要中的应用

自然语言处理(NLP)是现代计算机科学和人工智能领域的一个重要分支,是一门融合了语言学、数学、计算机科学的科学。主要应用有,搜索自动更正、语言翻译、聊天机器人、定向广告等。

1.2LSA介绍(主要应用的技术)

潜在语义分析(LSA)是一种通过对大量文本集进行分析,自动生成关键字-语义映射规则的方法。通过统计的方法,提取并量化潜在的语义结构,消除同义词、多义词的影响,提高文本准确性。该技术在信息过滤、信息分类、交叉语言检索等领域得到广泛应用。

1.3文本摘要的可控生成

通过大量文本数据的训练,自动摘要系统实现了对于任意长度文本,摘要的可控生成,并且可以通过参数控制输出摘要的句数(以句号或逗号作为整句分割条件)。

1.4文本获取方式

本系统对于原始输入有良好的兼容性,通过:①新闻页面链接;②文本文件(txt格式);③字符串;均可以实现对新闻文本的快速获取。

②基于语音合成技术,实现了摘要及全文的语音播报

语音合成技术(TTS)是一种将任意文字信息实时转化为标准流畅语音的技术。采用espnet2框架,训练了新闻播报场景下的中文、英文女声语音合成(Text to Speech)模型。

1.中文存在复杂的符号。数据集中只存在逗号和句号的使用情况,对此,提出了对原始输入进行预处理的解决方案。将中文符号分为三类,①停顿,如逗号、顿号、冒号、句号等,在这些位置进行断句,单独成句并进行模型推理;②不停顿,如书名号、引号等,对这些符号进行删除处理;③导致语气变化,如问号,保留并导入模型进行推理。

2.长句的模型推理会占用大量显存资源,甚至超出显存的现有容量,针对这一问题,根据表示停顿的符号位置,对长句进行切分,逐次进行推理,并对结果进行拼接。实际测试表明,该方法对于长句的发音规律几乎不存在影响,并且将显存占用控制在2GB以下,降低了对于长句语音合成的硬件要求。

3.新闻中,存在一定量的外来词,如app。在中文语境下,模型无法识别这些词语,对此,采用中英文模型相结合的方法,设计算法对外来词和汉字进行区分,并分别采用英文模型和中文模型处理,其中,对于出现频率较高的英文字母朗读,在本地以数组的形式保存其标准读音,实现本地调用,提升模型效率。

4.汉语中大量的使用阿拉伯数字,针对这一问题,基于cn2an库和自有算法,通过对原始数据的预处理,将阿拉伯数字转为对应的汉字,再进行模型推理。实际测试表明,预处理后,汉语长句中数字发音的正确率达90%以上。

③自动摘要及语音播报系统

针对新闻播报这一特定场景,综合采用文本自动摘要技术和语音合成技术,从任意长度的新闻文本中抽取权重最高(最能体现新闻主旨)的3句作为摘要,实现了长文本的快速归纳及播报,提升了用户获取信息的效率,扩展了媒体新闻的展现形式。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号