首页> 中国专利> 一种基于语义上下文场景的中文小说语音合成系统

一种基于语义上下文场景的中文小说语音合成系统

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明公开了一种基于语义上下文场景的中文小说语音合成系统，包括文本扫描模块、电子稿导入模块、文字识别模块、文字提取模块、文字处理模块、特殊字符检索模块、总控模块与语音生成模块；所述文本扫描模块用于将纸质的小说文稿扫描为电子文稿，所述电子稿导入模块用于导入小说的电子文稿；所述文字识别模块用于对文本扫描模块扫描出的电子文稿和电子稿导入模块导入的电子稿进行文字识别；所述文字提取模块用于将文字识别模块识别出的小说文字内容提取出，发送到文字处理模块；所述文字处理模块对获取到的小说文字内容进行文字处理，所述文字处理的过程包括分词，词性标注。本发明能够更好的进行中文小说语音合成，更加值得推广使用。

著录项

公开/公告号CN112487804A

专利类型发明专利
公开/公告日2021-03-12

原文格式PDF
申请/专利权人合肥三恩信息科技有限公司;
展开▼

申请/专利号CN202011335771.8
发明设计人胡程远;
展开▼

申请日2020-11-25
分类号G06F40/289(20200101);G06F40/30(20200101);G06K9/34(20060101);G06F16/33(20190101);G10L13/08(20130101);
代理机构34147 合肥律众知识产权代理有限公司;
代理人赵娟
地址 230000 安徽省合肥市高新区创新大道2800号创新产业园二期E1栋基金大厦207室
入库时间 2023-06-19 10:11:51

说明书

技术领域

本发明涉及语音合成领域，具体涉及一种基于语义上下文场景的中文小说语音合成系统。

背景技术

语音小说，顾名思义就是能发出声音的小说，引申为：一种既保留了内含丰富的小说情节、又通过播音员将文字通过语言表达出来形成有声的“读本”，然后配合后期的制作合成变成一部有丰富的感情又有美丽动听背景音乐的有声音的小说，在将文字小说转化为语音小说时需要使用到语音合成系统。

现有的语音合成系统，在将文字小说转化为语音小说时，其准确度不够好，容易导致语音小说出现较大歧义，并且转化语音小说的质量较差，给语音合成系统的使用带来了一定的影响，因此，提出一种基于语义上下文场景的中文小说语音合成系统。

发明内容

本发明所要解决的技术问题在于：如何解决现有的语音合成系统，在将文字小说转化为语音小说时，其准确度不够好，容易导致语音小说出现较大歧义，并且转化语音小说的质量较差，给语音合成系统的使用带来了一定的影响的问题，提供了一种基于语义上下文场景的中文小说语音合成系统。

本发明是通过以下技术方案解决上述技术问题的，本发明包括文本扫描模块、电子稿导入模块、文字识别模块、文字提取模块、文字处理模块、特殊字符检索模块、总控模块与语音生成模块；

所述文本扫描模块用于将纸质的小说文稿扫描为电子文稿，所述电子稿导入模块用于导入小说的电子文稿；

所述文字识别模块用于对文本扫描模块扫描出的电子文稿和电子稿导入模块导入的电子稿进行文字识别；

所述文字提取模块用于将文字识别模块识别出的小说文字内容提取出，发送到文字处理模块；

所述文字处理模块对获取到的小说文字内容进行文字处理，所述文字处理的过程包括分词，词性标注，韵律结构预测与多音字消岐，所述词性标注的内容包括名词、动词与形容词；

所述文字处理模块处理后的文字内容被发送到特征字符检索模块，进行特征内容的检索，检索完成后总控模块即控制语音生成模块将经过特殊字符检索后的小说文稿转化为语音内容；

所述语音内容被发送到评分模块进行人工评分，当评分符合标准时总控模模块即控制语音发送模块将小说语音发送出。

优选的，所述文字识别模块进行文字识别的具体过程如下：

步骤一：电子文稿中的每个字符标记为一个识别区域，将其放大预设倍数；

步骤二：通过ORC文字识别技术对放大后的识别区域进行识别，对同一个区域使用三种不同的预设放大倍数识别；

步骤三：当三种不同预设倍数放大识别后的文字有两次及以上相同时即进行下一识别区域的识别；

步骤四：当同一个区域使用三种不同的预设放大倍数识别的文字均不相同时，即将其标注为未识别字体采用人工识别。

优选的，所述特殊字符检索模块检索特殊字符的具体处理模块入下：

S1：特征内容包括预设语气词库与预设语气符号库；

S2：从小说文字内容检索出预设语气词库与预设语气符号库；

S3：当检索到预设语气词库与预设语气符号库内的内容时，对该内容进行重点标记；

所述预设语气词库与预设语气符号库内的预设语气词与预设语气符号均设置了预设读音。

优选的，所述词性标注的名词、动词与形容词均均预设对应的读音。

优选的，所述评分模块评分的具体过程如下：

步骤一：小说文字转化为语音内容之后将其发送到随机的x个评分人员的智能移动终端，x≥5；

步骤二：随机的x个评分人员每个人对听到的语音小说进行语气和上下文连贯性进行评分，得到x个评分K；

步骤三：通过公式K1+K2+K3……+Kx＝K

步骤四：再通过公式K

步骤五：再计算出最大评分值Kmax与最小评分值Kmin之间的差值得到分值差Kk

步骤六：当平均分值K

步骤七：当平均分值K

优选的，当评分不符合标准时，评分不符合标准发送到总控模块，所述总控模块发出复核指令，复核指令被发送到文字处理模块，对小说文字重新进行文字处理。

本发明相比现有技术具有以下优点：该基于语义上下文场景的中文小说语音合成系统，通过在对小说文稿进行识别时，更加细致的处理，能够有效的避免文字识别出错导致的小说装换为语音内容后语义出现问题的状况发生，让该系统能够进行更加精准的语音识别，同时在语音识别后，设置了随机人员对小说内容进行试听处理，并进行评分，通过评分来判定被转为语音的小说是否合格，并在不合格时对小说进行重新处理来修正语音和上下文连续问题，该种设置能够让该系统合成的语音小说品质更高，让该系统更加值得推广使用。

附图说明

图1是本发明的系统框图。

具体实施方式

下面对本发明的实施例作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

如图1所示，本实施例提供一种技术方案：一种基于语义上下文场景的中文小说语音合成系统，包括文本扫描模块、电子稿导入模块、文字识别模块、文字提取模块、文字处理模块、特殊字符检索模块、总控模块与语音生成模块；

所述文本扫描模块用于将纸质的小说文稿扫描为电子文稿，所述电子稿导入模块用于导入小说的电子文稿；

所述文字识别模块用于对文本扫描模块扫描出的电子文稿和电子稿导入模块导入的电子稿进行文字识别；

所述文字提取模块用于将文字识别模块识别出的小说文字内容提取出，发送到文字处理模块；

所述语音内容被发送到评分模块进行人工评分，当评分符合标准时总控模模块即控制语音发送模块将小说语音发送出。

所述文字识别模块进行文字识别的具体过程如下：

步骤一：电子文稿中的每个字符标记为一个识别区域，将其放大预设倍数；

步骤二：通过ORC文字识别技术对放大后的识别区域进行识别，对同一个区域使用三种不同的预设放大倍数识别；

步骤三：当三种不同预设倍数放大识别后的文字有两次及以上相同时即进行下一识别区域的识别；

步骤四：当同一个区域使用三种不同的预设放大倍数识别的文字均不相同时，即将其标注为未识别字体采用人工识别。

所述特殊字符检索模块检索特殊字符的具体处理模块入下：

S1：特征内容包括预设语气词库与预设语气符号库；

S2：从小说文字内容检索出预设语气词库与预设语气符号库；

S3：当检索到预设语气词库与预设语气符号库内的内容时，对该内容进行重点标记；

所述预设语气词库与预设语气符号库内的预设语气词与预设语气符号均设置了预设读音。

所述词性标注的名词、动词与形容词均均预设对应的读音。

所述评分模块评分的具体过程如下：

步骤一：小说文字转化为语音内容之后将其发送到随机的x个评分人员的智能移动终端，x≥5；

步骤二：随机的x个评分人员每个人对听到的语音小说进行语气和上下文连贯性进行评分，得到x个评分K；

步骤三：通过公式K1+K2+K3……+Kx＝K

步骤四：再通过公式K

步骤五：再计算出最大评分值Kmax与最小评分值Kmin之间的差值得到分值差Kk

步骤六：当平均分值K

步骤七：当平均分值K

当评分不符合标准时，评分不符合标准发送到总控模块，所述总控模块发出复核指令，复核指令被发送到文字处理模块，对小说文字重新进行文字处理。

综上，本发明在使用时，文本扫描模块用于将纸质的小说文稿扫描为电子文稿，电子稿导入模块用于导入小说的电子文稿，文字识别模块用于对文本扫描模块扫描出的电子文稿和电子稿导入模块导入的电子稿进行文字识别，文字提取模块用于将文字识别模块识别出的小说文字内容提取出，发送到文字处理模块，文字处理模块对获取到的小说文字内容进行文字处理，文字处理的过程包括分词，词性标注，韵律结构预测与多音字消岐，词性标注的内容包括名词、动词与形容词，文字处理模块处理后的文字内容被发送到特征字符检索模块，进行特征内容的检索，检索完成后总控模块即控制语音生成模块将经过特殊字符检索后的小说文稿转化为语音内容，语音内容被发送到评分模块进行人工评分，当评分符合标准时总控模模块即控制语音发送模块将小说语音发送出。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于语义上下文场景的中文小说语音合成系统 [P] . 中国专利： CN112487804A . 2021-03-12
2. 一种基于音素的中文语音合成系统 [P] . 中国专利： CN108899009B . 2020.07.03
3. SCENARIO SEMANTIC PARSING METHOD BASED ON GLOBAL GUIDANCE SELECTIVE CONTEXT NETWORK [P] . WO2021244621A1 . 2021-12-09

机译：基于全局指导选择性上下文网络的场景语义解析方法
4. (54) Title: A CONTENT BASED APPROACH TO EXTENDING THE FORM AND FUNCTION OF A BUSINESS INTELLI¬GENCE SYSTEM (57) Abstract: A business intelligence (BI) system includes the ability to extend its functionality outside of the project life cycle by means of specific content. Complex multidimensional queries are interpreted as trees of atomic sub-expressions that are com¬bined in a parse-tree-like structure to form the overall query. Each sub tree is valid in isolation when provided with the proper context. Any sub tree can be an expression template, stored as application content, which at generation time uses simple text sub¬stitution with instance specific parameters to produce multidimensional expression syntax. The system includes a sophisticated type system and semantic layer that hides the user from the complexities inherent in working with OLAP databases. A business in¬telligence expert can provide type and semantic cues for each expression template, held as content. [P] . IN2012CN02100A . 2012-11-02

机译：（54）标题：一种扩展商务智能系统的形式和功能的基于内容的方法（57）摘要：商务智能（BI）系统具有通过以下方式将其功能扩展到项目生命周期之外的能力：具体内容。复杂的多维查询被解释为原子子表达式的树，这些原子子表达式组合成类似解析树的结构以形成整体查询。每个子树在提供适当的上下文时都是有效的。任何子树都可以是作为应用程序内容存储的表达模板，该表达模板在生成时使用带有实例特定参数的简单文本替换来生成多维表达语法。该系统包括一个复杂的类型系统和语义层，使用户摆脱了使用OLAP数据库所固有的复杂性。商业智能专家可以为每个作为内容的表达模板提供类型和语义提示。
5. Context-based / semantic search and indexing method for creating a position-related / time index for electronic documents of any desired speech and / or formats, and descriptions of a few applications for this purpose. [P] . 德国专利： DE102015012881A1 . 2017-04-20

机译：基于上下文的/语义搜索和索引方法，用于为任何所需语音和/或格式的电子文档创建位置相关/时间索引，并为此目的描述了一些应用程序。