首页> 中国专利> 一种基于自然语言处理的文本审查纠错系统

一种基于自然语言处理的文本审查纠错系统

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明涉及自然语言处理技术领域，特别是一种基于自然语言处理的文本审查纠错系统，包括输入自然语言信息，并将自然语言信息分类为语音信息、图片信息和文字信息，分别对语音信息和图片信息进行文字转换后，统一进行词素分析后进行流畅度判定，对流畅度较低的文字信息进行审查纠错。本发明的优点在于：通过对分析后的语义数据进行第二次流畅度判断，进一步对错误的文字信息进行筛选，提高系统输出处理信息的正确率，并及时向操作人提示，使操作人能够根据纠错情况了解自然语言的处理进度和难度，且操作者可以直接根据提示中纠错位置的标注了解纠错细节，从而对系统的纠错程序进行调试，提高该系统文本审查纠错的正确率和效率。

著录项

公开/公告号CN116341525A

专利类型发明专利
公开/公告日2023-06-27

原文格式PDF
申请/专利权人广东潮庭集团有限公司;
展开▼

申请/专利号CN202310294883.0
发明设计人洪创波;
展开▼

申请日2023-03-24
分类号G06F40/232(2020.01);G06F40/30(2020.01);
代理机构郑州白露专利代理事务所(普通合伙) 41230;
代理人王淇
地址 519000 广东省珠海市高新区唐家湾镇金唐路1号港湾1号科创园16栋2层201室
入库时间 2024-01-17 01:12:29

法律信息

法律状态公告日

法律状态信息

法律状态
2023-07-14

实质审查的生效 IPC(主分类):G06F40/232 专利申请号:2023102948830 申请日:20230324

实质审查的生效
2023-06-27

公开

发明专利申请公布

说明书

技术领域

本发明涉及自然语言处理技术领域，特别是一种基于自然语言处理的文本审查纠错系统。

背景技术

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向，它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法，自然语言处理是一门融语言学、计算机科学、数学于一体的科学，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系，但又有重要的区别。自然语言处理并不是一般地研究自然语言，而在于研制能有效地实现自然语言通信的计算机系统，特别是其中的软件系统，它是计算机科学的一部分。

在中国专利CN106030568B中公开的自然语言处理系统、自然语言处理方法、以及自然语言处理程序，该自然语言处理系统、自然语言处理方法、以及自然语言处理程序能够在一定的时间内自动地对词素分析的分割模型进行修正。

现有自然语言处理系统的缺点：现有自然语言处理系统多是对语音信息进行分析识别，但自然语言在语音输入和图像输入时，输入和转换的过程可能由于口音、图片清晰度等问题导致输入信息存在误差，现有自然语言处理系统对存在错误的自然语言输入信息识别能力较差，识别出来也多是进行修正，未及时向信息输入源反馈确认进行的修正依据较少导致纠错能力较弱。

发明内容

本发明的目的在于克服现有技术的缺点，提供一种基于自然语言处理的文本审查纠错系统，有效解决了现有技术的不足。

本发明的目的通过以下技术方案来实现：一种基于自然语言处理的文本审查纠错系统，包括以下步骤：

1)输入自然语言信息，并将自然语言信息分类为语音信息、图片信息和文字信息；

2)语音信息被转化为文字信息，对转化的文字信息进行流畅度判定，流畅度达标的文字信息被输入到文字信息模块，流畅度未达标的文字信息进行纠错后输入到文字信息模块；

3)图片信息被识别转化为文字信息，对图片上的文字信息进行智能排版；

4)对图片信息转化的文字信息进行流畅度判定，对流畅度较低的文字信息进行智能纠错后输入到文字信息模块；

5)对输入的文字信息进行词素分析和翻译并生成语义数据；

6)对语义数据进行语义流畅度判断；

7)流畅度达标的语义数据直接输出；

8)流畅度较低的语义数据检索设备数据库进行纠错。

可选的，所述步骤2)中流畅度较低的文字信息被提取后向发声源提出语音反问确认，所述发声源根据确认问题做出回答后，语音信息被转化为文字并与第一次的文字信息进行对比分析组合，两次所述文字信息被分析组合后完成纠错输入到文字信息模块。

采用上述技术方案：通过将语音信息进行流畅度判定，使其在使用者发出语音信息后，该系统能够在语音识别后及时发现语音文字中无法识别的自然语言信息问题，并进行反问以补充对语音信息纠错的判断依据，提高语音信息纠错的准确率，避免在语音输入过程中，由于方言发音等问题导致输入信心判断有误，且纠错依据不足导致对语音信息的纠错偏差较大的情况，且直接在语音信息转文字信息对其进行纠错，能够降低输入的文字信息准确率较低造成语言处理的困难度。

可选的，所述步骤4中流畅度较低文字信息在进行智能纠错时向操作者发出纠错提示，并在设备数据库进行纠错记录。

采用上述技术方案：通过对图片上识别的文字信息进行智能纠错，当图片上的文字被涂抹或者字体不工整时，能够利用前后言的逻辑关系进行一定程度的修复，并向操作者发出纠错提示，使操作者能够辅助自然语言处理设备进行人工读取不清晰图案信息，降低该系统对潦草字体识别的错误率，或者使操作者能够在图案信息处理出错后能够根据纠错提示查找信息处理出错的原因，将纠错信息进行记录能够对不清晰或者潦草的字体进行记录，当再次识别到类似图案时能够进行调取设备数据库中的纠错记录辅助进行字体识别，从而使该系统在多次识别和储存字体图片后能够提高字体识别正确率，实现自助纠错。

可选的，所述步骤5)中的词素分析后的特定名字和分析结果存储进入设备数据库，所述词素分析时对设备数据库进行对比和检索。

采用上述技术方案：通过设置设备数据库将文字信息词素分析后的结果进行储存，使后续的词素分析能够与数据库中的分析数据进行对比，从而提高词素分析的效率，也使该系统能够在多次词素分析中储存较多的自然语言处理数据，提高语言处理识别的准确率，且文字信息的一些特殊名字可能仅代表某个人物或物品，对特殊名字进行检索并将检索信息储存后，在下次识别到该名字时能够根据该特殊名字的检索情况进行数据处理，比如识别到一个车名即可知道这是一种车辆，从而提高词素分析的准确率。

可选的，所述步骤8)中的所述语义数据进行检索数据库纠错后向操作人弹出纠错提示，所述纠错提示中对纠错的文字进行标注，所述纠错提示储存进入设备数据库。

采用上述技术方案：通过对分析后的语义数据进行第二次流畅度判断，进一步对错误的文字信息进行筛选，提高系统输出处理信息的正确率，并及时向操作人提示，使操作人能够根据纠错情况了解自然语言的处理进度和难度，且操作者可以直接根据提示中纠错位置的标注了解纠错细节，从而对系统的纠错程序进行调试，提高该系统文本审查纠错的正确率和效率。

本发明具有以下优点：

1、该基于自然语言处理的文本审查纠错系统，通过将语音信息进行流畅度判定，使其在使用者发出语音信息后，该系统能够在语音识别后及时发现语音文字中无法识别的自然语言信息问题，并进行反问以补充对语音信息纠错的判断依据，提高语音信息纠错的准确率，避免在语音输入过程中，由于方言发音等问题导致输入信心判断有误，且纠错依据不足导致对语音信息的纠错偏差较大的情况，且直接在语音信息转文字信息对其进行纠错，能够降低输入的文字信息准确率较低造成语言处理的困难度。

2、该基于自然语言处理的文本审查纠错系统，通过对图片上识别的文字信息进行智能纠错，当图片上的文字被涂抹或者字体不工整时，能够利用前后言的逻辑关系进行一定程度的修复，并向操作者发出纠错提示，使操作者能够辅助自然语言处理设备进行人工读取不清晰图案信息，降低该系统对潦草字体识别的错误率，或者使操作者能够在图案信息处理出错后能够根据纠错提示查找信息处理出错的原因，将纠错信息进行记录能够对不清晰或者潦草的字体进行记录，当再次识别到类似图案时能够进行调取设备数据库中的纠错记录辅助进行字体识别，从而使该系统在多次识别和储存字体图片后能够提高字体识别正确率，实现自助纠错。

3、该基于自然语言处理的文本审查纠错系统，通过设置设备数据库将文字信息词素分析后的结果进行储存，使后续的词素分析能够与数据库中的分析数据进行对比，从而提高词素分析的效率，也使该系统能够在多次词素分析中储存较多的自然语言处理数据，提高语言处理识别的准确率，且文字信息的一些特殊名字可能仅代表某个人物或物品，对特殊名字进行检索并将检索信息储存后，在下次识别到该名字时能够根据该特殊名字的检索情况进行数据处理，比如识别到一个车名即可知道这是一种车辆，从而提高词素分析的准确率。

4、该基于自然语言处理的文本审查纠错系统，通过对分析后的语义数据进行第二次流畅度判断，进一步对错误的文字信息进行筛选，提高系统输出处理信息的正确率，并及时向操作人提示，使操作人能够根据纠错情况了解自然语言的处理进度和难度，且操作者可以直接根据提示中纠错位置的标注了解纠错细节，从而对系统的纠错程序进行调试，提高该系统文本审查纠错的正确率和效率。

附图说明

图1为本发明的系统运行结构框图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

如图1所示，一种基于自然语言处理的文本审查纠错系统，它包括以下步骤：

1)输入自然语言信息，并将自然语言信息分类为语音信息、图片信息和文字信息；

3)图片信息被识别转化为文字信息，对图片上的文字信息进行智能排版；

4)对图片信息转化的文字信息进行流畅度判定，对流畅度较低的文字信息进行智能纠错后输入到文字信息模块；

5)对输入的文字信息进行词素分析和翻译并生成语义数据；

6)对语义数据进行语义流畅度判断；

7)流畅度达标的语义数据直接输出；

8)流畅度较低的语义数据检索设备数据库进行纠错。

实施例1：步骤2)中流畅度较低的文字信息被提取后向发声源提出语音反问确认，发声源根据确认问题做出回答后，语音信息被转化为文字并与第一次的文字信息进行对比分析组合，两次文字信息被分析组合后完成纠错输入到文字信息模块，通过将语音信息进行流畅度判定，使其在使用者发出语音信息后，该系统能够在语音识别后及时发现语音文字中无法识别的自然语言信息问题，并进行反问以补充对语音信息纠错的判断依据，提高语音信息纠错的准确率，避免在语音输入过程中，由于方言发音等问题导致输入信心判断有误，且纠错依据不足导致对语音信息的纠错偏差较大的情况，且直接在语音信息转文字信息对其进行纠错，能够降低输入的文字信息准确率较低造成语言处理的困难度。

实施例2：步骤4中流畅度较低文字信息在进行智能纠错时向操作者发出纠错提示，并在设备数据库进行纠错记录，通过对图片上识别的文字信息进行智能纠错，当图片上的文字被涂抹或者字体不工整时，能够利用前后言的逻辑关系进行一定程度的修复，并向操作者发出纠错提示，使操作者能够辅助自然语言处理设备进行人工读取不清晰图案信息，降低该系统对潦草字体识别的错误率，或者使操作者能够在图案信息处理出错后能够根据纠错提示查找信息处理出错的原因，将纠错信息进行记录能够对不清晰或者潦草的字体进行记录，当再次识别到类似图案时能够进行调取设备数据库中的纠错记录辅助进行字体识别，从而使该系统在多次识别和储存字体图片后能够提高字体识别正确率，实现自助纠错。

实施例3：步骤5)中的词素分析后的特定名字和分析结果存储进入设备数据库，词素分析时对设备数据库进行对比和检索，通过设置设备数据库将文字信息词素分析后的结果进行储存，使后续的词素分析能够与数据库中的分析数据进行对比，从而提高词素分析的效率，也使该系统能够在多次词素分析中储存较多的自然语言处理数据，提高语言处理识别的准确率，且文字信息的一些特殊名字可能仅代表某个人物或物品，对特殊名字进行检索并将检索信息储存后，在下次识别到该名字时能够根据该特殊名字的检索情况进行数据处理，比如识别到一个车名即可知道这是一种车辆，从而提高词素分析的准确率。

实施例4：步骤8)中的语义数据进行检索数据库纠错后向操作人弹出纠错提示，纠错提示中对纠错的文字进行标注，纠错提示储存进入设备数据库，通过对分析后的语义数据进行第二次流畅度判断，进一步对错误的文字信息进行筛选，提高系统输出处理信息的正确率，并及时向操作人提示，使操作人能够根据纠错情况了解自然语言的处理进度和难度，且操作者可以直接根据提示中纠错位置的标注了解纠错细节，从而对系统的纠错程序进行调试，提高该系统文本审查纠错的正确率和效率。

本发明的工作原理如下：

S1、先将语音信息和图片信息转化为文字信息，并进行流畅度判定进行初步审查筛选；

S2、对汇总的文字信息进行词素分析并对部分语义数据进行纠错。

与现有技术相比，本发明相对于现有技术具有以下有益效果：

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于自然语言处理的文本要素提取方法及其文本审查系统 [P] . 中国专利： CN112668323A . 2021-04-16
2. 一种基于自然语言处理的远程会诊记录文本纠错方法 [P] . 中国专利： CN110110334B . 2022.09.13
3. Novel and innovative means of providing an anonymized and secure mechanism for speech-to-text conversion. This invention provides a versatile and extensible privacy layer that leverages existing cloud-based Automated Speech Recognition (ASR) services and can accommodate emerging speech-to-text technologies, such as Natural Language Processing (NLP), voice bots and other voice-based artificial intelligence interfaces. This invention also allows the latest and best-of-breed speech technologies to be applied to the legal, medical, financial, and other privacy-sensitive fields without sacrificing [P] . 美国专利： US2020005792A1 . 2020-01-02

机译：为语音到文本转换提供匿名和安全机制的新颖创新方法。本发明提供了一种通用且可扩展的隐私层，其利用了现有的基于云的自动语音识别（ASR）服务，并且可以适应新兴的语音到文本技术，例如自然语言处理（NLP），语音机器人和其他基于语音的人工语言。智能接口。本发明还允许在不牺牲法律，医学，金融和其他隐私敏感领域的情况下应用最新和最好的语音技术。
4. Text-based egotism level detection system and process for detecting egotism level in alpha-numeric textual information by way of artificial intelligence, deep learning, and natural language processing [P] . 美国专利： US11334724B1 . 2022-05-17

机译：基于文本的自我水平检测系统和过程，用于通过人工智能、深度学习和自然语言处理检测字母数字文本信息中的自我水平
5. SYSTEM AND METHOD FOR SUPPORTING MEDICAL CARE BENEFITS REVIEW BASED ON NATURAL LANGUAGE PROCESSING [P] . 韩国专利： KR20190050067A . 2019-05-10

机译：基于自然语言处理的支持医疗费用审查的系统和方法