首页> 中国专利> 一种基于自然语言分析文件中相似段落的方法及装置

一种基于自然语言分析文件中相似段落的方法及装置

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明涉及图像识别领域，具体公开了一种基于自然语言分析文件中相似段落的方法，包括以下步骤：将文件转化成图像，生成原图像和目标图像，对原图像和目标图像进行识别，获取第一文字信息和第二文字信息；对所述第一文字信息和第二文字信息进行分词处理；根据分词处理得到所述第一文字信息和第二文字信息词语数据，计算所述第一文字信息和第二文字信息的语义相似度；本发明实现了精确识别文本内容、精确定位文字位置及快速识别相似段落的目的。

著录项

公开/公告号CN113221536A

专利类型发明专利
公开/公告日2021-08-06

原文格式PDF
申请/专利权人广东电网有限责任公司;
展开▼

申请/专利号CN202011587935.6
发明设计人李志;谢化安;谢志武;李根;杨灿魁;陈剑光;佟忠正;雷璟;王栋;肖琪;
展开▼

申请日2020-12-29
分类号G06F40/211(20200101);G06F40/30(20200101);
代理机构44369 广州一锐专利代理有限公司;
代理人杨昕昕;董云
地址 510000 广东省广州市越秀区东风东路757号
入库时间 2023-06-19 12:07:15

说明书

技术领域

本发明涉及图像识别领域，特别是涉及一种基于自然语言分析文件中相似段落的方法及装置。

背景技术

自然语言处理是人工智能中最为困难的问题之一，而对自然语言处理的研究也是充满魅力和挑战的。随着计算机和互联网的广泛应用，也随之衍生出了一系列的产品。目前，以文本识别为代表的识别技术正快速发展。但在进行文本识别时，可能存在部分字符不清晰的情况，字符不够清晰，从而降低了文本识别的准确率。

发明内容

针对上述问题，本发明的目的在于提供了一种基于自然语言分析文件中相似段落的方法及装置。

为解决上述问题，本发明第一方面提供了一种基于自然语言分析文件中相似段落的方法，包括以下步骤：

S1. 将文件转化成图像，生成原图像和目标图像，对原图像和目标图像进行识别，获取第一文字信息和第二文字信息；

S2.对所述第一文字信息和第二文字信息进行分词处理；

S3.根据分词处理得到所述第一文字信息和第二文字信息词语数据，计算所述第一文字信息和第二文字信息的语义相似度；

S4.确定各词语的上下文内容，从而判断文件中的相似段落。

优选地，步骤S2包括：根据所述第一文字信息的词语数据得到的第一文字信息的语义特征向量、根据所述第二文字信息的词语数据得到的第二文字信息的语义特征向量。

优选地，步骤S3包括：根据所述语义特征向量计算所述第一文字信息和第二文字信息的余弦相似度；根据所述语义特征向量获得所述第一文字信息的任意一个词语和第二文字信息的任意一个词语的相似度，以计算所述第一文字信息和第二文字信息的坐标位置相似度；

优选地，所述根据所述语义特征向量获得所述第一文字信息的任意一个词语和第二文字信息的任意一个词语的相似度，以计算所述第一文字信息和第二文字信息的坐标位置相似度，具体为：

根据所述第一文字信息的分词结果，获得所述第一文字信息中词语总数、第一文字信息的长度以及词语在第一文字信息中的相对位置；

根据所述第二文字信息的分词结果，获得所述第二文字信息中词语总数、第二文字信息的长度以及词语在第二文字信息中的相对位置；

优选地，根据所述语义特征向量计算第一文字信息的词语和第二文字信息的词语的相似度；根据公式计算第一文字信息和第二文字信息的坐标位置相似度。

优选地，计算所述第一文字信息和第二文字信息的坐标位置相似度包括：在所述语义特征向量坐标上获取第一文字信息的词语和第二文字信息的词语的相邻坐标点和长度；

其计算相似度公式为：

其中，W

优选地，步骤S4包括：根据所述第一文字信息和第二文字信息的坐标位置相似度，计算所述第一文字信息和第二文字信息的语义相似度，确定各词语的上下文内容，从而判断文件中的相似段落。

本发明第二方面提供了一种基于自然语言分析文件中相似段落的装置，包括

图像识别模块：所述的图像识别模块用于将原图像和目标图像进行识别，获取第一文字信息和第二文字信息；

提取分词模块：对所述第一文字信息和第二文字信息进行分词处理；

计算语义相似度模块：所述的计算语义相似度模块用于根据分词处理得到所述第一文字信息和第二文字信息词语数据，计算所述第一文字信息和第二文字信息的语义相似度；

相似段落判定模块：所述的相似段落判定模块用于确定各词语的上下文内容，从而判断文件中的相似段落。

与现有技术相比，本发明将两张图片识别出第一文字信息和第二文字信息，再将文字信息进行分词，用过计算第一文字信息和第二文字信息词语的相似度和坐标位置相似度，进而计算出语义特征向量的相似度，通过特征向量的相似度确定各词语的上下文内容，从而判断文件中的相似段落。实现精确识别文本内容、精确定位文字位置及快速识别相似段落的目的。

附图说明

图1为本发明实施例提供了一种基于自然语言分析文件中相似段落的方法流程图。

图2为本发明实施例第二方面提供了一种基于自然语言分析文件中相似段落的装置。

施例提供的一种基于自然语言分析文件中相似段落的装置的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

请参阅图1，本发明实施例提供了一种基于自然语言分析文件中相似段落的方法，包括以下步骤：

S1. 将文件转化成图像，生成原图像和目标图像，对原图像和目标图像进行识别，获取第一文字信息和第二文字信息；

S2.对所述第一文字信息和第二文字信息进行分词处理；

在本发明实施中，步骤S2包括：根据所述第一文字信息的词语数据得到的第一文字信息的语义特征向量、根据所述第二文字信息的词语数据得到的第二文字信息的语义特征向量。

S3.根据分词处理得到所述第一文字信息和第二文字信息词语数据，计算所述第一文字信息和第二文字信息的语义相似度；

在本发明实施中，步骤S3包括：根据所述语义特征向量计算所述第一文字信息和第二文字信息的余弦相似度；根据所述语义特征向量获得所述第一文字信息的任意一个词语和第二文字信息的任意一个词语的相似度，以计算所述第一文字信息和第二文字信息的坐标位置相似度；

在本发明实施中，所述根据所述语义特征向量获得所述第一文字信息的任意一个词语和第二文字信息的任意一个词语的相似度，以计算所述第一文字信息和第二文字信息的坐标位置相似度，具体为：

根据所述第一文字信息的分词结果，获得所述第一文字信息中词语总数、第一文字信息的长度以及词语在第一文字信息中的相对位置；

根据所述第二文字信息的分词结果，获得所述第二文字信息中词语总数、第二文字信息的长度以及词语在第二文字信息中的相对位置；

在本发明实施中，根据所述语义特征向量计算第一文字信息的词语和第二文字信息的词语的相似度；根据公式计算第一文字信息和第二文字信息的坐标位置相似度。

在本发明实施中，计算所述第一文字信息和第二文字信息的坐标位置相似度包括：在所述语义特征向量坐标上获取第一文字信息的词语和第二文字信息的词语的相邻坐标点和长度；

其计算相似度公式为：

其中，W

S4.确定各词语的上下文内容，从而判断文件中的相似段落。

在本发明实施中，步骤S4包括：根据所述第一文字信息和第二文字信息的坐标位置相似度，计算所述第一文字信息和第二文字信息的语义相似度，确定各词语的上下文内容，从而判断文件中的相似段落。

请参阅图2，本发明实施例第二方面提供了一种基于自然语言分析文件中相似段落的装置，包括

图像识别模块201：所述的图像识别模块用于将原图像和目标图像进行识别，获取第一文字信息和第二文字信息；

提取分词模块202：对所述第一文字信息和第二文字信息进行分词处理；

计算语义相似度模块203：所述的计算语义相似度模块用于根据分词处理得到所述第一文字信息和第二文字信息词语数据，计算所述第一文字信息和第二文字信息的语义相似度；

相似段落判定模块204：所述的相似段落判定模块用于确定各词语的上下文内容，从而判断文件中的相似段落。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于自然语言分析文件中相似段落的方法及装置 [P] . 中国专利： CN113221536A . 2021-08-06
2. 一种基于自然语言处理的多语言分析方法和装置 [P] . 中国专利： CN108197109A . 2018-06-22
3. METHOD FOR COLLECTING OIL FROM OIL SAND, A METHOD FOR MANUFACTURING SEAWATER BASED ON CLEAN WATER, METHOD FOR PURIFYING WATER, A METHOD FOR MANUFACTURING SEAWATER AND BALLAST WATER, A METHOD FOR EXTRACTING FOOD REPLACING SALT, A METHOD FOR MANUFACTURING ALCOHOL, A METHOD FOR FLUIDIC FOOD, A METHOD FOR TREATING FOOD WASTE, AND AN APPARATUS FOR PURIFYING WATER CAPABLE OF NATURALLY PURIFYING OR REFINING SEAWATER OR CLEAN WATER BASED ON A GRAVITY PRINCIPLE [P] . 韩国专利： KR20110119600A . 2011-11-02

机译：从油砂中收集油的方法，一种基于清洁水的海水的制造方法，一种水的净化方法，一种用于制造海水和压载水的方法，一种用于提取食品替代盐的方法，一种用于制造醇的方法，一种用于制造流体的方法食品，一种基于重力原理的自然净化或精制海水或清洁水的方法，一种用于处理食品废弃物的方法以及一种用于净化水的设备
4. METHOD AND SYSTEM FOR BOOTSTRAPPING STATISTICAL PROCESSING INTO A RULE-BASED NATURAL LANGUAGE PARSER [P] . 欧洲知识产权局专利： EP0715756B1 . 1999-11-17

机译：将统计处理引导到基于规则的自然语言分析器中的方法和系统
5. METHOD AND SYSTEM FOR BOOTSTRAPPING STATISTICAL PROCESSING INTO A RULE-BASED NATURAL LANGUAGE PARSER [P] . 世界知识产权组织专利： WO9600436A1 . 1996-01-04

机译：将统计处理引导到基于规则的自然语言分析器中的方法和系统