公开/公告号CN112836070A
专利类型发明专利
公开/公告日2021-05-25
原文格式PDF
申请/专利权人 山东寻声网络科技有限公司;
申请/专利号CN202110145450.X
发明设计人 盛夏;
申请日2021-02-02
分类号G06F16/432(20190101);G06F40/247(20200101);G06F40/289(20200101);G06F40/30(20200101);
代理机构44762 深圳得本知识产权代理事务所(普通合伙);
代理人袁江龙
地址 255000 山东省淄博市桓台县柳泉北路3888号创智谷B2座
入库时间 2023-06-19 11:05:16
技术领域
本发明涉及数据分析技术领域,尤其涉及一种NLP技术在数据分析中的应用。
背景技术
在现在的日常生活和工作中,数据的应用越来越普遍,而针对数据的准确定性分析,也成为了工作和管理中的关键一项,有助于解决人们的误区,扩大视界。
但是现有的数据分析方式多是简单的数字数据进行计算,对文字情感的分析功能较差,因此容易错估数据的实际表现结果,影响管理判断的准确性,并且不能够准确识别文字信息,影响分析精度,有待提出一种基于NLP技术的分析方法。
发明内容
本发明的目的是为了解决现有技术中存在的缺点,而提出的一种NLP技术在数据分析中的应用。
为了实现上述目的,本发明采用了如下技术方案:
一种NLP技术在数据分析中的应用,该应用方法包括如下步骤:
P1、获取数据的全部集合,进行预处理,形成文档集合;
P2、预设关键字词,对文档集合的文字数据进行匹配查找,获取目标集合;
P3、对目标集合进行编号分类,并根据关键字词建立超链接;
P4、将关键字词进行统一存储,并匹配超链接文本;
P5、基于NLP技术对关键字词和目标集合进行语义分析,获取分析结果;
P6、根据分析结果判断是否符合要求;
P7、若符合要求,则提取原始数据,若不符合,则从目标集合中删除。
优选的,所述P1步骤的全部集合包括文字文档、音频文档和视频文档。
优选的,所述P1步骤的预处理包括对文字文档进行整合、语音和视频稳定进行文字提取。
优选的,所述P2步骤的预设关键字词包括字形和拼音,且对拼音进行转化查验。
优选的,所述拼音转化查验的方法包括如下步骤|:
S1、将关键字词转化成拼音,形成单词的拼音组合;
S2、去掉标点符号和特殊符号,以空格分隔拼音组合,形成字符串,进行排布;
S3、根据拼音字符串匹配查找英文单词,确定相同拼写的组合;
S4、对相同拼写的组合采用隔音符进行分隔,加以区分,完成查验。
优选的,所述P4步骤的匹配超链接方式为一个链接匹配一个字词和多个链接匹配一个字词两种形式。
优选的,所述P5步骤的语义分析包括对关键字词进行语句联系的情感分析,分为积极字词、消极字词和中性字词。
优选的,所述P5步骤的语义分析还包括关联同义词组进行替换修整,并进行分词处理。
优选的,所述P7步骤的提取原始数据包括对原始文档进行提取,并且按照名称排列方式来罗列文档。
本发明提供的一种NLP技术在数据分析中的应用,通过采用NLP技术,结合关键字词的输入,可以直接查找匹配相关信息,提高数据分析效率,并且通过对关键字词进行拼音转换,可以根据谐音和同音字进行全局匹配,有效提高查找精度,进而通过对关键字词和同义词进行替换修整后进行语义分析,有助于提高情感判断的精确度,保证数据分析的高效性和准确性,利于推广使用。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合具体实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
一种NLP技术在数据分析中的应用,该应用方法包括如下步骤:
P1、获取数据的全部集合,进行预处理,形成文档集合;
P2、预设关键字词,对文档集合的文字数据进行匹配查找,获取目标集合;
P3、对目标集合进行编号分类,并根据关键字词建立超链接;
P4、将关键字词进行统一存储,并匹配超链接文本;
P5、基于NLP技术对关键字词和目标集合进行语义分析,获取分析结果;
P6、根据分析结果判断是否符合要求;
P7、若符合要求,则提取原始数据,若不符合,则从目标集合中删除。
作为优选的,所述P1步骤的全部集合包括文字文档、音频文档和视频文档。
作为优选的,所述P1步骤的预处理包括对文字文档进行整合、语音和视频稳定进行文字提取。
作为优选的,所述P2步骤的预设关键字词包括字形和拼音,且对拼音进行转化查验。
作为优选的,所述拼音转化查验的方法包括如下步骤|:
S1、将关键字词转化成拼音,形成单词的拼音组合;
S2、去掉标点符号和特殊符号,以空格分隔拼音组合,形成字符串,进行排布;
S3、根据拼音字符串匹配查找英文单词,确定相同拼写的组合;
S4、对相同拼写的组合采用隔音符进行分隔,加以区分,完成查验。
作为优选的,所述P4步骤的匹配超链接方式为一个链接匹配一个字词和多个链接匹配一个字词两种形式。
作为优选的,所述P5步骤的语义分析包括对关键字词进行语句联系的情感分析,分为积极字词、消极字词和中性字词。
作为优选的,所述P5步骤的语义分析还包括关联同义词组进行替换修整,并进行分词处理。
作为优选的,所述P7步骤的提取原始数据包括对原始文档进行提取,并且按照名称排列方式来罗列文档。
本发明提供的一种NLP技术在数据分析中的应用,通过采用NLP技术,结合关键字词的输入,可以直接查找匹配相关信息,提高数据分析效率,并且通过对关键字词进行拼音转换,可以根据谐音和同音字进行全局匹配,有效提高查找精度,进而通过对关键字词和同义词进行替换修整后进行语义分析,有助于提高情感判断的精确度,保证数据分析的高效性和准确性,利于推广使用。
机译: 为语音到文本转换提供匿名和安全机制的新颖创新方法。本发明提供了一种通用且可扩展的隐私层,其利用了现有的基于云的自动语音识别(ASR)服务,并且可以适应新兴的语音到文本技术,例如自然语言处理(NLP),语音机器人和其他基于语音的人工语言。智能接口。本发明还允许在不牺牲法律,医学,金融和其他隐私敏感领域的情况下应用最新和最好的语音技术。
机译: 用于在数据分析系统中可视化依赖性的技术
机译: 用于在数据分析系统中可视化依赖性的技术