公开/公告号CN116578673A
专利类型发明专利
公开/公告日2023-08-11
原文格式PDF
申请/专利权人 北京凌霄文苑教育科技有限公司;
申请/专利号CN202310808912.0
发明设计人 彭璇;
申请日2023-07-03
分类号G06F16/33(2019.01);G06F40/216(2020.01);G06F40/284(2020.01);G06F16/35(2019.01);
代理机构北京知艺互联知识产权代理有限公司 16137;
代理人孟晨光
地址 101125 北京市通州区榆景东路5号院55号楼3层101室3181
入库时间 2024-01-17 01:22:22
法律状态公告日
法律状态信息
法律状态
2023-08-29
实质审查的生效 IPC(主分类):G06F16/33 专利申请号:2023108089120 申请日:20230703
实质审查的生效
2023-08-11
公开
发明专利申请公布
技术领域
本发明涉及文本内容检测技术领域,尤其是涉及数字经济领域基于语言逻辑学的文本特征检索方法。
背景技术
随着互联网技术的快速发展,人们每天接触到的信息量在极速攀升,现在的方案数量和种类都非常的多,在不知不觉中,就会有方案相似而发生冲突的地方,如果通过人工进行筛查,会进行大量的重复工作,需要耗费大量的精力与时间,而且人工的筛查还会有一定的偏差,因此,为了能有效解决方案中的特征点相似问题,提出了数字经济领域基于语言逻辑学的文本特征检索方法。
发明内容
本发明的目的是提供数字经济领域基于语言逻辑学的文本特征检索方法,先统一方案的格式,避免因为格式问题而增加无意义的工作,在具体内容中进行一次分类,分类出当前方案属于方法类还是结构类,在实践操作中进行二级分类,确定方案中的词语使用频次和词语表意来归类出方案内容的倾向,在相似的领域作用的方案中,比对相同作用的语句重复度,最后按照重复度的高低输出相似方案。
为实现上述目的,本发明提供了数字经济领域基于语言逻辑学的文本特征检索方法,包括以下步骤:
S1、建立识别库,识别库分为两个区,分别是识别区与存储区,对撰写好的方案内容进行提取,将提取到的内容载入到所述识别区,所述存储区中储存有若干个不同的方案;
S2、识别区对提取到的内容进行一级分类,得到一级分类结果;
S3、识别区对一级分类结果进行二级分类,得到二级分类结果;
S4、将二级分类结果与存储区中的内容进行筛查,确定相似方案;
S5、将本方案与相似方案进行比较,计算得出重复度;
S6、将相似方案按照重复度从高到低依次输出。
优选的,所述步骤S1中,撰写方案的格式统一,撰写包括三个项目,分别是领域作用、具体内容和实践操作。
优选的,所述步骤S2中,一级分类分为方法类和结构类。
优选的,所述步骤S2中,一级分类方法是对所述步骤S1中提取到识别区的内容进行词语识别,在方案的具体内容的项目中分别统计动词与名词的数量,当动词数量大于名词数量时分为方法类,当名词数量大于动词数量时分为结构类。
优选的,所述步骤S3中,二级分类方法的具体过程为:统计实践操作项目中的相同词语的使用频次,并根据词语的词性和使用频次进行分类,方法类分为目标群体、过程和结果,结构类分为部件、连接和驱动。
优选的,所述步骤S4中,筛查的过程为:在领域作用、具体内容和实践操作中,依据步骤S3的分类结果,对每句话均进行分类,判断属于方法类或结构类,并在存储区中找到相同领域作用的方案作为相似方案。
优选的,所述步骤S5中的比较方法,具体过程为:设置一个对比值,在相似方案中,统计词语数量,与识别区中的高频词语进行比值计算,当小于对比值时,停止该方案,进行下一个相似方案的比较,当大于对比值时,统计相似方案中的语句数量,得到相似语句的数量,相似语句数量与识别区的全部语句数量做比,得到重复度。
因此,本发明采用上述方法的数字经济领域基于语言逻辑学的文本特征检索方法,有以下有益效果:
(1)本发明统一了撰写格式,避免了因为格式不同而造成的内容会分散的问题。
(2)本发明一级分类分为方法类和结构类,统计动词和名词的数量,方法类是描述的行为,所以动词数量较多,结构类是描述的部件连接,所以名词较多,这样统计的方法快速便捷,准确度较高。
(3)本发明二级分类对方法类和结构类分别细分出了不同项目,可以确定方案中的技术倾向,在方法类中,确定方案的目标群体,执行过程和最终结果,用于后续步骤的重复度对比,在结构类中,确定方案的部件、连接关系和驱动关系,用于后续步骤的重复度对比,二级分类细分后,能确定方案的具体倾向,从而对重复度进行相应的计算。
(4)本发明最后按照重复度输出文件,撰写人员只需要自行对比重复度较高的文件,极大的减轻了工作量,提升效率。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明数字经济领域基于语言逻辑学的文本特征检索方法的流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供数字经济领域基于语言逻辑学的文本特征检索方法,包括以下步骤:
S1、建立识别库,识别库分为两个区,分别是识别区与存储区,撰写方案的格式统一,撰写包括三个项目,分别是领域作用、具体内容和实践操作,对撰写好的方案内容进行提取,将提取到的内容载入到识别区,存储区中储存有若干个不同的方案;
S2、识别区对提取到的内容进行一级分类,得到一级分类结果,一级分类分为方法类和结构类,一级分类方法是对步骤S1中提取到识别区的内容进行词语识别,在方案的具体内容的项目中分别统计动词与名词的数量,当动词数量大于名词数量时分为方法类,当名词数量大于动词数量时分为结构类;
S3、识别区对一级分类结果进行二级分类,得到二级分类结果,统计实践操作项目中的相同词语的使用频次,并根据词语的词性和使用频次进行分类,方法类分为目标群体、过程和结果,结构类分为部件、连接和驱动;
S4、将二级分类结果与存储区中的内容进行筛查,在领域作用、具体内容和实践操作中,依据步骤S3的分类结果,对每句话均进行分类,判断属于方法类或结构类,并在存储区中找到相同领域作用的方案作为相似方案;
S5、将本方案与相似方案进行比较,设置一个对比值,在相似方案中,统计词语数量,与识别区中高频词语进行比值计算,当小于对比值时,停止该方案,进行下一个相似方案的比较,当大于对比值时,统计相似方案中的语句数量,得到相似语句的数量,相似语句数量与识别区的全部语句数量做比,得到重复度;
S6、将相似方案按照重复度从高到低依次输出.
实施例一
如图1,当识别到的方案是一种方法类方案,包括以下步骤:
S1、建立识别库,识别库分为两个区,分别是识别区与存储区,撰写方案的格式统一,撰写包括三个项目,分别是领域作用、具体内容和实践操作,对撰写好的方案内容进行提取,将提取到的内容载入到识别区,存储区中储存有若干个不同的方案;
S2、识别区对提取到的内容进行一级分类,得到一级分类结果,分析具体内容后,一级分类总共分为两类,分为方法类和结构类,在具体内容中,识别库会对动词的数量和名词的数量进行相应的统计,依照统计的数量进行分类,动词数量大于名词数量的归类于方法类;
S3、在一级分类的基础上进行相应的二级分类,方法类分为三项,目标群体、过程和结果,识别库首先会识别从方案中提取到的实践操作内容,先进行统计,统计用到的高频词语,依照次数排列,再依据词语的表意来判断应该归属于方法类中的哪一个项目;
S4、对提取到的二级分类进行相应的筛查,在领域作用、具体内容和实践操作中,依据步骤S3的分类结果,对每句话均进行分类,判断属于方法类中的哪一项,并在存储区中找到相同领域作用的方案作为相似方案;
S5、将本方案与相似方案进行比较,设置一个对比值,在相似方案中,统计词语数量,与识别区中高频词语进行比值计算,当小于对比值时,停止该方案,进行下一个相似方案的比较,当大于对比值时,统计相似方案中的语句数量,得到相似语句的数量,相似语句数量与识别区的全部语句数量做比,得到重复度;
S6、将相似方案按照重复度从高到低依次输出,由技术人员核实特征点,从而对原方案进行相应的修改。
实施例二
如图1,当识别到的方案是一种结构类方案时,包括以下步骤:
S1、开始识别方案内容时,识别库首先会对按照统一格式撰写的方案进行内容的提取,总共提取出三部分内容,领域作用、具体内容和实践操作;
S2、识别区对提取到的内容进行一级分类,得到一级分类结果,分析具体内容后,一级分类总共分为两类,分为方法类和结构类,在具体内容中,识别库会对动词的数量和名词的数量进行相应的统计依照统计的数量进行分类,名词数量大于动词数量的归类于结构类;
S3、在一级分类的基础上进行相应的二级分类,方法类分为三项,目标群体、过程和结果,识别库首先会识别从方案中提取到的实践操作内容,先进行统计,统计用到的高频词语,依照次数排列,再依据词语的表意来判断应该归属于结构类中的哪一个项目;
S4、对提取到的二级分类进行相应的筛查,在领域作用、具体内容和实践操作中,依据步骤S3的分类结果,对每句话均进行分类,判断属于结构类中的哪一项,并在存储区中找到相同领域作用的方案作为相似方案
S5、将本方案与相似方案进行比较,设置一个对比值,在相似方案中,统计词语数量,与识别区中高频词语进行比值计算,当小于对比值时,停止该方案,进行下一个相似方案的比较,当大于对比值时,统计相似方案中的语句数量,得到相似语句的数量,相似语句数量与识别区的全部语句数量做比,得到重复度;
S6、将相似方案按照重复度从高到低依次输出,由技术人员核实特征点,从而对原方案进行相应的修改。
综上所述,本发明采用数字经济领域基于语言逻辑学的文本特征检索方法,通过高频使用的词语表意进行相应的归类,并通过词语表意在语句中的作用来进行对比,相应的判断本方案与相似方案的重复度,从而将相似方案按照重复度的高低进行相应的输出,方便相应的技术人员快速的找到相似文件,从而对本方案进行相应的修改。
最后应说明的是:以上实施例仅用以说明本发明的技术方案而非对其进行限制,尽管参照较佳实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对本发明的技术方案进行修改或者等同替换,而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。
机译: 用于开发单语文档的基于计算机的系统和方法基于计算机的系统,用于翻译外语源中的文本输入,并且基于计算机的单,多语翻译方法涉及用于翻译语言源中的文本的计算机。一种基于计算机的语言开发方法用于文档开发单,多语言翻译和领域模型三方
机译: 应用人工智能技术,使用自然语言处理训练关于日期和数字文本特征的自然语言生成系统
机译: 歌曲或口语文本的存储和检索方法及设备使用数字或字母数字字符序列检索每首歌曲或文本以在监视器屏幕上显示