首页> 中国专利> 一种利用分类文本来确定机器学习算法结果目标类型的优化方法及系统

一种利用分类文本来确定机器学习算法结果目标类型的优化方法及系统

摘要

本发明公开了一种利用分类文本来确定机器学习算法结果目标类型的优化方法及系统,包括步骤一,语言处理;步骤二,分类目标;步骤三,生成文本;步骤四,性能测量;步骤五,学习算法;步骤六,确定结果;该利用分类文本来确定机器学习算法结果目标类型的优化方法及系统包括以下过程:将文本进行自然语言化处理,确定文本的特征及其之间的关系;分类器基于文本的特征和特征间关系确定一个目标类型,将文本特征及其关系输入到不同的机器学习算法中计算结果,并对每个结果进行评价;最终选择至少一种机器学习算法产生的与目标类型高度相关的结果,通过本发明方法将多种机器学习算法进行整合,可有效提高结果输出精度。

著录项

  • 公开/公告号CN112612896A

    专利类型发明专利

  • 公开/公告日2021-04-06

    原文格式PDF

  • 申请/专利权人 东莞理工学院;

    申请/专利号CN202011598471.9

  • 申请日2020-12-29

  • 分类号G06F16/35(20190101);G06N20/20(20190101);

  • 代理机构44299 广州恒华智信知识产权代理事务所(普通合伙);

  • 代理人姜宗华

  • 地址 523808 广东省东莞市松山湖大学路1号

  • 入库时间 2023-06-19 10:29:05

说明书

技术领域

本发明涉及智能识别技术领域,具体为一种利用分类文本来确定机器学习算法结果目标类型的优化方法及系统。

背景技术

现有的文本主要信息提取是利用机器学习算法执行语义分析或从非结构化数据中提取结构化信息;例如,可能希望通过机器分析产品的描述来确定产品的特征;然而,现有的分析方法和模型不能很好地契合文本中主要内容信息;因此;当前的文本分析技术不能很好地从冗长的文本中推断文本目标类型;而且,目前很多机器学习模型完成给定的文本分析任务过于复杂,可能会导致过度拟合模型和过度拟合训练数据集;因此,需要探索从长文本中提取结构更优的算法;针对这些缺陷,设计一种利用分类文本来确定机器学习算法结果目标类型的优化方法及系统是很有必要的。

发明内容

本发明的目的在于提供一种利用分类文本来确定机器学习算法结果目标类型的优化方法及系统,以解决上述背景技术中提出的问题。

为了解决上述技术问题,本发明提供如下技术方案:一种利用分类文本来确定机器学习算法结果目标类型的优化方法,包括步骤一,语言处理;步骤二,分类目标;步骤三,生成文本;步骤四,性能测量;步骤五,学习算法;步骤六,确定结果;

其中上述步骤一中,对文本进行自然语言处理,确定文本中的特征及特征间关系;

其中上述步骤二中,分类,基于文本的关系和特征使用分类器对文本进行分类,从多个目标类型中确定最优目标类型;

其中上述步骤三中,将文本中确定的特征和及特征关系输入不同的机器的学习算法来生成文本的结果;

其中上述步骤四中,对于每种机器的学习算法,确定由机器的学习算法产生的性能测量值;

其中上述步骤五中,确定至少一种能够生成具有性能测量高度相关目标类型的机器的学习算法;

其中上述步骤六中,从所确定的至少一个机器的学习算法至少一个结果中确定结果。

一种利用分类文本来确定机器学习算法结果目标类型的系统,包括计算机装置、主内存、储存器、处理单元、网络适配器、I/O接口和显示,所述计算机装置内部设置有主内存,所述主内存由运算系统、最终结果、结果生成器、输入文本、目标分类器、预估结果、机器学习算法、运行内存、存储系统和缓存组成,且运算系统、最终结果、结果生成器、输入文本、目标分类器、预估结果、机器学习算法、储存器、运行内存、存储系统和缓存均通过信号连接,所述主内存底部设置有储存器,且储存器与运算系统通过信号连接,所述主内存一侧设置有处理单元,且处理单元与运算系统通过信号连接,所述处理单元底部设置有网络适配器、I/O接口和显示,且处理单元、网络适配器、I/O接口和显示均通过信号连接。

根据上述技术方案,所述步骤一种其中文本包含问题以及相应的回答,多个目标类型包括正确率、精度、召回率和执行时间。

根据上述技术方案,所述步骤二中其中确定目标类型包括通过对文本进行自然语言处理确定文本中的特征,以及对每个目标类型进行评分,所确定的目标类型包括得分最高的目标类型。

根据上述技术方案,所述步骤二中其中得分目标类型包括:检测文本是否包含在本体深度中具有高度特异性的特征,同时,确定该精度目标类型得分是否相对于其他目标类型高。

根据上述技术方案,所述步骤二中其中得分目标类型:确定文本是否包括在本体深度上具有高度一般性的特征,确定召回率目标类型的得分是否相对高于其他目标类型。

根据上述技术方案,所述步骤二中其中得分的目标类型包括:确定文本是否具有包含与特征相关的数值特征,包括医疗状况,在确定该特征与医疗状况有关的数值时,正确率目标类型得分相对高于其他目标类型。

根据上述技术方案,所述步骤二中其中的操作还包括:在确定目标类型时,对文本中的特征进行处理,以确定目标类型无关的特征;移除文本中与目标类型无关的确定特征,确定输入特征包括未从文本中删除的输入特征。

根据上述技术方案,所述步骤三中从多种机器的学习算法中得到满足目标类型的组合结果,从组合结果的综合评分中进行选择。

根据上述技术方案,所述步骤五中计算机可读存储介质,在计算机可读程序代码,当由处理器执行时,操作包括:对文本进行自然语言处理以确定文本中的特征及其关系;使用分类器,基于文本的关系和特征对文本进行分类,以确定多个目标类型的目标类型;将文本中确定的特征和关系输入到多个不同的机器的学习算法中,以生成文本的结果;对于每个机器的学习算法,确定由机器的学习算法产生的性能度量;确定具有与所确定目标类型高度相关的性能度量的机器的学习算法中至少一个机器的学习算法;从以上机器的学习算法中确定至少一个结果。

根据上述技术方案,所述步骤五中其中多个目标类型包括精度、召回率和执行时间,并且所确定的机器的学习算法包括具有与目标类型高度相关的性能度量的机器的学习算法。

根据上述技术方案,所述步骤五中其中文本包括一个问题,结果包括问题的答案。

根据上述技术方案,所述步骤五中其中操作进一步包括:组合来自产生满足所确定目标类型的结果的多个机器的学习算法结果,并使用对结果评分、多数投票,从至少一个从组合结果中选择。

根据上述技术方案,所述步骤五中其中通过对文本进行自然语言处理来确定文本中的特征来对每个目标类型进行评分,所确定的目标类型包括目标类型的得分最高的目标类型。

根据上述技术方案,所述步骤五中其中进球类型包括执行至少一个判定,所述判定是一组判定中的一员,所述判定包括:确定文本是否包括在本体深度上具有高度通用性的特征,响应于确定特征在本体深度中为特征提供了高程度的通用性,召回目标类型的得分相对高于其他目标类型;确定文本是否包括包含比较的特征还是具有高权重的特征,响应于确定特征包括比较或,并且准确目标类型相对于中的其他目标类型得分相对较高对确定特征具有高权重的响应;确定文本是否具有指示深度搜索或特定答案的特征,响应于确定特征指示特定答案而对执行时间目标类型评分较高,并且响应于确定特征指示深度搜索,执行时间目标类型得分较低。

根据上述技术方案,所述步骤五中响应于确定目标类型,对文本中确定的特征进行处理,以确定与所确定的目标类型无关的特征;移除与目标类型无关的文本中的确定特征,确定特征的输入包括输入未从文本中移除的确定特征。

与现有技术相比,本发明所达到的有益效果是:该利用分类文本来确定机器学习算法结果目标类型的优化方法及系统包括以下过程:将文本进行自然语言化处理,确定文本的特征及其之间的关系;分类器基于文本的特征和特征间关系确定一个目标类型,将文本特征及其关系输入到不同的机器学习算法中计算结果,并对每个结果进行评价;最终选择至少一种机器学习算法产生的与目标类型高度相关的结果,通过本发明方法将多种机器学习算法进行整合,可有效提高结果输出精度。

附图说明

附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:

图1是本发明的计算机装置1组件图;

图2是本发明的实施例中目标类型向量图;

图3是本发明的实施例中由机器学习算法产生的输出结果图;

图4(a)与图4(b)是本发明的实施例中从输入文本中确定目标类型的操作流程图;

图5是本发明的实施例中使用确定目标类型来确定机器学习算法结果的操作流程图;

图6是本发明的计算系统组成框架图;

图中:1、计算机装置;2、主内存;3、运算系统;4、最终结果;5、结果生成器;6、输入文本;7、目标分类器;8、预估结果;9、机器学习算法;10、储存器;11、运行内存;12、存储系统;13、缓存;14、处理单元;15、网络适配器;16、I/O接口;17、显示。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅图1-5,本发明提供一种技术方案:一种利用分类文本来确定机器学习算法结果目标类型的优化方法,包括步骤一,语言处理;步骤二,分类目标;步骤三,生成文本;步骤四,性能测量;步骤五,学习算法;步骤六,确定结果;

其中上述步骤一中,对文本进行自然语言处理,确定文本中的特征及特征间关系,其中文本包含问题以及相应的回答,多个目标类型包括正确率、精度、召回率和执行时间;

其中上述步骤二中,分类,基于文本的关系和特征使用分类器对文本进行分类,从多个目标类型中确定最优目标类型,其中确定目标类型包括通过对文本进行自然语言处理确定文本中的特征,以及对每个目标类型进行评分,所确定的目标类型包括得分最高的目标类型;其中得分目标类型包括:检测文本是否包含在本体深度中具有高度特异性的特征,同时,确定该精度目标类型得分是否相对于其他目标类型高;其中得分目标类型:确定文本是否包括在本体深度上具有高度一般性的特征,确定召回率目标类型的得分是否相对高于其他目标类型;其中得分的目标类型包括:确定文本是否具有包含与特征相关的数值特征,包括医疗状况,在确定该特征与医疗状况有关的数值时,正确率目标类型得分相对高于其他目标类型;其中的操作还包括:在确定目标类型时,对文本中的特征进行处理,以确定目标类型无关的特征;移除文本中与目标类型无关的确定特征,确定输入特征包括未从文本中删除的输入特征;

其中上述步骤三中,将文本中确定的特征和及特征关系输入不同的机器的学习算法来生成文本的结果;从多种机器的学习算法中得到满足目标类型的组合结果,从组合结果的综合评分中进行选择;

其中上述步骤四中,对于每种机器的学习算法,确定由机器的学习算法产生的性能测量值;

其中上述步骤五中,确定至少一种能够生成具有性能测量高度相关目标类型的机器的学习算法;计算机可读存储介质,在计算机可读程序代码,当由处理器执行时,操作包括:对文本进行自然语言处理以确定文本中的特征及其关系;使用分类器,基于文本的关系和特征对文本进行分类,以确定多个目标类型的目标类型;将文本中确定的特征和关系输入到多个不同的机器的学习算法中,以生成文本的结果;对于每个机器的学习算法,确定由机器的学习算法产生的性能度量;确定具有与所确定目标类型高度相关的性能度量的机器的学习算法中至少一个机器的学习算法;从以上机器的学习算法中确定至少一个结果;其中多个目标类型包括精度、召回率和执行时间,并且所确定的机器的学习算法包括具有与目标类型高度相关的性能度量的机器的学习算法;其中文本包括一个问题,结果包括问题的答案;其中操作进一步包括:组合来自产生满足所确定目标类型的结果的多个机器的学习算法结果,并使用对结果评分、多数投票,从至少一个从组合结果中选择;其中通过对文本进行自然语言处理来确定文本中的特征来对每个目标类型进行评分,所确定的目标类型包括目标类型的得分最高的目标类型;其中进球类型包括执行至少一个判定,判定是一组判定中的一员,判定包括:确定文本是否包括在本体深度上具有高度通用性的特征,响应于确定特征在本体深度中为特征提供了高程度的通用性,召回目标类型的得分相对高于其他目标类型;确定文本是否包括包含比较的特征还是具有高权重的特征,响应于确定特征包括比较或,并且准确目标类型相对于中的其他目标类型得分相对较高对确定特征具有高权重的响应;确定文本是否具有指示深度搜索或特定答案的特征,响应于确定特征指示特定答案而对执行时间目标类型评分较高,并且响应于确定特征指示深度搜索,执行时间目标类型得分较低;响应于确定目标类型,对文本中确定的特征进行处理,以确定与所确定的目标类型无关的特征;移除与目标类型无关的文本中的确定特征,确定特征的输入包括输入未从文本中移除的确定特征;

其中上述步骤六中,从所确定的至少一个机器的学习算法至少一个结果中确定结果。

请参阅图6,本发明提供一种技术方案:一种利用分类文本来确定机器学习算法结果目标类型的系统,包括计算机装置1、主内存2、储存器10、处理单元14、网络适配器15、I/O接口16和显示17,计算机装置1内部设置有主内存2,主内存2由运算系统3、最终结果4、结果生成器5、输入文本6、目标分类器7、预估结果8、机器学习算法9、运行内存11、存储系统12和缓存13组成,且运算系统3、最终结果4、结果生成器5、输入文本6、目标分类器7、预估结果8、机器学习算法9、储存器10、运行内存11、存储系统12和缓存13均通过信号连接,主内存2底部设置有储存器10,且储存器10与运算系统3通过信号连接,主内存2一侧设置有处理单元14,且处理单元14与运算系统3通过信号连接,处理单元14底部设置有网络适配器15、I/O接口16和显示17,且处理单元14、网络适配器15、I/O接口16和显示17均通过信号连接。

基于上述,本发明的优点在于,该发明使用时图1展示了计算机装置1的实施例,计算机装置1包括一个处理器,一个主内存2和一个储存器10,主内存2包括操作系统在内的各种程序组件,一个用于处理输入文本6的目标分类器7,例如各类语句和问题等,从而从文本中确定目标向量,例如一个准确的分数,文本的目标类型会是目标矢量中的最高分,一个补充输入文本6的结果生成器5,一个输入到机器学习算法9中的特性集,例如,一个实现不同算法的机器学习算法9集合,来处理输入文本6或从输入文本6中提取的特征来生成结果,机器学习算法9针对这些结果进行训练,修正的特征集可以从目标向量中排除输入文本6中确定的与目标类型无关的特征类型,结果生成器5接收到结果,并使用目标类型由目标向量确定来选择性能最优的结果该结果在目标向量中与目标类型相关度最高,图1所示的箭头说明了在存储器中执行的程序组件之间的处理数据的程序流;

目标分类器7可以实现诸如决策树学习、关联规则学习、神经网络、归纳逻辑、支持向量机、贝叶斯网络等机器学习技术,根据输入文本6确定目标类型,在某些实施例中,目标类型可包括正确率、正确预测的观测值与总观测值之比;精度、正确预测的正观测值与预测的总正观测值之比;召回率、正确预测的正观测值与实际中所有数据的比率;F1分数、精度和召回率的加权平均值;执行时间、表明完成执行程序产生结果的运行时间,如果一个结果在目标类型中有最高的性能得分,或者在目标类型中有一个较高的性能分数,那么这个结果可能作为与目标类型高度相关的结果,例如如果目标类型在输入文本6中具有高度特异性的精度,则将在性能评价中精度得分或精度得分满足阈值的结果确定为相关度最高的结果;

机器学习算法9可能包含不同的机器学习模型,它们能够处理输入文本6,并基于机器学习算法9训练产生特定结果,机器学习算法9可以使用不同的技术确定输入文本6的结果,如决策树学习,关联规则学习,神经网络,归纳逻辑、支持向量机,贝叶斯网络等;

计算设备可存储程序许多组件,输入文本6,还包含有在非易失性存储器中的输出结果和最终输出结果,非易失性存储器是由一个或多个技术中熟知的存储设备组成,如由固态电子元件组成的固态存储设备SSD、带电可擦可编程只读存储器EEPROM、闪速存储器、闪盘、随机存取存储器RAM、存储级存储器SCM、相变化主内存2PCM、电阻随机存取存储器RRAM、自旋转移转矩存储器SIM-RAM、导电桥RAMCBRAM、硬磁盘驱动器、光盘、磁带等,该存储设备可进一步配置为一组设备,比如:未配置为独立磁盘冗余阵列RAID的一组硬盘JBOD、直接访问存储设备DASD、独立磁盘冗余数组RAID、虚拟化设备等,此外,存储设备还可以使用来自不同供应商或者同一供应商的异构存储设备;

存储器可包括合适的易失性或非易失性存储器装置,包括上述存储器装置;

诸如程序组件的程序模块可以包含例程、程序、对象、组件、逻辑、数据结构等,以此来执行特定任务或实现特定的抽象数据类型,图1中计算设备的程序组件和硬件设备可以在一个或多个计算机系统中实现,如果在多个计算机系统中实现,则计算机系统可以通过网络进行通信,主内存2的处理器可以访问和执行程序组件,部分或全部的程序组件可以在单独的硬件设备中运行,例如专用集成电路ASIC硬件设备;

由程序执行的功能可以比展示的程序模块数量更少的作为程序代码,或者在更多的程序模块中作为程序代码;

虽然对输入文本6进行分类可以描述实施例,但在可选实施例中可以按其他媒体格式如音频、视频、图形等输入,图2展示了由目标分类器7生成的目标向量的实施例,其中包括输入文本6标识符和不同的加权目标分数以满足文本的标准;

图2展示了由目标分类器7产生的目标向量实例的实施例,其中包括输入文本6标识符和不同的加权分数来满足文本的一个标准,例如正确率各类模型预测正确的数量、精度正预测值与总的正预测值之比、召回率正确预测结果的比率、执行时间在某种程度上指的是输出结果需要的执行时间、在目标中最高得分的目标类型,其他的目标分数也可以根据文本来确定,如F1等,此外,还可以指定多个目标的组合分数,比如F1的目标得分为正确率和召回率的加权平均值,由分类输入文本6确定的目标类型可能包括分数最高的一个或多个目标,例如精度、召回率、准确性等;

图3展示了机器学习输出的实施例,机器学习算法9针对输入文本6会给出一个结果,并且包括机器学习算法9标识符,例如对问题的回答等,基于输入文本6的结果,对其进行不同加权性能进行评价,例如精确性、精度、召回率和执行时间,图4(a)和(b)展示了目标分类器7基于输入文本6生成目标向量和目标类型的实施例,在接收到输入文本6后,目标分类器7会输入文本6,如:问题特征、数据类型,相关性、特征权重和特征值,按输入文本6确定的每个特征执行循环,其中特征包括文本的单独可测量属性或特征,并且可以使用过滤、融合、映射和聚类来提取,提供关于文本中的内容词的信息以及特征的权重,为了确定目标得分,目标分类器7确定特征是否具有高度的特异性或概括性,如果在方框处特征具有较高的特异性或一般性,那么要向精度分数提供增加的权重,像一类术语或实体的具体实例那样,如果特征具有高度的概括性,例如,一类术语或一般的实例,则向召回率提供增加的权重;

如果特征不具有高度的特异性或本体性,则确定特征是比较关系,这种比较将请求的类缩小到与目标主题相匹配的类,所以特征如果是比较关系,则向精度分数提供增加的权重,如果特征不是比较关系,则确定特征是否具有较高的权重,这意味着在输入文本6中该特征为具有高度相关性,如果特征具有较高的权重,则向精度分数提供增加的权重,使得具有该特征的结果更加具体,如果特征的权重低,则判断特征是否具有与其测量有关的数值,如果出现上述过程,由于在输入文本6中提供了相关数值的特征,例如元素X的个数,向精度分数加权提供增加的权重,所以针对这个信息该结果是特定的,在医学领域,为观察病人的情况,往往指定一个阈值,例如肿瘤的尺寸或测量值、血液测试中各成分数值等,在这种情况下,与观察相关的医疗诊断结果的准确性可以有效避免误诊;

在处理完输入文本6中的特征之后,控制过程进行到图4(b)中的方框,其中目标分类器7会探测文本特征是否为深度搜索的目标,如果召回率分数很高,或者是一个特定的答案,那么它与高精确度分数相关联的,如果特征暗含深度搜索,由于答案的范围很大,所以确定结果不一定需要更多的时间来获得答案,则会向执行时间分数提供较低的权重。如果特征暗含了特定答案,则向执行时间分数提供更高的权重,因为需要找到特定的答案,需要更多的时间来搜索,目标分类器7可以根据具有最高分数值,从目标向量中确定目标类型,为了处理来自机器学习算法9的结果,目标分类器7将目标向量提供给结果生成器5;

基于利用机器学习算法9输出结果的性能评价指标,如:精度、正确率、召回率等,图4(a)和(b)将拥有目标类型的输入文本6进行分类,进而改进了相应的计算机技术,实施例识别输入文本6的特征,以确定机器学习算法9产生结果的目标类型得分权重,然后,可以使用该目标类型找到哪种机器学习算法9产生的结果与输入文本6的目标类型匹配度最高的结果,如输入文本6中提出的问题;

图5展示了结果生成器5从机器学习算法9中生成结果的操作和确定最终结果4的过程,结果生成器5接收输入文本6和目标向量,为文本提供目标类型,如精度、正确率、召回率、执行时间等,结果生成器5可移除与目标类型不相关的文本特征,例如具有卡方值的特征表明它们不参与目标类型分类,而是产生修改的特征集,结果生成器5调用机器学习算法9来处理输入文本6,进而确定输出结果;

结果生成器5接收来自机器学习算法9的结果,其中包括结果,例如对输入文本6中的问题的回答,以及性能评价指标,来自目标分类器7的目标类型得分最高的一个或多个性能评价指标,结果生成器5确定使用哪种最优的机器学习算法9,例如:如果目标类型表示精度,即精度具有最高分数,则结果生成器5寻找具有最高精度分数的机器学习输出结果,然后结果生成器5确定来自机器学习算法9的结果,其具有与目标类型的性能评价指标的最高匹配度,如果有多个结果具有与目标类型相关,并且具有较高的性能评价分数或满足目标类型的阈值,则可能存在多种机器学习算法9与目标类型高度相关,在这种情况下,结果生成器5可以用投票法、提升法或其他机器学习选择技术从多个结果中导出最优结果;

在图5的例子中,确定目标类型用于从机器学习算法9或从一个性能度量与从输入文本6确定的目标类型高度相关的算法中选择结果。确定那种目标类型表示能够根据结果产生最佳结果的绩效衡量,例如,对于一个问题,根据问题的目标,不同的绩效衡量可能会提供更好的结果。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。

最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号