首页> 中国专利> 自然语言语料用于机器学习决策模型的训练方法

自然语言语料用于机器学习决策模型的训练方法

摘要

本发明涉及一种自然语言语料用于机器学习决策模型的训练方法,通过存储有多个自然文本的计算机装置实施,每一自然文本被标记为多个决策结果中的目标决策结果且包含多个相关于该自然文本所欲描述的至少一对象的理据数据,并包含:对于每一自然文本所对应的每一理据数据,利用断词算法及文句转向量算法,获得对应的理据向量组;对于每一自然文本,将该自然文本所对应的多个理据向量组,依照顺序连接组合成等效向量组;根据每一自然文本所对应的该等效向量组及其对应的该目标决策结果,利用监督式分类算法,获得决策模型。由此,无需额外定义选项类别问卷,且能够有效提高分类决策的正确率。

著录项

  • 公开/公告号CN113010667A

    专利类型发明专利

  • 公开/公告日2021-06-22

    原文格式PDF

  • 申请/专利权人 王道维;

    申请/专利号CN201911327987.7

  • 发明设计人 李亚伦;林昀娴;王道维;

    申请日2019-12-20

  • 分类号G06F16/35(20190101);

  • 代理机构11277 北京林达刘知识产权代理事务所(普通合伙);

  • 代理人刘新宇

  • 地址 中国台湾新竹市光复路二段101号

  • 入库时间 2023-06-19 11:32:36

说明书

技术领域

本发明涉及一种人工智能的模型训练方法,特别是涉及一种基于机器学习并用于分类决策自然语言文本的模型训练方法。

背景技术

过往利用机器学习(Machine Learning)模型进行决策预测的方法,主要依赖于人工已标注的类型化数据。

其中,在非自然语言(包含文字及语音)处理的领域上,可通过例如:黄诗淳、邵轩磊,运用机器学习预测法院裁判-法信息学的实践2017,根据法院判决书所描述的各种关键信息,以人工的方式标注于预先设定好的选项类别问卷中(例:法院判决书提到甲方年收入80万,则该选项类别问卷中相关于年收入选项的必须勾选“介于80~100万间”),由此将语料转换为类型化数据作为建模训练数据后,再通过数据探勘(Data Mining)方式建立出模型。但是此种方式针对不同类型的语料,需要人工重新定义全新的选项类别问卷,而使整个训练方法难以扩展到更大范围的语料。

而,在自然语言(包含文字及语音)处理的领域上,亦有一些针对大范围语料进行分类的方法,如LSA(Latent Semantic Indexing)、LDA(Latent Dirichlet Allocation)等主题模型,可将语料按照相似的主题进行分类,但上述方法只适用于粗略分类,对于近似的主题,仍无法提供有效的分类以供决策预测。

有鉴于此,势必需提出一种全新机器学习决策模型的训练方法,以克服前述技术所面临的问题。

发明内容

本发明的目的在于提供一种基于自然语言技术,且无需额外定义选项类别问卷,并有效提高分类决策的正确率的机器学习决策模型训练方法。

本发明的自然语言语料用于机器学习决策模型的训练方法,通过一计算机装置来实施,该自然语言语料用于机器学习决策模型的训练方法包含一步骤(A)、一步骤(B),以及一步骤(C)。

步骤(A)是对于每一自然文本所对应的每一理据数据,通过该计算机装置,根据该理据数据,获得一对应于该理据数据的理据向量组。

步骤(B)是对于每一自然文本,通过该计算机装置,将该自然文本所对应的理据向量组,依照一第一顺序连接组合成一等效向量组。

步骤(C)是通过该计算机装置,至少根据每一自然文本所对应的效向量组,以及每一自然文本所对应的该目标决策结果,利用监督式分类算法,获得一用于将未标记的一待决策自然文本标记为所述决策结果中的一者的决策模型。

本发明的自然语言语料用于机器学习决策模型的训练方法,步骤(A)包含以下步骤:

(A-1)对于每一自然文本所对应的每一理据数据,通过该计算机装置,根据该理据数据,利用前处理算法,获得一对应于该理据数据的理据前处理数据;及

(A-2)对于每一自然文本所对应的每一理据前处理数据,通过该计算机装置,利用文句转向量算法,获得一对应于该理据前处理数据的该理据向量组。

本发明的自然语言语料用于机器学习决策模型的训练方法,步骤(A)包含以下步骤:

(A-1)对于每一自然文本所对应的每一理据数据,通过该计算机装置,根据该理据数据,利用机器朗读,获得一对应于该理据数据的理据语音数据;及

(A-2)对于每一自然文本所对应的每一理据语音数据,通过该计算机装置,利用语音转向量算法,获得一对应于该理据语音数据的该理据向量组。

本发明的自然语言语料用于机器学习决策模型的训练方法,每一自然文本还包含多个预先标记且无关于该自然文本所欲描述的任何对象的中性数据,在步骤(C)之前,还包含以下步骤:

(D)对于每一自然文本所对应的每一中性数据,通过该计算机装置,根据该中性数据,获得一对应于该中性数据的一中性向量组;

(E)通过该计算机装置,根据选自该自然文本中的一选定自然文本所对应的该理据向量组,获得至少一选定理据向量组;

(F)对于每一选定理据向量组,通过该计算机装置,根据该选定理据向量组及所有自然文本所对应的任一中性向量组,获得一相关于该选定理据向量组的重组理据向量组;及

(G)通过该计算机装置,将该至少一重组理据向量组及该选定自然文本未被挑选的理据向量组,依照该第一顺序连接组合成另一等效向量组;及

在步骤(C)中,通过该计算机装置,不仅根据每一自然文本所对应的效向量组及每一自然文本所对应的该目标决策结果,还根据该另一等效向量组及该选定自然文本所对应的该目标决策结果,利用监督式分类算法,获得该决策模型。

本发明的自然语言语料用于机器学习决策模型的训练方法,每一自然文本所对应的理据数据包含对应该自然文本的每一对象具有正向涵义的一正向理据数据,以及对应该自然文本的每一对象具有负向涵义的一负向理据数据,:

在步骤(A)中,每一自然文本对应的理据向量组包含每一对象的正向理据数据所转换的正向理据向量组,每一对象的负向理据数据所转换的负向理据向量组;及

在步骤(B)中,对于每一自然文本,通过该计算机装置,根据该自然文本的每一对象所对应的正向理据向量组及负向理据向量组,依照该第一顺序连接组合成该等效向量组。

本发明的自然语言语料用于机器学习决策模型的训练方法,在步骤(B)之后,还包含以下步骤:

(H)通过该计算机装置,将选自自然文本中的一选定自然文本中所对应的理据向量组,依照一第二顺序连接组合成另一等效向量组,该第二顺序使该第一顺序中二组分别对应不同的选定对象的正向理据向量组各自所对应的顺位对调,且使该第一顺序中二组分别对应该不同选定对象的负向理据向量组各自所对应的顺位对调;

(I)通过该计算机装置,根据步骤(H)的该选定自然文本所对应的该目标决策结果,获得步骤(H)的该另一等效向量组所对应的该目标决策结果;及

在步骤(C)中,通过该计算机装置,不仅根据每一自然文本所对应的该等效向量组及每一自然文本所对应的该目标决策结果,还根据该另一等效向量组及其所对应的该目标决策结果,利用监督式分类算法,获得该决策模型。

本发明的自然语言语料用于机器学习决策模型的训练方法,在步骤(C)之前,还包含以下步骤:

(I)通过该计算机装置,根据选自该自然文本中的一选定自然文本所对应的该理据数据,获得至少一选定理据数据;

(J)对于每一选定理据数据,通过该计算机装置,利用同义改写算法,将该选定理据数据改写为一对应于该选定理据数据的理据改写数据;

(K)对于每一理据改写数据,通过该计算机装置,根据该理据改写数据,获得一对应于该理据改写数据的改写向量组;

(L)通过该计算机装置,将该至少一改写向量组及该选定自然文本未被挑选的理据向量组,依照该第一顺序连接组合成另一等效向量组;及

在步骤(C)中,通过该计算机装置,不仅根据每一自然文本所对应的该等效向量组及每一自然文本所对应的该目标决策结果,还根据该另一等效向量组及该选定自然文本所对应的该目标决策结果,利用监督式分类算法,获得该决策模型。

本发明的自然语言语料用于机器学习决策模型的训练方法,每一自然文本是相关于一事件并包含多个预先标记的文件类别数据,在步骤(C)之前,还包含以下步骤:

(M)对于每一自然文本所对应的每一文件类别数据,通过该计算机装置,将该文件类别数据转为一文件向量;及

在步骤(B)中,对于每一自然文本,通过该计算机装置,将该自然文本所对应的理据向量组及文件向量,依照该第一顺序连接组合成该等效向量组。

本发明的自然语言语料用于机器学习决策模型的训练方法,在步骤(M)中,每一自然文本所对应的该文件类别数据包括一相关发生该事件的地点信息。

本发明的自然语言语料用于机器学习决策模型的训练方法,每一自然文本还包含多个预先标记且相关于该自然文本所欲描述的对象的对象背景数据,在步骤(C)之前,还包含以下步骤:

(N)对于每一自然文本所对应的每一对象背景数据,通过该计算机装置,将该对象背景数据转为一对象向量;及

在步骤(B)中,对于每一自然文本,通过该计算机装置,将该自然文本所对应的理据向量组及对象向量,依照该第一顺序连接组合成该等效向量组。

本发明的自然语言语料用于机器学习决策模型的训练方法,在步骤(N)中,每一自然文本的每一对象所对应的对象背景数据包括一对象性别信息。

本发明的有益效果在于:通过该计算机装置,将每一自然文本中多个预先标记并相关于该自然文本所欲描述的至少一对象的理据数据转换为对应的该理据向量组,通过将该自然文本中的“句子”或“段落”为单位进行训练,以此保留住具有实质意义文句所表示出的向量,接着,根据每一自然文本所对应的该等效向量组,以及每一自然文本所对应的该目标决策结果,便能在无需定义额外选项类别问卷下,使所训练出的该决策模型,有效地提升决策预测的准确率。

附图说明

本发明的其他的特征及功效,将于参照图式的实施方式中清楚地呈现,其中:

图1是一方块图,说明一执行本发明自然语言语料用于机器学习决策模型的训练方法的一实施例的一计算机装置;

图2是一流程图,说明该实施例的一标准训练程序;

图3是一流程图,说明该实施例的一中性数据扩增训练程序;

图4是一流程图,说明该实施例的一调换数据扩增训练程序;及

图5是一流程图,说明该实施例的一改写数据扩增训练程序。

具体实施方式

在本发明被详细描述之前,应当注意在以下的说明内容中,类似的组件是以相同的编号来表示。

参阅图1,执行本发明自然语言语料用于机器学习决策模型的训练方法的一实施例的一计算机装置1包含一存储模块11、一显示模块12,以及一电连接该存储模块11与该显示模块12的处理模块13。

该存储模块11存储有多个自然文本,每一自然文本标记有多个决策结果中的一目标决策结果。且,每一自然文本是相关于一事件包含多个预先标记并相关于该自然文本所欲描述的至少一对象的理据数据、多个预先标记且无关于该自然文本所欲描述的任何对象的中性数据、多个预先标记且相关于该自然文本所欲描述的对象的对象背景数据,以及多个预先标记的文件类别数据。

其中,每一自然文本所对应的每一理据数据,即在该自然文本中,可被标记为相关于所欲描述的对象的正向涵义(有利)或负向涵义(不利)的描述内容。其中,对应该自然文本的每一欲描述对象具有正向涵义为一正向理据数据,而对应该自然文本的每一欲描述对象具有负向涵义为一负向理据数据。

其中,每一自然文本所对应的每一中性数据,即在该自然文本中,无法被标记为对所欲描述的至少一对象相对于该目标决策结果的正向涵义(有利)或负向涵义(不利)的描述内容。

其中,每一自然文本的每一对象所对应的该对象背景数据,即在该自然文本中,与该对象相关的背景信息。举例来说,该对象背景数据包含有例如类别化数据型态的一对象性别信息、一对象职业信息、一对象国籍信息、一对象居住地信息、一对象人格特质信息、一对象前科信息,还包括有例如数值数据型态的一对象年龄信息、一对象收入信息、一对象就学时间信息,以及,还包括有例如文字数据型态的一对象心情描述信息、一对象成长环境描述信息,但不以上述举例为限。

其中,每一自然文本所对应的每一文件类别数据,即在该自然文本中,不能被归类为该理据数据、该中性数据及该对象背景数据的数据。举例来说,该文件类别数据包含有例如一相关于发生该事件的时间信息、一相关于发生该事件的地点信息、一相关于该事件的自然文本的发布地点信息、一撰写该事件的自然文本的笔者信息、一相关于该自然文本的来源信息、一负责相关于该事件的归属单位、一关于裁决该事件的法官所使用的法条,以及一该事件的医病科别,但不以上述举例为限。

具体来说,当每一自然文本为包含预先标记并相关于该自然文本所欲描述的单一对象的理据数据时,例如为学生入学数据。每一学生入学数据(自然文本)包含有一申请学生自传中的家庭背景的理据数据、一申请学生自传中的个人兴趣的理据数据、一申请学生自传中的学术性向的理据数据、一申请学生自传中的团队合作经验的理据数据,以及一申请学生自传中的未来学习规划的理据数据,而,每一自然文本所对应的决策结果包含一指示出申请学生录取学校的录取结果(录取的决策结果),及一指示出申请学生未录取学校的未录取结果(未录取的决策结果),但不以上述例子为限。

具体来说,当每一自然文本包含预先标记并相关于该自然文本所欲描述的单一对象的理据数据时,例如为医疗病历。每一医疗病历(自然文本)包含有一相关于该对象的一第一生理部位症状的理据数据,以及一相关于该对象的一第二生理部位症状的理据数据,而,每一自然文本所对应的决策结果包含一指示出该医疗病历属于一第一疾病的决策结果,及一指示出该医疗病历属于一第二疾病的决策结果,但仍不以上述例子为限。

举例来说,当自然文本为医疗病历时,其内容为“打喷嚏,流鼻水,鼻塞不通,头痛头晕,喉咙微痛,咳嗽声重,白痰很多,微发热”,则被标记为该第一生理部位症状的理据数据;另其内容为“胃口不佳,没有食欲,接着发现体重持续减轻,一直想排便的感觉,有出血现象,腹胀,多气,多屁”,则被标记为该第二生理部位症状的理据数据;另其内容为“服药后,请避免从事容易引起伤害的危险活动,如开车、操作机械等”,则被标记并作为与所欲描述的疾病无关的中性数据。

具体来说,当每一自然文本为包含预先标记并相关于该自然文本所欲描述的多个对象的多个理据数据时,例如为:一包含有一对于该自然文本所欲描述的第一对象具有正向涵义的第一正向理据数据、一对于该自然文本所欲描述的第一对象具有负向涵义的第一负向理据数据、一对于该自然文本所欲描述的第二对象具有正向涵义的第二正向理据数据,以及一对于该自然文本所欲描述的第二对象具有负向涵义的第二负向理据数据的法院判决书(例:对申请人有利或不利的描述,及对相对人有利或不利的描述)或新闻评论文章(例:对第一政党有利或不利的描述,及对第二政党有利或不利的描述),而,每一自然文本所对应的多个决策结果包含一指示出该第一对象获胜的获胜结果(该第一对象获胜或胜诉的决策结果)、一指示出该第一对象落败的落败结果(该第一对象落败或败诉的决策结果),以及一指示出该第一对象与该第二对象平手的平手结果(该第一对象与该第二对象平手的决策结果),但不以上述例子为限。

举例来说,当自然文本为判决书时,其内容为“申请人于亲职能力、教养能力及支持系统均属稳定,且自关系人出生后,皆由申请人担任关系人的主要照顾者,申请人亦具高度监护意愿,访亲时观察关系人与申请人互动自然,有稳定的亲子依附关系”,则被标记为所欲描述的对象的正向涵义以作为正向理据数据;另其内容为“相对人曾有家庭暴力行为,依据家庭暴力防治理论,有暴力行为者较不宜照顾未成年子女”,则被标记为所欲描述的对象的负向涵义以作为负向理据数据。

在该实施例中,该计算机装置1的实施态样例如为一个人计算机,但不以此为限。

以下将通过本发明自然语言语料用于机器学习决策模型的训练方法的该实施例来说明该计算机装置1的运作细节,本发明自然语言语料用于机器学习决策模型的训练方法包含一标准训练程序、一中性数据扩增训练程序、一调换数据扩增训练程序,以及一改写数据扩增训练程序。

参阅图2,该标准训练程序应用于具有至少一所欲描述对象的多个理据数据的自然文本,并利用该存储模块11所存储的多个自然文本进行训练,并包含步骤50~55。

在步骤50中,对于每一自然文本所对应的每一理据数据,该处理模块13根据该理据数据,利用前处理算法,进行断词(Tokenize)、移除停用词(Remove Stopwords)、字根抽取(Stemming)、词性标记(POS)、命名实体标注(NER)、n元语法(N-grams),获得一对应于该理据数据的理据前处理数据。值得特别说明的是,对应于中文语料所利用的前处理算法为Python中的结巴(Jieba)断词套件,但不以此为限。而,对应于英文语料所利用的前处理算法为Python中的自然语言处理工具包(NLTK)套件,但不以此为限。

在步骤51中,对于每一自然文本所对应的每一理据断词数据,该处理模块13利用文句转向量算法,获得一对应于该理据断词数据的一理据向量组(向量组为多维度的向量)。值得特别说明的是,所利用的文句转向量算法为Doc2vec算法,但不以此为限。

值得特别说明的是,该多个理据向量组亦可使用语音转向量算法而获得。详细来说,该处理模块13仅需利用机器朗读,将对于每一自然文本所对应的每一理据数据转换为一理据语音数据,并利用Speech2Vec算法,亦可获得该理据语音数据所对应的该理据向量组。此外,各种前处理算法、Doc2vec算法及Speech2Vec算法的使用及训练方式皆为现有技术且并非为本发明的重点,在此不再阐述。

在步骤52中,对于每一自然文本所对应的每一文件类别数据,该处理模块13将该文件类别数据转为一文件向量。

在步骤53中,对于每一自然文本所对应的每一对象背景数据,通过该计算机装置,将该对象背景数据转为一对象向量。

值得特别说明的是,该处理模块13通过一由使用者预先定义的映像对应表将每一文件类别数据与每一对象背景数据转换为各自对应的该文件向量与该对象向量。

在步骤54中,对于每一自然文本,该处理模块13将该自然文本所对应的理据向量组、该自然文本所对应的文件向量,以及该自然文本所对应的对象向量,依照一可由使用者自行定义的第一顺序连接组合成一对应该自然文本的第一等效向量组。而在其他实施例中,该第一等效向量组亦可仅包含理据向量组;又或是,该第一等效向量组可包含理据向量组及文件向量;又或是,该第一等效向量组可包含理据向量组及对象向量。

具体来说,当每一自然文本皆为包含预先标记并相关于该自然文本所欲描述的单一对象的理据数据的该学生入学数据时,对于每一自然文本,该处理模块13便依照由使用者自行定义的该第一顺序,依序地将该申请学生自传中的家庭背景的理据数据所对应的理据向量组、该申请学生自传中的个人兴趣的理据数据所对应的理据向量组、该申请学生自传中的学术性向的理据数据所对应的理据向量组、该申请学生自传中的团队合作经验的理据数据所对应的理据向量组、该申请学生自传中的未来学习规划的理据数据所对应的理据向量组、该文件向量,以及该对象向量连接组合成该第一等效向量组。

具体来说,当每一自然文本皆为包含预先标记并相关于该自然文本所欲描述的多个对象的多个理据数据的该法院判决书时,对于每一自然文本,该处理模块13便依照由使用者自行定义的该第一顺序,依序地将对应于该自然文本的该第一正向理据数据且利用文句转向量算法所获得的该第一正向理据向量组、对应于该自然文本的该第一负向理据数据且利用文句转向量算法所获得的该第一负向理据向量组、对应于该自然文本的该第二正向理据数据且利用文句转向量算法所获得的该第二正向理据向量组、对应于该自然文本的该第二负向理据数据且利用文句转向量算法所获得的该第二负向理据向量组、该文件向量,以及该对象向量连接组合成该第一等效向量组。换句话说,每一自然文本皆依照统一的该第一顺序将该理据向量组、该文件向量,以及该对象向量连接组合成该第一等效向量组,而统一的该第一顺序可由用户自行定义,并不以上述例子为限。

在步骤55中,该处理模块13至少根据每一自然文本所对应的该第一等效向量组,以及每一自然文本所对应的该目标决策结果,利用监督式分类算法,获得一用于将未标记的一待决策自然文本标记为决策结果中的一者的决策模型。其中,该处理模块13可将该待决策自然文本标记为决策结果中的分类结果显示于该显示模块12。值得特别说明的是,所利用的监督式分类算法为类神经网络(ANN,Artificial Neural Network),但不以此为限。

值得特别说明的是,对于每一自然文本,该处理模块13亦可将该自然文本所对应的理据向量组作为一理据向量数据集,并将其存储于任何存储装置中,未来用户便能直接根据存储装置中的理据向量数据集,于任一计算机装置上执行步骤54及55,以获得该决策模型。

参阅图3,该中性数据扩增训练程序应用于具有至少一所欲描述对象的理据数据的自然文本,并利用该存储模块11所存储的自然文本,产生一个不同于自然文本所对应的第一等效向量组的新等效向量组,以扩增训练该决策模型时所需的向量,并包含步骤60~64及55。

在步骤60中,对于每一自然文本所对应的每一中性数据,该处理模块13根据该中性数据,利用前处理算法,获得一对应于该中性数据的中性前处理数据。

在步骤61中,对于每一自然文本所对应的每一中性前处理数据,该处理模块13利用文句转向量算法,获得一对应于该中性前处理数据的一中性向量组。同样地,该处理模块13亦可利用机器朗读,将对于每一自然文本所对应的每一中性数据转换为一中性语音数据,并利用语音转向量算法,亦可获得该中性语音数据所对应的该中性向量组。

在步骤62中,该处理模块13根据选自自然文本中的一第一选定自然文本所对应的理据向量组中,获得至少一选定理据向量组。

在步骤63中,对于每一选定理据向量组,该处理模块13根据该选定理据向量组及所有自然文本所对应的任一中性向量组,获得一相关于该选定理据向量组的重组理据向量组。特别地,该处理模块13将该选定理据向量组与任一中性向量组相加取平均,以获得该重组理据向量组。

在步骤64中,该处理模块13将该至少一重组理据向量组及该第一选定自然文本未被挑选的理据向量组、该第一选定自然文本所对应的文件向量,以及该第一选定自然文本所对应的对象向量,依照该第一顺序连接组合成一第二等效向量组。而在其他实施例中,该第二等效向量组亦可仅包含该至少一重组理据向量组及该第一选定自然文本未被挑选的理据向量组;又或是,该第一等效向量组可包含该至少一重组理据向量组与该第一选定自然文本未被挑选的理据向量组,以及该第一选定自然文本所对应的文件向量;又或是,该第一等效向量组可包含该至少一重组理据向量组与该第一选定自然文本未被挑选的理据向量组,以及该第一选定自然文本所对应的对象向量。

值得特别说明的是,在所有中性前处理数据皆不会影响任何自然文本所对应的该目标决策结果(任一自然文本的分类结果)的前提下,由对应的该中性前处理数据转换该中性向量组理当不会影响任何自然文本所对应的该目标决策结果,因此,该第二等效向量组所对应的该目标决策结果即为该第一选定自然文本所对应的该目标决策结果。

具体来说,当每一自然文本皆为包含预先标记并相关于该自然文本所欲描述的多个对象的理据数据的该法院判决书时,于步骤62中,该处理模块13将该第一选定自然文本所对应的该第一正向理据向量组与该第一负向理据向量组作为该至少一选定理据向量组;接着,于步骤63中,该处理模块13根据该第一正向理据向量组与该第一负向理据向量组,以及任一中性向量组,获得两个分别对应该第一正向理据向量组与该第一负向理据向量组的重组理据向量组;接着,于步骤64中,该处理模块13依照该第一顺序,将对应该第一正向理据向量组的该重组理据向量组、对应该第一负向理据向量组的该重组理据向量组、该第一选定自然文本所对应的该第二正向理据向量组、该第一选定自然文本所对应的该第二负向理据向量组、该第一选定自然文本所对应的文件向量,以及该第一选定自然文本所对应的对象向量连接组合,由此产生一个不同于自然文本所对应的第一等效向量组的该第二等效向量组。其中,该第二等效向量组所对应的该目标决策结果即为该第一选定自然文本所对应的该目标决策结果。是故,便可将该第二等效向量组及其所对应的该目标决策结果,作为一全新的训练数据。

最后,在该标准训练程序的步骤55中,该处理模块13除了根据每一自然文本所对应的该第一等效向量组及每一自然文本所对应的该目标决策结果,还能根据该第二等效向量组及该第一选定自然文本所对应的该目标决策结果,利用监督式分类算法,获得该决策模型。同样地,该处理模块13亦可将该至少一重组理据向量组、该第一选定自然文本未被挑选的理据向量组及该第一选定自然文本所对应的该目标决策结果作为一中性扩增数据集,并将该理据向量数据集与该中性扩增数据集存储于任何存储装置中,未来用户便能直接根据存储装置中的理据向量数据集与该中性扩增数据集,于任一计算机装置上执行步骤64及55,以获得该决策模型。

参阅图4,该调换数据扩增训练程序应用于具有多个所欲描述对象的理据数据的自然文本,并利用该存储模块11所存储的自然文本,产生一个不同于自然文本所对应的第一等效向量组的新等效向量组,以扩增训练该决策模型时所需的向量,并包含步骤70~71及55。

在步骤70中,该处理模块13将选自自然文本中的一第二选定自然文本中每一对象所对应的正向理据向量组与负向理据向量组、该第二选定自然文本所对应的文件向量,以及该第二选定自然文本所对应的对象向量,依照一第二顺序连接组合成一第三等效向量组,该第二顺序使该第一顺序中二组分别对应不同的选定对象的正向理据向量组各自所对应的顺位对调,且使该第一顺序中二组分别对应不同选定对象的负向理据向量组各自所对应的顺位对调。而在其他实施例中,该第三等效向量组亦可仅包含该第二选定自然文本中所对应的理据向量组;又或是,该第三等效向量组可包含该第二选定自然文本中所对应的理据向量组,以及该第二选定自然文本所对应的文件向量;又或是,该第三等效向量组可包含该第二选定自然文本中所对应的理据向量组,以及该第二选定自然文本所对应的对象向量。

举四个理据向量组(两个对象)为例:该处理模块13将该第二选定自然文本所对应的该第一正向理据向量组、该第一负向理据向量组、该第二正向理据向量组、该第二负向理据向量组,依照该第二顺序连接组合成该第三等效向量组,该第二顺序将该第一顺序中的该第一正向理据向量组与该第二正向理据向量组顺位对调且将该第一负向理据向量组与该第二负向理据向量组顺位对调。

详言之,该第二选定自然文本所对应的该第一等效向量组的第一正向理据向量组与该第三等效向量组的第二正向理据向量组皆代表相关于一第一方的正向理据向量组,该第二选定自然文本所对应的该第一等效向量组的第一负向理据向量组与该第三等效向量组的第二负向理据向量组皆代表相关于一第一方的负向理据向量组,该第二选定自然文本所对应的该第一等效向量组的第二正向理据向量组与该第三等效向量组的第一正向理据向量组皆代表相关于一第二方的正向理据向量组,该第二选定自然文本所对应的该第一等效向量组的第二负向理据向量组与该第三等效向量组的第一负向理据向量组皆代表相关于一第二方的负向理据向量组。通过上述顺序的调换,将原先对应于该第一方的该第一正向理据向量组更改为该第二正向理据向量组,将原先对应于该第一方的该第一负向理据向量组更改为该第二负向理据向量组;且,将原先对应于该第二方的该第二正向理据向量组更改为该第一正向理据向量组,将原先对应于该第二方的该第二负向理据向量组更改为该第一负向理据向量组,以产生该第三等效向量组。

举六个理据向量组(三个对象)为例:该处理模块13依照相同方式先获得对应选自自然文本中的另一第二选定自然文本的该第一正向理据向量组、该第一负向理据向量组、该第二正向理据向量组、该第二负向理据向量组、该第三正向理据向量组,以及该第三负向理据向量组,接着,该处理模块13将该另一第二选定自然文本所对应的理据向量组依照一第三顺序连接组合成另一第三等效向量组,该第三顺序使该第一顺序中二组分别对应不同的选定对象的正向理据向量组各自所对应的顺位对调,且使该第一顺序中二组分别对应不同选定对象的负向理据向量组各自所对应的顺位对调。

在步骤71中,该处理模块13根据该第二选定自然文本所对应的该目标决策结果,获得该第三等效向量组所对应的该目标决策结果。同样地,该处理模块13亦可将调换后所获得的该第三等效向量组及其对应的该目标决策结果作为一调换扩增数据集,并将该理据向量数据集与该调换扩增数据集存储于任何存储装置中,未来用户便能直接根据存储装置中的理据向量数据集与该调换扩增数据集,于任一计算机装置上执行步骤55,以获得该决策模型。

承上四个理据向量组(二个对象)为例:该第二选定自然文本所对应的该目标决策结果为一相关于该第一方与该第二方的胜负的胜败结果,当该第二选定自然文本所对应的该目标决策结果指示出该第一方获胜时,将该第三等效向量组所对应的该目标决策结果修改为指示出该第二方获胜;当该第二选定自然文本所对应的该目标决策结果指示出该第二方获胜时,将该第三等效向量组所对应的该目标决策结果修改为指示出该第一方获胜;当该第二选定自然文本所对应的该目标决策结果指示出双方平手时,则不更改该目标决策结果。

承上六个理据向量组(三个对象)为例,若该另一第二选定自然文本所对应的该目标决策结果指示出第一方获胜或第二方获胜时,则必须将第一方获胜更改为第二方获胜或将第二方获胜更改为第一方获胜,以作为该另一第三等效向量组所对应的该目标决策结果,但,若该另一第二选定自然文本所对应的该目标决策结果指示出第三方获胜时,便无需进行修正,直接将该另一第二选定自然文本所对应的该目标决策结果作为该另一第三等效向量组所对应的该目标决策结果。

等效向量组具体来说,当每一自然文本皆为包含预先标记并相关于该自然文本所欲描述的多个对象的理据数据的该法院判决书时,该第一等效向量组(对应该第二选定自然文本)的该第一正向理据向量组代表相关于该第一方(例:申请人)的正向描述,该第一等效向量组的该第一负向理据向量组代表相关于该第一方的负向描述,该第一等效向量组的该第二正向理据向量组代表相关于该第二方(例:相对人)的正向描述,该第一等效向量组的该第二负向理据向量组代表相关于该第二方的负向描述,而在经过调换后,步骤70的该第三等效向量组的第二正向理据向量组代表相关于该第一方(例:申请人)的正向描述,该第三等效向量组的第二负向理据向量组代表相关于该第一方的负向描述,该第三等效向量组的第一正向理据向量组代表相关于该第二方(例:相对人)的正向描述,该第三等效向量组的第一负向理据向量组代表相关于该第二方的负向描述,通过上述方式即可产生一个不同于该自然文本所对应的该第一等效向量组的该第三等效向量组;此外,再经由步骤71修正该目标决策结果,便可将该第三等效向量组及其所对应的该目标决策结果,作为一全新的训练数据。

换句话说,步骤70将法院判决书(对应该第二选定自然文本)的申请人与相对人的有利及不利描述对调,当法院判决书判定申请人胜诉时,所产生的新法院判决书(该第三等效向量组),便会因为双方有利及不利描述皆已对调,则于步骤71令判决结果应改判定相对人胜诉;同理,当法院判决书判定相对人胜诉时,所产生的新法院判决书(该第三等效向量组)的判决结果则于步骤71改判定申请人胜诉;而,当法院判决书判定双方平手时,所产生的新法院判决书(该第三等效向量组)的判决结果则于步骤71为持原判决。

最后,在该标准训练程序的步骤55中,该处理模块13除了根据每一自然文本所对应的该第一等效向量组及每一自然文本所对应的该目标决策结果,还能根据该第三等效向量组及其所对应的该目标决策结果,利用监督式分类算法,获得该决策模型。

值得特别说明的是,当自然文本属于学生自传或医疗病历此类不涉及多个对象的比较,而无“正负向”理据数据时,便无法使用“该调换数据扩增训练程序”技术,只能使用“该中性数据扩增训练程序”与“该改写数据扩增训练程序”训练该决策模型。

参阅图5,该改写数据扩增训练程序应用于具有至少一所欲描述对象的该理据数据的自然文本,并利用该存储模块11所存储的该自然文本,产生一个不同于自然文本所对应的该第一等效向量组的新等效向量组,以扩增训练该决策模型时所需的向量,并包含步骤80~84及55。

在步骤80中,该处理模块13根据选自该自然文本中的一第三选定自然文本所对应的该理据数据,获得至少一选定理据数据。

在步骤81中,对于每一选定理据数据,该处理模块13利用同义改写算法,将该选定理据数据改写为一对应于该选定理据数据的理据改写数据。而在其他实施例中,该处理模块13亦可利用计算机翻译,将该选定理据数据翻译为任一外语(例:英文),再将其翻译回原文(原文为中文),以获得该理据改写数据。值得特别说明的是,在该实施例中,所利用的该同义改写算法为EDA NLP for Chinese,但不以此为限。

在步骤82中,对于每一理据改写数据,该处理模块13根据该理据改写数据,利用前处理算法,获得一对应于该理据改写数据的改写前处理数据。

在步骤83中,对于每一改写前处理数据,该处理模块13根据该改写前处理数据,利用文句转向量算法,获得一对应于该改写前处理数据的改写向量组。同样地,该处理模块13亦可利用机器朗读,将对于每一自然文本所对应的每一理据改写数据转换为一改写语音数据,并利用语音转向量算法,亦可获得该改写语音数据所对应的该改写向量组。

在步骤84中,该处理模块13将该至少一改写向量组及该第三选定自然文本未被挑选的理据向量组、该第三选定自然文本所对应的文件向量,以及该第三选定自然文本所对应的该对象向量,依照该第一顺序连接组合成一第四等效向量组。而在其他实施例中,该第四等效向量组亦可仅包含该至少一改写向量组及该第三选定自然文本未被挑选的理据向量组;又或是,该第四等效向量组可包含该至少一改写向量组及该第三选定自然文本未被挑选的理据向量组,以及该第三选定自然文本所对应的该文件向量;又或是,该第四等效向量组可包含该至少一改写向量组及该第三选定自然文本未被挑选的理据向量组,以及该第三选定自然文本所对应的该对象向量。

值得特别说明的是,在该实施例中,利用同义改写算法,将该第三选定自然文本所对应的每一选定理据数据进行改写,仅会产生文字描述上的差异,语意本身并未改变。在其他实施例中,利用计算机翻译,将该第三选定自然文本所对应的每一选定理据数据翻译为任一外语后,再将其翻译回原文,仅会产生文字描述上的差异,语意本身同样并未改变。故,在语意本身并未改变而不会影响所对应的自然文本的该目标决策结果(所对应的自然文本的分类结果)的前提下,包含由该至少一改写前处理数据所转换的该至少一改写向量组的该第四等效向量组所对应的该目标决策结果理当相同于该第三选定自然文本所对应的该目标决策结果。

具体来说,当每一自然文本皆为包含预先标记并相关于该自然文本所欲描述的多个对象的该理据数据的该法院判决书时,于步骤80中,该处理模块13将该第三选定自然文本所对应的该第一正向理据数据与该第一负向理据数据作为该至少一选定理据数据;接着,于步骤81中,该处理模块13利用同义改写算法,获得两个分别对应该第一正向理据数据与该第一负向理据数据的一第一正向理据改写数据及一第一负向理据改写数据,其中,每一理据改写数据相较于其对应的该理据数据,仅有文字描述上的差异,而语意本身并未改变;接着,于步骤82及83中,该处理模块13获得两个分别对应该第一正向理据改写数据与该第一负向理据改写数据的一第一正向改写向量组及一第一负向改写向量组,其中,每一改写前处理数据所对应的该改写向量组,相较于改写前对应的选定理据数据所对应的该理据向量组并不相同(不同文句所转换的向量组不相同);接着,于步骤84中,该处理模块13依照该第一顺序,将该第一正向改写向量组、该第一负向改写向量组、该第三选定自然文本所对应的该第二正向理据向量组、该第三选定自然文本所对应的该第二负向理据向量组、该第三选定自然文本所对应的文件向量,以及该第三选定自然文本所对应的对象向量连接组合,由此产生一个不同于该自然文本所对应的第一等效向量组的该第四等效向量组。其中,该第四等效向量组所对应的该目标决策结果即为该第三选定自然文本所对应的该目标决策结果。是故,便可将该第四等效向量组及其所对应的该目标决策结果,作为一全新的训练数据。

最后,在该标准训练程序的步骤55中,该处理模块13除了根据每一自然文本所对应的该第一等效向量组及每一自然文本所对应的该目标决策结果,还能根据该第四等效向量组及该第三选定自然文本所对应的该目标决策结果,利用监督式分类算法,获得该决策模型。同样地,该处理模块13亦可将该至少一改写向量组、该第三选定自然文本未被挑选的理据向量组及该第三选定自然文本所对应的该目标决策结果作为一改写扩增数据集,并将该理据向量数据集与该改写扩增数据集存储于任何存储装置中,未来用户便能直接根据存储装置中的理据向量数据集与该改写扩增数据集,于任一计算机装置上执行步骤84及55,以获得该决策模型。

综上所述,本发明的自然语言语料用于机器学习决策模型的训练方法适用多种不同类型的语料,通过该标准训练程序,将每一自然文本所预先标记的理据数据转换为向量并作为训练数据,在无需额外定义选项类别问卷下,进而使得所训练出的该决策模型具有更佳的正确率;此外,还能通过该中性数据扩增训练程序、该调换数据扩增训练程序,以及该改写数据扩增训练程序,扩增所需要训练数据,以弥补原始数据量不足造成机器学习效能低落的问题,更是通过该调换数据扩增训练程序,有效地缓解因为原始训练数据偏差取样所带来对决策过程的误导,进而弥补一般机器学习所可能因为偏态数据而出现的偏见,为机器学习在决策判断的应用方面更符合社会公平正义的需求。因此,故确实能达成本发明的目的。

以上所述仅为本发明较佳实施例,然其并非用以限定本发明的范围,任何熟悉本项技术的人员,在不脱离本发明的精神和范围内,可在此基础上做进一步的改进和变化,因此本发明的保护范围当以本申请的权利要求书所界定的范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号