公开/公告号CN112836509A
专利类型发明专利
公开/公告日2021-05-25
原文格式PDF
申请/专利权人 西安交通大学;
申请/专利号CN202110197687.2
申请日2021-02-22
分类号G06F40/289(20200101);G06F40/30(20200101);G06F40/216(20200101);G06F16/35(20190101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);G06N20/00(20190101);
代理机构61200 西安通大专利代理有限责任公司;
代理人高博
地址 710049 陕西省西安市咸宁西路28号
入库时间 2023-06-19 11:05:16
技术领域
本发明属于数据挖掘、机器学习和自然语言处理的交叉技术领域,具体涉及一种专家系统知识库构建方法及系统。
背景技术
制造企业运维过程中面临着数据类型及来源繁杂问题,未将发现的设计及生产制造各类问题形成有效闭环,反馈给设计和生产制造。基于大数据建模技术与体系结构,通过提供涵盖制造企业设计研发的图纸、模型、文档等各类结构化和非结构化数据,应用文本特征提取技术和文本挖掘方法自动获取知识,有效获取和应用设计、制造、管理等业务领域的知识,并将制造企业全生命周期的多种数据进行标准化,形成制造业研发设计的专家系统知识库,实现基于运维数据的数字增值服务和设计制造过程按需优化。
现阶段,受自然语言处理技术及相关抽取技术的限制,语句中各语义成分及其对应关系不能很好的识别,因而无法进行准确分类。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种专家系统知识库构建方法及系统,应用文本特征提取技术自动获取知识,并采用基于机器学习的分类方法对所选取的特征进行分类,形成系统的制造企业运维大知识库,对后续同类型的设计优化和建造管理决策提供数据支撑和科学依据,实现制造业全过程优化。
本发明采用以下技术方案:
一种专家系统知识库构建方法,包括以下步骤:
S1、通过web前端收集制造企业运维过程中的设计问题、制造问题以及用户在使用过程中的反馈,采用基于深度学习算法的双向长短时记忆条件随机场模型对收集的文本进行中文分词训练,得到分词标记序列;
S2、通过Word2vec模型训练步骤S1中的分词标记序列,生成词嵌入向量,然后通过基于类频方差改进TF-IDF算法,分析每个词向量在文本中的权重,构建基于词向量和权重的文本向量表示特征数据;
S3、采用KNN算法对步骤S2处理得到的文本向量进行分类,将分类后的文本向量对应的特征数据通过专家系统知识库补全后存入反馈信息数据库;
S4、周期性使用聚类算法对步骤S3的反馈信息数据库进行处理,构建完成专家系统知识库。
具体的,步骤S1中,通过Python正则表达式或beautiful soup除去web前端收集的数据中非文本部分后,对数据进行训练;假设t时刻输入字符c
具体的,步骤S2具体为:
S201、采用Word2vec模型对文本分词得到的标签序列进行训练,把分词后的文本转化成低维数值向量
S202、采用改进型TF-IDF算法计算每个词向量在文本中的权重,考虑特征词在整个语料库中出现的频率和在不同类别中的分布情况,提取出特征词。
进一步的,步骤S202中,特征词vec(d
其中,V
具体的,改进型TF-IDF算法具体为:
tf-idf-τ
其中,引入类频方差τ
其中,df(d,w
具体的,步骤S3具体为:
S301、新文本到达后,根据特征词确定新文本的向量;在训练文本集中选出与新文本最相似的k个文本,利用向量夹角余弦度量相似度;在新文本的k个邻居中,依次计算每类的权重,每类的权重等于k个邻居中属于该类的训练样本与测试样本的相似度之和;比较类的权重,将文本分到权重最大的那个类别中;
S302、分类得到特征数据后,采用基于专家系统的产生式框架知识表示规则,将特征数据表示成具有条件行为结构的数据,并以框架表示为主体,将数据嵌入到框架中,使框架通过规则类找到相应的规则,规则类通过隶属框架名找到对应的框架,最后将处理过的数据存入反馈信息数据库。
具体的,步骤S4具体为:
S401、通过触发器设定周期,对反馈信息数据库采用聚类算法进行定期处理,从n个数据对象中任意选择k个对象作为初始聚类中心,剩下的数据根据与这些聚类中心的相似度,分别分配给对应的聚类,然后计算每个所获新聚类的聚类中心,不断重复该过程直到标准测度函数开始收敛为止;
S402、设定聚类簇尺寸的阈值A和阈值B,对要存入知识库的数据进行判断;对未存入知识库的反馈数据,将聚类簇尺寸大于阈值A的数据直接存入知识库,聚类簇尺寸小于阈值A大于阈值B的数据经过人工确认决定是否再存入知识库;对新增加的知识,将其在反馈信息数据库中对应的记录添加标记。
本发明的另一个技术方案是,一种专家系统知识库构建系统,包括:
预处理模块,通过web前端收集制造企业运维过程中的设计和制造问题以及用户在使用过程中的反馈,采用基于深度学习算法的双向长短时记忆条件随机场模型对收集的文本进行中文分词训练,得到分词标记序列;
分析模块,通过Word2vec模型训练分词标记序列,生成词嵌入向量,然后通过基于类频方差改进TF-IDF算法,分析每个词向量在文本中的权重,构建基于词向量和权重的文本向量表示;
分类模块,采用KNN算法进行分类;分类得到特征数据后通过专家系统知识库知识表示规则进行补全,存入反馈信息数据库;
构建模块,周期性的使用机器学习聚类算法对反馈信息数据库进行处理,构建完成专家系统知识库。
与现有技术相比,本发明至少具有以下有益效果:
本发明一种专家系统知识库构建方法,基于大数据建模技术与体系结构,应用文本特征提取技术和基于机器学习的分类方法自动获取并分类知识,构建制造企业研发设计大数据知识库,为运维优化提供数字增值服务:文本预处理阶段,采用基于BI-LSTM和CRF相结合的模型处理中文分词,中文分词效果显著提高。特征提取阶段,采用Word2Vec和改进型TF-IDF相结合的特征提取方法,既考虑特征词在整个文本库中出现的频率,又考虑其在不同类别中的分布情况,提取的特征数据更加准确。构建知识库阶段,采用产生式框架规则对数据进行表示和推理。同时使用聚类算法,周期性的对数据进行分类提取并做标记,避免重复处理和存储,以自动快速的建立起制造企业运维专家知识库。
进一步的,采用基于深度学习算法的双向长短时记忆条件随机场模型对收集的文本进行中文分词训练,得到分词标记序列。该模型可自动学习文本特征,能对文本上下文依赖信息进行建模,同时CRF层考虑了句子字符前后的标签信息,对文本信息进行推理,具有很好的分词性能,同时在跨领域数据上也有很好的泛化能力。
进一步的,通过Word2vec模型训练步骤S1中的标记序列,生成词嵌入向量,然后通过基于类频方差改进TF-IDF算法,分析每个词向量在文本中的权重,构建基于词向量和权重的文本向量来表示特征数据。
进一步的,采用Word2vec进行词语表示,得到的词向量为低维稠密性实数,较好的保留了语义信息,但无法表达词汇的重要程度,所以引入TF-IDF算法计算每个词向量在文本中的权重。但TF-IDF算法只考虑特征词在整个语料库中出现的频率,忽略了特征词在不同类别中的分布情况,导致某些对类别判断具有贡献的词丢失,因此采用基于类频方差改进型TF-IDF算法,构成基于词向量和权重的向量文本表示,很好的保留词语上下文关系。
进一步的,采用KNN算法进行预测和多分类,将分类后的文本向量对应的特征数据通过专家系统知识库的知识表示规则进行补全,存入反馈信息数据库。
进一步的,周期性的使用聚类算法对反馈信息数据库进行处理,以快速构建专家系统知识库,并对反馈信息数据库中对应的记录添加标记,避免重复处理。
综上所述,本发明能够快速准确的构建出专家系统的知识库。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明的流程图;
图2为本发明BI-LSTM和CRF结合的结构示意图;
图3为本发明Word2Vec和改进的TF-IDF结合的模型示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的,其中为了清楚表达的目的,放大了某些细节,并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的,实际中可能由于制造公差或技术限制而有所偏差,并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。
本发明提供了一种专家系统知识库构建方法,针对制造企业运维过程中数据类型及来源繁杂的问题,在分词阶段采用基于BI-LSTM和CRF神经网络结合的中文分词模型,既保留LSTM能够利用上下文信息的特性,又能通过CRF层考虑输出标签之间前后的依赖关系,中文分词效果显著提高。特征提取阶段,利用Word2Vec将词语映射到向量空间,转换成词向量,并将改进的TF-IDF特征提取方法与词向量相结合,既考虑词语的语义信息,又控制词向量的维度。本发明可以更好的结合制造企业大数据深层次的挖掘企业和用户的需求,为运维优化提供数字增值服务。
请参阅图1,本发明一种专家系统知识库构建方法,包括以下步骤:
S1、通过web前端收集制造企业运维过程中的设计和制造问题以及用户在使用过程中的反馈,采用基于深度学习算法的双向长短时记忆条件随机场模型对收集的文本进行中文分词训练,得到分词标记序列;
通过Python正则表达式或beautiful soup除去web前端收集的数据中非文本部分后,对数据进行训练;假设t时刻输入字符c
S2、通过Word2vec模型训练步骤S1中的标记序列,生成词嵌入向量,然后通过基于类频方差改进TF-IDF算法,分析每个词向量在文本中的权重,构建基于词向量和权重的文本向量来表示特征数据;
请参阅图2,双向长短时记忆条件随机场模型能自动学习文本特征,对文本上下文依赖信息进行建模;同时,条件随机场算法对文本信息进行推理时考虑了句子字符前后的标签信息,具有很好的分词性能,在跨领域数据上也具有很好的泛化能力。
S201、采用Word2vec模型对文本分词得到的标签序列进行训练,把分词后的文本转化成低维数值向量
S202、采用改进型TF-IDF算法计算每个词向量在文本中的权重,考虑特征词在整个语料库中出现的频率和在不同类别中的分布情况,提取出特征词。
特征词vec(d
其中,V
改进型TF-IDF算法具体为:
tf-idf-τ
其中,引入类频方差τ
其中,df(d,w
S3、对步骤S2处理得到的文本空间向量,采用KNN算法进行分类,将分类后的文本向量对应的特征数据通过专家系统知识库知识表示规则进行补全,将其存入反馈信息数据库;
首先通过Word2vec模型训练得出样本中所有的词向量;然后采用基于类频方差改进型TF-IDF算法,分析每个词向量在文本中的权重,构建基于词向量和权重的文本向量表示;两者结合的文本分类模型相比传统的机器学习文本分类具有更好的分类效果。
请参阅图3,计算词语的TF-IDF值,并利用TF-IDF值提取特征词,采用Word2vec词向量,在词袋模型的基础上通过计算特征选择与特征权重进行降维。
S301、新文本到达后,根据特征词确定新文本的向量;在训练文本集中选出与新文本最相似的k个文本,利用向量夹角余弦度量相似度;在新文本的k个邻居中,依次计算每类的权重,每类的权重等于k个邻居中属于该类的训练样本与测试样本的相似度之和;比较类的权重,将文本分到权重最大的那个类别中;
S302、分类得到特征数据后,采用基于专家系统的产生式框架知识表示规则,将特征数据表示成具有条件行为结构的数据,并以框架表示为主体,将数据嵌入到框架中,使框架通过规则类找到相应的规则,规则类通过隶属框架名找到对应的框架,最后将处理过的数据存入反馈信息数据库。
S4、周期性的使用聚类算法对步骤S3中的反馈信息数据库进行处理,以构建专家系统知识库。对未存入知识库的反馈数据,将聚类簇尺寸大于阈值A的数据直接存入知识库,聚类簇尺寸小于阈值A大于阈值B的数据经过人工确认决定是否再存入知识库;对新增加的知识,将其在反馈信息数据库中对应的记录添加标记,以避免重复处理。
S401、通过触发器设定周期,对反馈信息数据库采用聚类算法进行定期处理,从n个数据对象中任意选择k个对象作为初始聚类中心,剩下的数据根据与这些聚类中心的相似度,分别分配给对应的聚类,然后计算每个所获新聚类的聚类中心,不断重复该过程直到标准测度函数开始收敛为止;
S402、设定聚类簇尺寸的阈值A和B,对要存入知识库的数据进行判断;对未存入知识库的反馈数据,将聚类簇尺寸大于阈值A的数据直接存入知识库,聚类簇尺寸小于阈值A且大于阈值B的数据经过人工确认决定是否再存入知识库;对新增加的知识,将其在反馈信息数据库中对应的记录添加标记,以避免重复处理。
本发明再一个实施例中,提供一种专家系统知识库构建系统,该系统能够用于实现上述专家系统知识库构建方法,具体的,该专家系统知识库构建系统包括预处理模块、分词模块、分析构建模块以及分类模块。
其中,预处理模块,通过web前端收集制造企业运维过程中的设计和制造问题以及用户在使用过程中的反馈,采用基于深度学习算法的双向长短时记忆条件随机场模型对收集的文本进行中文分词训练,得到分词标记序列;
分析模块,通过Word2vec模型训练生成词嵌入向量,然后通过基于类频方差改进TF-IDF算法,分析每个词向量在文本中的权重,构建基于词向量和权重的文本向量表示;
分类模块,采用KNN算法进行分类。分类得到特征数据后通过专家系统知识库知识表示规则进行补全,将其存入反馈信息数据库;
构建模块,周期性的使用机器学习聚类算法对反馈信息数据库进行处理,对未存入知识库的反馈数据,将聚类簇尺寸大于阈值A的数据直接存入知识库,聚类簇尺寸小于阈值A大于阈值B的数据经过人工确认决定是否再存入知识库;对新增加的知识,将其在反馈信息数据库中对应的记录添加标记,以避免重复处理;
用户通过web客户端界面输入船舶的运维信息,收集文本后进行预处理和特征提取,得到“滑油压力过低”的特征数据,分类此特征数据为“润滑系统”类别,滑油压力过低的原因有滑油管破裂或有空气、滑油滤器脏堵、滑油粘度过低等,采用产生式框架知识表示规则对数据进行补全:
将具有产生式框架结构的该特征数据一条条存入反馈信息数据库后,根据触发器设定的周期时间,定期从该库中抽取数据进行聚类分析并标记。对未存入知识库的数据,将聚类簇尺寸大于阈值A且未经访问的数据存入知识库,聚类簇尺寸小于阈值A大于阈值B的数据经过人工确认后再存入,对已标记的数据不做处理。
综上所述,本发明一种专家系统知识库构建方法及系统,面向制造企业运维大数据,应用文本特征提取技术和基于机器学习的分类方法自动获取并分类知识,构建制造企业研发设计大数据知识库,为运维优化提供数字增值服务。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。
机译: 构建风险和可追溯性控制专家系统,包括通过创建通用安全分类信息和树结构来构建知识库,并测试已构建的知识库
机译: 专家系统的知识库构建方法,装置及其记录媒体
机译: 基于知识工程的专家系统中知识库的构建方法