首页> 中国专利> 一种施工案例知识重用查询方法及其装置

一种施工案例知识重用查询方法及其装置

摘要

本发明公开了一种施工案例知识重用查询方法及其装置,所述方法包括以下步骤:收集施工安全规范文档以及施工安全事故报告,并将这些资料电子化,建立施工安全领域案例库;基于自然语言处理技术对施工安全规范文档以及施工安全事故报告进行文本分词及去停用词的处理,再通过词频逆文本算法计算特征词;通过自建的建筑行业常用术语词库及连续词袋模型,进行特征词的同义词扩展查询;基于向量空间模型及余弦函数改进方法进行相似施工安全案例的相似度计算;将整个数据库及查询系统集成到本地服务器或者智能设备中;本发明可以将以往施工安全案例知识复用为新风险提供决策帮助,将会大大提高施工安全管理的水平,同时节约查询时间,提高查询效率。

著录项

  • 公开/公告号CN112949304A

    专利类型发明专利

  • 公开/公告日2021-06-11

    原文格式PDF

  • 申请/专利权人 中新国际联合研究院;

    申请/专利号CN202110313320.2

  • 发明设计人 邓逸川;邓晖;苏成;王煜;宋建炜;

    申请日2021-03-24

  • 分类号G06F40/289(20200101);G06F40/216(20200101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);G06Q10/10(20120101);

  • 代理机构44245 广州市华学知识产权代理有限公司;

  • 代理人李盛洪

  • 地址 510000 广东省广州市广州知识城腾飞科技园腾飞一街2号1018室

  • 入库时间 2023-06-19 11:22:42

说明书

技术领域

本发明涉及施工案例知识管理技术领域,特别涉及一种基于自然语言处理技术的施工案例知识重用查询方法及其装置。

背景技术

改革开放以来,我国加大了工程项目的开发力度。工程项目的建设,本身是一种多门类的综合性生产活动,工程项目建设周期较长,在建设过程中,具有许多不确定因素。

近年来,我国建筑施工安全形势虽然有所好转,但各类安全事故时有发生,施工安全问题仍不容忽视,施工安全管理水平仍需进一步提高。然而由于土木行业零碎化信息及可变因素多,虽然施工安全事故报告在不断积累,但在传统的施工安全管理中并不能充分利用这些信息,其原因在于缺乏将这些信息转化为可复用知识的手段,如果建立一个施工案例知识重用查询系统,通过以往施工安全案例知识复用为新风险提供决策帮助,将会大大提高施工安全管理的水平。

当前关于施工案例主要集中在住建部网站的事故安全报告及新闻报告中,在这些非结构化文本中查询相似施工安全案例效率低下,所以在施工安全案例重用领域仍存在很大的空缺。

发明内容

本发明的目的在于克服现有技术中的上述缺陷,提供一种施工案例知识重用查询方法及其装置,该方法和装置可以将以往施工安全案例知识复用为新风险提供决策帮助,将会大大提高施工安全管理的水平,同时节约查询时间,提高查询效率。

为实现上述目的,本发明提供了一种施工案例知识重用查询方法,包括以下步骤:

步骤S1,收集施工安全规范文档以及施工安全事故报告,并将这些资料电子化,建立施工安全领域案例库;

步骤S2,基于自然语言处理技术对施工安全规范文档以及施工安全事故报告进行文本分词及去停用词的处理,再通过词频逆文本算法计算特征词;

步骤S3,通过自建的建筑行业常用术语词库及连续词袋模型,进行特征词的同义词扩展查询;

步骤S4,基于向量空间模型及余弦函数改进方法进行相似施工安全案例的相似度计算;

步骤S5,将整个数据库及查询系统集成到本地服务器或者智能设备中。

作为优选的,所述步骤S2中包括以下步骤:

步骤S21,通过jieba将施工安全事故案例进行分词处理,所述jieba分词使用前缀树对词语进行分类,用于提高检索的效率;

步骤S22,通过自建停用词库去掉施工安全事故案例文本中存在的虚词,所述停用词为极其常见词,对帮助计算文本的相似度没有什么价值,删除那些无意义的字词可以大大减少库的大小并提高检索效率;

步骤S23,通过算法比选,选取词频逆文本算法进行特征词的提取,并进行特征词的权重计算,提取施工安全事故案例中的特征词。

作为优选的,所述步骤S23中包括以下步骤:

步骤S231,在词频的基础上根据词语的重要性计算权重,这个权重叫“逆文本频率”,大小与词语的常见程度成反比;

步骤S232,对不同的词赋予不同的权重,对较少见的词赋予较大的权重,对较常见的词赋予较小权重,对最常见的词赋予最小权重,将词频和逆文本频率相乘,得到词语的TF-IDF值;

步骤S233,词语对文本的重要性越高,它的TF-IDF值就越大,按照TF-IDF值的从大到小排序,就可以完成文本的特征值提取。

作为优选的,所述词频、逆文本频率和词频-逆文本频率的计算方法如下:

词频TF:特征值在文本中出现的次数,即如果ti,k在文本di中出现ni,k次,则

在实际应用中,为了避免文本太长引起的统计偏差,一般需要进行标准化处理,∑

逆文本频率IDF:特征项在总文本集D中出现的频率,如果总文本集共有M个文本,特征项ti,k出现在mi,k个文本中,则

其中α为经验常数,一般取0.01;越常见的词语分母越大,逆文本频率越小;分母加α的原因是为了避免为0,即所有文本都不包含该词;

词频一逆文本频率IF-IDF:IF-IDF计算方法为词频与逆文本频率相乘

w

词频-逆文本频率与一个词在整个总文本库中的出现次数成反比,与该词在特定文本中的出现次数成正比,因此,计算词语的词频-逆文本频率,降序排列提取特征值。

作为优选的,所述步骤S3中包括以下步骤:

步骤S31,给定训练文本——施工安全事故案例库及中文维基百科,将one-hot编码作为CBOW模型的输入,自设定词向量维度设为100,窗口设为5,最小出现次数为5,训练词向量使用的线程数设为9,通过CBOW模型进行词嵌入,输入的词向量累加,最后通过二分类器完成词的向量化表示;

步骤S32,读取步骤S2中所提取的特征词,利用训练好的词向量获取特征词的词向量,利用余弦距离计算与特征词最相似的前5个词,进行同义词扩展。

作为优选的,所述CBOW模型是一个三层神经网络模型;

所述CBOW模型的第一层是输入层,输入已知上下文的词向量;

所述CBOW模型的中间一层称为线性隐含层,它将所有输入的词向量累加;

所述CBOW模型的第三层是一个二分类器softmax,通过训练得到对应的单词近义词扩展。

作为优选的,所述步骤S4包括:在得到特征词及同义词后,利用向量空间模型并对余弦函数进行改进,计算建筑施工安全案例间的相似度,所述余弦系数算法结果较为精准,是VSM中最常用的计算方法,使用Python的第三方工具gensim中的similarities模型来计算输入的案例与文本的相似度,并依据相似度的值从大到小文本进行排序,最终将前10个文本作为输出结果;

其中Sim(t_1,t_0)为原始查询,Sim(t_1,t_k)为扩展查询,因此0<λ<1之间取值,经过多次验证,将λ设定为0.7。

本发明还提供了一种施工案例知识重用查询装置,其特征在于,包括:

施工安全案例获取及处理模块,用于收集施工安全规范文档以及施工安全事故报告,并将这些资料电子化,建立施工安全领域案例库;基于自然语言处理技术对施工安全规范文档以及施工安全事故报告进行文本分词及去停用词的处理,再通过词频逆文本算法计算特征词;

同义词扩展查询模块,与施工安全案例获取及处理模块相连接,通过自建的建筑行业常用术语词库及连续词袋模型,进行特征词的同义词扩展查询;

相似案例检索模块,与同义词扩展查询模块相连接,基于向量空间模型及余弦函数改进方法进行相似施工安全案例的相似度计算;

所述施工安全案例获取及处理模块包括爬虫算法和分词去停用词;所述同义词扩展查询模块包括文本向量化及连续词袋模型;所述相似案例检索模块包括基于向量空间模型文本的相似度计算。

作为优选的,还包括本地服务器或者智能设备,所述本地服务器或者智能设备内部存储有整个数据库及查询系统。

与现有技术相比,本发明的有益效果在于:

1、本发明提供的查询方法和装置可以随时查询到以往建筑施工安全事故案例,本发明是基于自然语言处理技术实现的,通过本发明可以将以往施工安全案例知识复用为新风险提供决策帮助,将会大大提高施工现场管理人员及施工人员的安全管理水平,有效降低安全事故发生率,对提高整个建筑行业的施工安全管理水平有较好的意义。

2、本发明可以利用手机或者平板进行查询,用户输入事故问题即可进行施工安全事故案例查询,本发明能够在输入日常报告后直接输出相似的施工安全事故案例,有效的避免了网页搜索的低效和繁琐,提高了施工安全事故知识的复用的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明提供的一种施工案例知识重用查询方法的步骤示意图;

图2是本发明提供的一种施工案例知识重用查询方法的举例分析示意图。

具体实施方式

下面将结合本发明本实施方式中的附图,对本发明本实施方式中的技术方案进行清楚、完整地描述,显然,所描述的本实施方式是本发明的一种实施方式,而不是全部的本实施方式。基于本发明中的本实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他本实施方式,都属于本发明保护的范围。

实施例一

请参考图1和图2,本发明实施例一提供了一种施工案例知识重用查询方法,包括以下步骤:

步骤S1,收集施工安全事故报告以及施工安全未遂案例,通过网页搜索方法收集风险案例,从政府部门网站的建筑安全事故情况通报中收集,从文献中进行收集,并将这些资料电子化,建立施工安全领域施工安全事故案例资料库。

步骤S2,基于自然语言处理技术对施工安全规范文档以及施工安全事故报告进行文本分词及去停用词的处理,再通过词频逆文本算法(TF-IDF)计算特征词。

具体的,所述步骤S2中包括以下步骤:

步骤S21,通过jieba将施工安全事故案例进行分词处理,所述jieba分词使用前缀树(又称字典树)对词语进行分类,用于提高搜索的效率。

假定让计算机搜索词语“建筑设备”,一般来说,计算机会扫描所有文本汉字串,效率低下,但前缀树可以由上到下查找,每次判定一个汉字,若某节点的下一个节点不符合查找要求,查找就会停止,这种方法能极大地提高效率。此外,前缀树可以与有向无环图结合,使双重理解词语问题得到高效的解决。

步骤S22,通过自建停用词库去掉施工安全事故案例文本中存在的虚词,所述停用词为极其常见词,对帮助计算文本的相似度没有什么价值,删除那些无意义的字词可以大大减少库的大小并提高检索效率。

由于当前的NLP技术仍然存在一些局限性,因此在分词后会产生一些无意义的字词符号,例如符号下划线,删除出现次数最多的无意义字词符号可以有效地减少数据量,可以通过导入停用词表再去除词表中的词来实现移除停用词的操作。

步骤S23,通过算法比选,选取词频逆文本算法(TF-IDF)进行特征词的提取,并进行特征词的权重计算,提取施工合同法规中的特征词。

例如,在一篇事故通报中,“单位”、“坠落”、“坍塌”这三个词的出现次数(词频)一样多,但他们的重要性是不同的。“坠落”和“坍塌”比“单位”对该文本更具有代表性,也就是说,在对关键词进行排序时,“坠落”和“坍塌”需要排在“单位”之前。

解决这个问题的一个方法是使用TF-IDF(词频-逆文本频率),即在词频的基础上根据词语的重要性计算权重,这个权重叫“逆文本频率”,大小与词语的常见程度成反比。对较少见的词(如“坠落”、“坍塌”)赋予较大的权重,对较常见的词(如“单位”)赋予较小权重,对最常见的词(如“是”)赋予最小权重。将词频(TF)和逆文本频率(IDF)相乘,得到词语的TF-IDF值。词对文本的重要性越高,它的TF-IDF值就越大。所以,按照TF-IDF值的从大到小排序,就可以完成文本的特征值提取。

词频、逆文本频率和词频-逆文本频率的计算方法如下:

词频(TF):特征值在文本中出现的次数,即如果ti,k在文本di中出现ni,k次,则

TF

在实际应用中,为了避免文本太长引起的统计偏差,一般需要进行标准化处理,∑

逆文本频率(IDF):特征项在总文本集D中出现的频率,如果总文本集共有M个文本,特征项ti,k出现在mi,k个文本中,则

其中α为经验常数,一般取0.01;越常见的词语分母越大,逆文本频率越小;分母加α的原因是为了避免为0,即所有文本都不包含该词;

词频-逆文本频率(IF-IDF):IF-IDF计算方法为词频与逆文本频率相乘

w

词频-逆文本频率与一个词在整个总文本库中的出现次数成反比,与该词在特定文本中的出现次数成正比,因此,计算词语的词频-逆文本频率,降序排列提取特征值。

步骤S3,通过自建的建筑行业常用术语词库及连续词袋模型(Continuous Bag-of-Word Model,CBOW),进行特征词的同义词扩展查询。

所述CBOW模型是一个三层神经网络模型;

所述CBOW模型的第一层是输入层,输入已知上下文的词向量;

所述CBOW模型的中间一层称为线性隐含层,它将所有输入的词向量累加;

所述CBOW模型的第三层是一个二分类器softmax,通过训练得到对应的单词近义词扩展。如“坠落”、“落下”和“掉落”互为近义词。

具体的,所述步骤S3中包括以下步骤:

步骤S31,给定训练文本——施工安全事故案例库及中文维基百科,将one-hot编码作为CBOW模型的输入,自设定词向量维度设为100,窗口设为5,最小出现次数为5,训练词向量使用的线程数设为9,通过CBOW模型进行词嵌入,输入的词向量累加,最后通过二分类器完成词的向量化表示。

步骤S32,读取步骤S2中所提取的特征词,利用训练好的词向量获取特征词的词向量,利用余弦距离计算与特征词最相似的前5个词,进行同义词扩展。如“坠落”、“落下”和“掉落”互为近义词。

步骤S4,基于向量空间模型及余弦函数改进方法进行相似施工安全案例的相似度计算。

具体的,在得到特征词及同义词后,利用向量空间模型并对余弦函数进行改进,计算施工安全案例间的相似度,所述余弦系数算法结果较为精准,是VSM中最常用的计算方法,所以本文使用余弦系数法来计算相似度。本文使用Python的第三方工具gensim中的similarities模型来计算输入的案例与文本的相似度,并依据相似度的值从大到小文本进行排序,最终将前10个文本作为输出结果;

其中Sim(t_1,t_0)为原始查询,Sim(t_1,t_k)为扩展查询,因此0<λ<1之间取值,经过多次验证,将λ设定为0.7。

步骤S5,将整个数据库及查询系统集成到本地服务器或者智能设备中。

例如,利用手机或者平板,即可在施工现场进行查询,由于数据库及查询系统都在本地,所以无论是否有网络都可以进行查询,所以即使在偏远山区的项目也可以实时查询到所需的安全知识。

更具体的,利用手机或者平板进行查询,用户输入事故问题即可进行施工安全事故案例查询,本发明能够在输入日常报告后直接输出相似的施工安全事故案例,有效的避免了网页搜索的低效和繁琐,提高了施工安全事故知识的复用的效率。

实施例二

本发明实施例二提供了一种施工案例知识重用查询装置,包括:

施工安全案例获取及处理模块,用于收集施工安全规范文档以及施工安全事故报告,并将这些资料电子化,建立施工安全领域案例库;基于自然语言处理技术对施工安全规范文档以及施工安全事故报告进行文本分词及去停用词的处理,再通过词频逆文本算法计算特征词;

同义词扩展查询模块,与施工安全案例获取及处理模块相连接,通过自建的建筑行业常用术语词库及连续词袋模型,进行特征词的同义词扩展查询;

相似案例检索模块,与同义词扩展查询模块相连接,基于向量空间模型及余弦函数改进方法进行相似施工安全案例的相似度计算;

所述施工安全案例获取及处理模块包括爬虫算法和分词去停用词;所述同义词扩展查询模块包括文本向量化及连续词袋模型;所述相似案例检索模块包括基于向量空间模型文本的相似度计算。

还包括本地服务器或者智能设备,所述本地服务器或者智能设备内部存储有整个数据库及查询系统。

例如,利用手机或者平板,即可在施工现场进行查询,由于数据库及查询系统都在本地,所以无论是否有网络都可以进行查询,所以即使在偏远山区的项目也可以实时查询到所需的安全知识。

上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受所述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号