法律状态公告日
法律状态信息
法律状态
2019-12-20
专利权质押合同登记的生效 IPC(主分类):G06F17/30 登记号:Y2019440000236 登记生效日:20191127 出质人:广东中建普联科技股份有限公司 质权人:中国建设银行股份有限公司广州越秀支行 发明名称:建设工程工料机数据自动编码方法及系统 授权公告日:20180911 申请日:20150826
专利权质押合同登记的生效、变更及注销
2018-09-11
授权
授权
2016-10-19
著录事项变更 IPC(主分类):G06F17/30 变更前: 变更后: 申请日:20150826
著录事项变更
2015-12-09
实质审查的生效 IPC(主分类):G06F17/30 申请日:20150826
实质审查的生效
2015-11-11
公开
公开
技术领域
本发明属于建设行业数据分析领域,具体涉及一种利用自然语言技术对建设工程人工材料机械设备(即工料机)数据进行自动识别,并根据识别结果进行自动编码的方法及系统。
背景技术
在建设工程的投资估算、设计概算、招标控制、施工预算、竣工结算和集中采购等环节中,需要用到大量的建设工程工料机数据,这些数据品种繁多、称呼多样、规范不统一,导致数据难以识别、归类,从而无法自动对数据进行比较、分析。当前这些数据的应用及管理主要基于人的经验来判断,工作效率低,形成结果慢,企业成本高,并且影响建设工程项目的投资分析以及全过程造价管理。
发明内容
本发明针对现有技术中工料机数据难以识别、分析,工作效率低以及企业成本高等问题,提出一种建设工程工料机数据自动编码方法。
本发明提出的建设工程工料机数据自动编码方法,主要包括以下步骤:
A1、将自然语言描述的工料机数据按行业标准进行规范化,将不规范字符替换为规范字符;
A2、从规范化后的工料机数据中获取名称关键词,并将所述名称关键词在标准名称库中进行匹配分析,确定所述工料机数据的标准名称;
A3、根据所述工料机数据的标准名称以及工料机数据中的单位信息仲裁工料机数据所属的类别;
A4、根据所属的类别从所述工料机数据中获取工料机数据的特征值;
A5、基于所述工料机数据的标准名称、所属的类别以及所述特征值进行编码。
在本发明的进一步优选方案中,所述步骤A2具体包括:
A21、对规范化后的工料机数据的名称信息和规格信息进行分词处理,以获取名称关键词;
A22、若只获取到一个名称关键词,则将该名称关键词与所述标准名称库进行匹配分析;若获取到多个名称关键词,则将各个名称关键词分别组合后与所述标准名称库进行匹配分析;
A23、根据最高匹配度确定所述工料机数据的标准名称。
在本发明的进一步优选方案中,所述步骤A3中仲裁工料机数据所属的类别是指仲裁工料机数据在国标分类中所属分类号,具体可指仲裁工料机数据在《GB/T50851-2013建设工程人工材料设备机械数据标准》中所属的分类号;若仲裁得到的分类号不唯一,则结合工料机数据中的规格信息做二次仲裁,以得到唯一的分类号。
在本发明的进一步优选方案中,所述步骤A4具体包括:根据所述工料机数据在国标分类中所属的分类号的特征项描述进行特征规则分析,并获取各项特征的数据值。
在本发明的进一步优选方案中,所述步骤A5具体包括:
A51、以所述工料机数据在国标分类中所属的分类号为类别编码段,并基于所述工料机数据的标准名称、所述特征值分别分配预设位数的标准名称编码段和特征值编码段;
A52、将所述类别编码段、标准名称编码段和特征值编码段依序组合,形成所述工料机数据的编码。
相应的,本发明还提出了一种建设工程工料机数据自动编码系统,主要包括规范化模块、匹配分析模块、仲裁模块、特征值获取模块以及编码模块;
所述规范化模块,用于将自然语言描述的工料机数据按行业标准进行规范化,将不规范字符替换为规范字符;
所述匹配分析模块,用于将从规范化后的工料机数据中获取名称关键词,并将名称关键词在标准名称库中进行匹配分析,确定所述工料机数据的标准名称;
所述仲裁模块,用于根据所述工料机数据的标准名称以及工料机数据中的单位信息仲裁工料机数据所属的类别;
所述特征值获取模块,用于根据所属的类别从所述工料机数据中获取工料机数据的特征值;
所述编码模块,用于基于所述工料机数据的标准名称、所属的类别以及所述特征值进行编码。
在本发明的进一步优选方案中,还包括工料机字符对照库,用于存储规范化的工料机字符;所述规范化模块将工料机字符对照库中相应的工料机字符替换所述工料机数据中的不规范字符。
在本发明的进一步优选方案中,还包括工料机名词库,用于存储工料机关键词;所述匹配分析模块通过所述工料机名词库对所述工料机数据的名称信息和规格信息进行分词处理,以获取工料机数据中的名称关键词。
在本发明的进一步优选方案中,还包括工料机特征规则库,所述工料机特征规则库具有工料机在国标分类对应分类号中的特征项描述;所述特征值获取模块根据所述工料机特征规则库对所工料机数据进行特征规则分析,以获取各项特征的数据值。
在本发明的进一步优选方案中,还包括工料机标准名称编码库和工料机特征值编码库;所述工料机标准名称编码库存储有工料机标准名称编码段,所述工料机特征值编码库存储有工料机特征值编码段;所述编码模块以所述工料机数据在国标分类中所属的分类号为类别编码段,并将所述工料机数据的标准名称在所述工料机标准名称编码库中进行匹配以获取标准名称编码段,将所述特征值在所述工料机特征值编码库中进行匹配以获取特征值编码段,将所述类别编码段、标准名称编码段、特征值编码段依序组合成所述工料机数据的编码。
本发明至少具备以下有益效果:
1、通过编码的方式赋予各工料机数据唯一的编码,以便对工料机数据进行识别、转换、分析、归类等应用及管理。
2、各工料机数据具有与其对应的唯一的编码,可用于智能执行所述识别、转换、分析、归类等应用及管理,而不需要人工操作,有助于提高工作效率,快速形成结果,并降低企业成本,更快推进建设工程项目的投资分析以及全过程造价管理。
3、在编码过程中能够智能识别工料机数据的名称、单位信息、规格信息等,形成标准名称(聚集)且完成工料机数据特征化,并可进行关键特征标记,形成定长编码,以便于工料机数据的进一步应用及管理。
附图说明
图1是实施例一提出的一种建设工程工料机数据自动编码方法流程示意图。
图2是实施例二提出的一种建设工程工料机数据自动编码系统结构示意图。
具体实施方式
为了便于本领域技术人员理解,下面将结合附图以及实施例对本发明进行进一步描述。
实施例一
以一条用自然语言描述的不规范的工料机数据为例,假设其包括名称、规格、单位等信息,具体如下:
名称:电力电缆
规格:0。6/1KV1.5mm2VV一芯
单位:KM
请参阅图1,实施例一提出的建设工程工料机数据自动编码方法,对上述不规范的工料机数据进行自动编码,主要过程包括以下步骤S100至S500:
S100、将自然语言描述的工料机数据按行业标准进行规范化,将不规范字符替换为规范字符。
在步骤S100中的规范化主要是将不规范字符替换成规范(标准)字符,例如工数机数据中的规格信息“0。6”包含有非规范字符,可以替换成“0.6”,单位信息“KM”可替换成“km”;当然,这里只是举例,若出现“∮”、
进一步地,所述规范化字符具体可在工料机字符对照库预先存储,该工料机字符对照库用于存储规范化的工料机字符,当识别到工料机数据中存在不规范字符时,可用工料机字符对照库中相应的规范化字符进行替换。
S200、从规范化后的工料机数据中获取名称关键词,并将所述名称关键词在标准名称库中进行匹配分析,确定所述工料机数据的标准名称。
为了提供更佳的实施方案,步骤S200可细化成以下步骤S210至S230:
S210、对规范化后的工料机数据的名称信息和规格信息进行分词处理,以获取名称关键词。
S220、若只获取到一个名称关键词,则将该名称关键词与所述标准名称库进行匹配分析。若获取到多个名称关键词,则将各个名称关键词分别组合后与所述标准名称库进行匹配分析。
S230、根据最高匹配度确定所述工料机数据的标准名称。
进一步地,可预先在工料机名词库中存储工料机关键词;然后在步骤S200(步骤S210)中通过匹配分析,利用所述工料机名词库对工料机数据的名称信息和规格信息进行分词处理,以获取工料机数据中的名称关键词。
例如,在步骤S210中通过分词处理,可以获得“电力电缆”、“KV”、“mm”、“VV”、“一芯”等名称关键词;由于名称关键词存在有多个,因此在步骤S230中需将这些名称关键词进行组合后与标准名称库进行匹配分析,并以匹配度最高的名称作为上述工料机数据的标准名称;在本实施例中名称关键词“电力电缆”以及“VV”的组合在标准名称库中拥有匹配度最高的标准名称,因而以名称关键词“电力电缆”以及“VV”的组合为依据,在步骤S230中匹配到标准名称“VV铜芯聚氯乙烯绝缘聚氯乙烯护套电力电缆”。
S300、根据所述工料机数据的标准名称以及工料机数据中的单位信息仲裁工料机数据所属的类别。
所述步骤S300中仲裁工料机数据所属的类别具体可指仲裁工料机数据在国标分类(可参考《GB/T50851-2013建设工程人工材料设备机械数据标准》)中所属的分类号;若仲裁得到的分类号不唯一,则结合工料机数据中的规格信息做二次仲裁,以得到唯一的分类号。
例如,根据上述工料机数据的标准名称“VV铜芯聚氯乙烯绝缘聚氯乙烯护套电力电缆”、工料机数据中的单位信息“km”仲裁工料机数据所属的类别,从而得到其在国标分类中的分类号“2811”(“2811”在《GB/T50851-2013建设工程人工材料设备机械数据标准》中对应“电力电缆”)。
S400、根据所属的类别从所述工料机数据中获取工料机数据的特征值。
所述步骤S400具体包括:根据所述工料机数据在国标分类中所属的分类号的特征项描述进行特征规则分析,并获取各项特征的数据值。
进一步地,可预先设置工料机特征规则库,所述工料机特征规则库具有工料机在国标分类对应分类号中的特征项描述;步骤S400根据所述工料机特征规则库对所工料机数据进行特征规则分析,以获取各项特征的数据值。
例如,上述工料机数据的特征值获取结果:“品种:VV;标称截面(mm2):1.5;芯数:1;额定电压(KV):0.6/1”,其中,“品值”、“标称截面(mm2)”、“芯数”、“额定电压(KV)”为特征项,“VV”、“1.5”、“1”、“0.6/1”分别为相应特征项的数据值。特征值获取过程以“标称截面(mm2)”为例:“标称截面(mm2)”是《GB/T50851-2013建设工程人工材料设备机械数据标准》中分类号“2811”的特征项,通过对所述工料机数据得到“mm2”,“mm2”跟“标称截面”常用单位“mm2”接近,故将“mm2”识别为“标称截面”的单位;再根据“标称截面”的书写规范,单位前面的数值为“标称截面”的数据值,因此可进行提取得到数据值“1.5”;提取后还可对该数据值范围进行验证,验证通过则说明该数据值有效。
S500、基于所述工料机数据的标准名称、所属的类别以及所述特征值进行编码。
为了提供更佳的实施方案,步骤S500可细化成以下步骤S510至S520:
S510、以所述工料机数据在国标分类中所属的分类号为类别编码段,并基于所述工料机数据的标准名称、所述特征值分别分配预设位数的标准名称编码段和特征值编码段。
S520、将所述类别编码段、标准名称编码段和特征值编码段依序组合,形成所述工料机数据的编码。
进一步地,可预先设置工料机标准名称编码库和工料机特征值编码库;所述工料机标准名称编码库存储有工料机标准名称编码段,所述工料机特征值编码库存储有工料机特征值编码段;步骤S510将所述工料机数据的标准名称在所述工料机标准名称编码库中进行匹配,以获取标准名称编码段,并将所述特征值在所述工料机特征值编码库中进行匹配,以获取特征值编码段。步骤S520将所述类别编码段、标准名称编码段和特征值编码段依序组合,便形成所述工料机数据的编码。
本实施例中,根据工料机数据的特性分析决定,特征项最多三种,这三种特征项组成的特征值编码段可以代表同类材料之间的差异,继而由类别编码段、标准名称编码段和特征值编码段组成工料机数据的编码,可以代表不同类材料之间的差异,保证了编码的唯一性。
例如,在步骤S510中,以所述工料机数据在国标分类中所属的分类号为类别编码段,即可得到“2811”,根据上述工料机数据的标准名称得到的标准名称编码段为“2011”,则类别编码段加上标准名称编码段为“28112011”。
在特征值编码方面,本实施例中,“VV铜芯聚氯乙烯绝缘聚氯乙烯护套电力电缆”有四个特征值“品种:VV;标称截面(mm2):1.5;芯数:1;额定电压(kV):0.6/1”,其中“品种”、“标称截面(mm2)”、“芯数”是关键特征项(每个类别的工料机数据都可以通过三个或三个以内的特征项判断出差异,这些特征项可称为关键特征项,故由关键特征项的值构成的编码也是唯一的;这里“额定电压(kV):0.6/1”不属于关键特征项),将“品种”的值“VV”对应编码为“025”,“标称截面(mm2)”的值“1.5”对应的编码为“004”,“芯数”的值“1”对应的编码为“008”,可以组合出“VV铜芯聚氯乙烯绝缘聚氯乙烯护套电力电缆”的特征值编码段:“025004008”。
因此,最终上述工料机数据的编码为类别编码段、标准名称编码段和特征值编码段依序组合依序组合而成,即:“28112011025004008”。
实施例二
请参阅图2,实施例二是与实施例一对应的一种建设工程工料机数据自动编码系统,主要包括规范化模块10、匹配分析模块30、仲裁模块40、特征值获取模块50以及编码模块60。
所述规范化模块10,用于将自然语言描述的工料机数据按行业标准进行规范化,将不规范字符替换为规范字符。
所述匹配分析模块30,用于将从规范化后的工料机数据中获取名称关键词,并将名称关键词在标准名称库(如图2中标准名称库21)中进行匹配分析,确定所述工料机数据的标准名称。
所述仲裁模块40,用于根据所述工料机数据的标准名称以及工料机数据中的单位信息仲裁工料机数据所属的类别。
所述特征值获取模块50,用于根据所属的类别从所述工料机数据中获取工料机数据的特征值。
所述编码模块60,用于基于所述工料机数据的标准名称、所属的类别以及所述特征值进行编码。
为了更好地实现实施例二的目的,实施例二还可进一步优化如下:
在第一种优化方案中,实施例二还可包括工料机字符对照库22,用于存储规范化的工料机字符;所述规范化模块10将工料机字符对照库22中相应的工料机字符替换所述工料机数据中的不规范字符。
在第二种优选方案中,实施例二还可进一步包括工料机名词库23,用于存储工料机关键词;所述匹配分析模块30通过所述工料机名词库23对所述工料机数据的名称信息和规格信息进行分词处理,以获取工料机数据中的名称关键词。
在第三种优选方案中,实施例二还可进一步包括工料机特征规则库24,所述工料机特征规则库24具有工料机在国标分类对应分类号中的特征项描述;所述特征值获取模块50根据所述工料机特征规则库24对所工料机数据进行特征规则分析,以获取各项特征的数据值。
在第四种优选方案中,实施例二还可进一步包括工料机标准名称编码库25和工料机特征值编码库26;所述工料机标准名称编码库25存储有工料机标准名称编码段,所述工料机特征值编码库26存储有工料机特征值编码段;所述编码模块60以所述工料机数据在国标分类中所属的分类号为类别编码段,并将所述工料机数据的标准名称在所述工料机标准名称编码库25中进行匹配以获取标准名称编码段,将所述特征值在所述工料机特征值编码库26中进行匹配以获取特征值编码段,将所述类别编码段、标准名称编码段、特征值编码段依序组合成所述工料机数据的编码。。
以上实施例二的技术原理和有益效果与实施例一相对应,这里不再赘述。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
机译: 利用历史成本数据自动成本估算系统和介质存储计算机程序来执行的建设工程成本估算方法
机译: 自动数据编码方法,实现一种这样的编码方法的文档生成方法以及使用所述方法的系统
机译: 自动数据编码方法,实现一种这样的编码方法的文档生成方法以及使用所述方法的系统