首页> 中国专利> 用于支撑多格式统计年鉴数据抓取的映射表格计算方法

用于支撑多格式统计年鉴数据抓取的映射表格计算方法

摘要

本发明公开了一种用于支撑多格式统计年鉴数据抓取的映射表格计算方法,映射表格数据项名称设置模块,映射表格与数据抓取目录连接模块,映射表格与统计年鉴连接模块。映射表格考虑了多格式统计年鉴中数据项名称会发生变化的情况,以及提高数据抓取的准确率的要求。通过建立映射表格与数据抓取目录的对应、映射表格与统计年鉴的对应,实现了数据抓取准确率的提高。

著录项

  • 公开/公告号CN112464062A

    专利类型发明专利

  • 公开/公告日2021-03-09

    原文格式PDF

  • 申请/专利号CN202011278859.0

  • 发明设计人 王林钰;陈浩;朱迪;

    申请日2020-11-16

  • 分类号G06F16/951(20190101);G06K9/62(20060101);G06F16/84(20190101);G06F40/289(20200101);G06F40/216(20200101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构32300 南京源古知识产权代理事务所(普通合伙);

  • 代理人郑宜梅

  • 地址 215000 江苏省苏州市虎丘区高新区科技城学森路9号1号楼

  • 入库时间 2023-06-19 10:08:35

说明书

技术领域

本发明涉及能源预测以及能源平衡领域,具体涉及用于支撑多格式统计年鉴数据抓取的映射表格计算方法。

背景技术

数据抓取是使用数据读取采集、语句相似度计算等方法,从数据源获取期望得到的数据。一般首先确定抓取目标的名称,其次读取数据源中的数据,之后计算从数据源读取得到的数据的数据项名称和抓取目标的名称的相似度值,最后根据相似度值确定与抓取目标对应的数据。

但是现在的数据抓取方法仅考虑了期望得到的数据的名称,而没有考虑到数据源中的数据的数据项名称表述,使得数据抓取的准确率偏低。而且针对不同类型的数据源,尤其是在对多格式统计年鉴中的数据进行抓取时,只根据单一的不考虑多格式统计年鉴中数据项名称的数据抓取目标进行数据抓取,使得数据抓取的准确率偏低。因此传统的数据抓取方法的效果不是最优的,需要一种能够更快速准确的抓取数据的方法。

发明内容

1.所要解决的技术问题:

针对上述技术问题,本发明提供一种用于支撑多格式统计年鉴数据抓取的映射表格计算方法,能够在数据抓取过程中起到数据项准确对应、匹配的辅助作用,考虑了多格式统计年鉴中数据项名称用词的差异。

2.技术方案:

用于支撑多格式统计年鉴数据抓取的映射表格计算方法,用于将统计年鉴中的数据经过数据抓取至含有抓取目标的映射表格;其特征在于:包括映射表格数据项名称设置模块、映射表格与数据抓取目录连接模块、映射表格与统计年鉴连接模块。

映射表格数据项名称设置模块用于根据抓取目录中的抓取目标名称抓取统计年鉴中的与抓取目标对应的数据项名称语句相同或相似的数据项,并使用被抓取的统计年鉴中的数据项名称语句来表述数据抓取目录中的抓取目标名称。

映射表格与数据抓取目录连接模块用于确定映射表格中的每一个数据项名称准确对应到数据抓取目录中的唯一的抓取目标名称,而且数据抓取目录中的每一个抓取目标名称对应到映射表格中的唯一的数据项名称。

映射表格与统计年鉴连接模块用于根据映射表格的数据项名称确定统计年鉴中需要抓取的数据,以及需要抓取的数据通过其数据项名称能够准确对应到映射表格中的唯一的数据项名称。

进一步地,映射表格中的数据项名称的编写方法具体为,首先根据数据抓取目录中的抓取目标名称知道抓取目标名称的语言含义,其次在被抓取的统计年鉴中找到与抓取目标名称的语言含义相同的数据项名称,最后把从统计年鉴中找到的数据项名称填写入映射表格,作为映射表格的数据项名称。

进一步地,映射表格与数据抓取目录建立对应的方法具体为:对数据抓取目录中的每一个抓取目标名称设定唯一的编码,之后给映射表格中的数据项名称设定编码;映射表格中的每一个数据项名称的编码与该数据项名称对应到数据抓取目录中唯一的抓取目标名称的编码相同,而且任意两个不同的数据项名称的对应的编码不同的;根据编码,映射表格中的每一个数据项名称能够准确对应到数据抓取目录中的唯一的抓取目标名称,而且数据抓取目录中的每一个抓取目标名称对应到映射表格中唯一的数据项名称。

进一步地,映射表格的数据项名称与统计年鉴中需要抓取的数据建立对应的方法具体为:采用语句相似度计算方法来计算统计年鉴中每一个数据对应的数据项名称语句与映射表格中每一个数据项名称语句的相似度值,然后将映射表格中的数据项名称与统计年鉴中与其相似度值最高的数据项相对应;其中语句相似度计算步骤包括以下步骤:

步骤1:获取要计算相似度值的两个语句即语句A与语句B。

步骤2:使用word2vec方法,将语句A和语句B均转化为两个词向量A,B。

步骤3:使用余弦相似度计算公式计算得到两个词向量A,B的相似度值Similarity(A,B),其中余弦相似度计算公式为:

上式中,

步骤4:映射表格中的数据项名称和统计年鉴中与其相似度值最高的数据项建立对应。

进一步地,步骤2中word2vec方法用于把一个语句转化为一个词向量;所述word2vec方法中使用BosonNLP分词方法、Huffiman编码方法、CBOW神经网络模型;word2vec方法具体计算步骤如下:

步骤21:使用BosonNLP分词方法将一个语句A拆解为一个词语组A。

步骤22:使用Huffiman编码方法将一个词语组A编码为一个词向量组{A}。

步骤23:使用CBOW神经网络模型将一个词向量组{A}转化为一个词向量A。

3.有益效果:

本发明提供的一种用于支撑多格式统计年鉴数据抓取的映射表格计算方法,在对多格式统计年鉴进行数据抓取操作时,对每个格式的统计年鉴都根据数据抓取目录和该格式的统计年鉴制作一个映射表格。通过映射表格中的数据项名称与统计年鉴中的数据项名称的对应,和映射表格中的数据项名称的编码与数据抓取目录中的抓取目标名称的编码的对应,可以准确获得数据抓取目录中的抓取目标名称对应到统计年鉴中的指定数据。从而提高了数据抓取的准确率。

附图说明

图1为本发明提供的一种用于支撑多格式统计年鉴数据抓取的映射表格计算方法对应关系图;

图2为本发明提供的一种用于支撑多格式统计年鉴数据抓取的映射表格计算方法中使用的CBOW神经网络模型图。

具体实施方式

下面结合附图对本发明进行具体的说明。

如附图1所示,用于支撑多格式统计年鉴数据抓取的映射表格计算方法,用于将统计年鉴中的数据经过数据抓取至含有抓取目标的映射表格;包括映射表格数据项名称设置模块、映射表格与数据抓取目录连接模块、映射表格与统计年鉴连接模块。

映射表格数据项名称设置模块用于根据抓取目录中的抓取目标名称抓取统计年鉴中的与抓取目标对应的数据项名称语句相同或相似的数据项,并使用被抓取的统计年鉴中的数据项名称语句来表述数据抓取目录中的抓取目标名称。

映射表格与数据抓取目录连接模块用于确定映射表格中的每一个数据项名称准确对应到数据抓取目录中的唯一的抓取目标名称,而且数据抓取目录中的每一个抓取目标名称对应到映射表格中的唯一的数据项名称。

映射表格与统计年鉴连接模块用于根据映射表格的数据项名称确定统计年鉴中需要抓取的数据,以及需要抓取的数据通过其数据项名称能够准确对应到映射表格中的唯一的数据项名称。

进一步地,映射表格中的数据项名称的编写方法具体为,首先根据数据抓取目录中的抓取目标名称知道抓取目标名称的语言含义,其次在被抓取的统计年鉴中找到与抓取目标名称的语言含义相同的数据项名称,最后把从统计年鉴中找到的数据项名称填写入映射表格,作为映射表格的数据项名称。

进一步地,映射表格与数据抓取目录建立对应的方法具体为:对数据抓取目录中的每一个抓取目标名称设定唯一的编码,之后给映射表格中的数据项名称设定编码;映射表格中的每一个数据项名称的编码与该数据项名称对应到数据抓取目录中唯一的抓取目标名称的编码相同,而且任意两个不同的数据项名称的对应的编码不同的;根据编码,映射表格中的每一个数据项名称能够准确对应到数据抓取目录中的唯一的抓取目标名称,而且数据抓取目录中的每一个抓取目标名称对应到映射表格中唯一的数据项名称。

进一步地,映射表格的数据项名称与统计年鉴中需要抓取的数据建立对应的方法具体为:采用语句相似度计算方法来计算统计年鉴中每一个数据对应的数据项名称语句与映射表格中每一个数据项名称语句的相似度值,然后将映射表格中的数据项名称与统计年鉴中与其相似度值最高的数据项相对应;其中语句相似度计算步骤包括以下步骤:

步骤1:获取要计算相似度值的两个语句即语句A与语句B。

步骤2:使用word2vec方法,将语句A和语句B均转化为两个词向量A,B。

步骤3:使用余弦相似度计算公式计算得到两个词向量A,B的相似度值Similarity(A,B),其中余弦相似度计算公式为:

上式中,

步骤4:映射表格中的数据项名称和统计年鉴中与其相似度值最高的数据项建立对应。

进一步地,步骤2中word2vec方法用于把一个语句转化为一个词向量;所述word2vec方法中使用BosonNLP分词方法、Huffiman编码方法、CBOW神经网络模型;word2vec方法具体计算步骤如下:

步骤21:使用BosonNLP分词方法将一个语句A拆解为一个词语组A。

步骤22:使用Huffiman编码方法将一个词语组A编码为一个词向量组{A}。

步骤23:使用CBOW神经网络模型将一个词向量组{A}转化为一个词向量A。

word2vec方法中使用到的Huffiman编码方法是一种利用Huffman树设计的二进制前缀编码。Huffman树是在叶子结点和权重确定的情况下,带权路径长度最小的二叉树,也被称为最优二叉树。根据词语构成的Huffman树进行词语编码使得出现频率高的词语占的位数短,而出现频率低的词语占的位数长,从而使得Huffiman编码得到的词向量组数据量较小,有利于减轻后续计算量。

word2vec方法中使用到的CBOW神经网络模型是基于Hierarchical Softmax设计的。如附图2所示为CBOW神经网络模型图。CBOW神经网络模型包含3层:输入层、投影层、输出层。CBOW模型的作用是根据输入的词向量组,输出测算得到的单个词向量。

虽然本发明已以较佳实施例公开如上,但它们并不是用来限定本发明的,任何熟习此技艺者,在不脱离本发明之精神和范围内,自当可作各种变化或润饰,因此本发明的保护范围应当以本申请的权利要求保护范围所界定的为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号