首页> 中国专利> 一种基于小波时序树状概要的城市公共数据流融合方法

一种基于小波时序树状概要的城市公共数据流融合方法

摘要

一种基于小波时序树状概要的城市公共数据流融合方法,包括以下步骤:1)数据预处理;2)压缩处理;3)小波系数的筛选;4)基于小波变换的树状概要结构的动态维护::动态更新概要树的节点,根据数据节点可加性原则,将l

著录项

  • 公开/公告号CN103049485A

    专利类型发明专利

  • 公开/公告日2013-04-17

    原文格式PDF

  • 申请/专利权人 浙江工商大学;

    申请/专利号CN201210511205.7

  • 发明设计人 陈庭贵;许翀寰;

    申请日2012-11-30

  • 分类号G06F17/30;

  • 代理机构杭州天正专利事务所有限公司;

  • 代理人王兵

  • 地址 310018 浙江省杭州市下沙高教园区学正街18号

  • 入库时间 2024-02-19 18:33:18

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-11-23

    未缴年费专利权终止 IPC(主分类):G06F17/30 授权公告日:20151021 终止日期:20171130 申请日:20121130

    专利权的终止

  • 2015-10-21

    授权

    授权

  • 2013-05-15

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20121130

    实质审查的生效

  • 2013-04-17

    公开

    公开

说明书

技术领域

本发明涉及人工智能、数据挖掘技术领域知识,具体涉及一种基 于小波时序树状概要的城市公共数据流融合方法。适用于我国各城市 对该城市海量公共数据流有效快速压缩处理。。

背景技术

城市公共安全状况,是一个国家竞争力和国家形象的重要标志。 随着城市聚集人口和积累财富的不断增长,城市的重要性日趋明显, 然而也使其面临越来越多的安全挑战。自然灾害频度和强度的增大、 各类社会事故的增长以及恐怖主义的威胁,对城市预防灾害及应付突 发事件的能力提出了更为严峻的要求。

近年来,针对城市空间数据集成与共享,我国先后投入大量资金, 设立专项进行应用研究。其中代表性的有国家科技攻关计划“中国可持 续发展信息共享系统的开发研究”、国家科技发展专项“国家基础地质 数据库整合与集成”等等。这些项目的实施,大大促进了我国科学数据 共享和数据社会化服务程度的提高。尤其是“科学数据共享工程”的实 施,从理论基础、法律法规体系建设、科学数据共享机制、标准体系 建设、科学数据共享工程的总体框架、技术平台框架等方面进行了卓 有成效的研究。例如:科学数据共享工程:科学数据共享工程是在国 家科技基础条件平台统一规划、政策调控和相应法规的保障下,应用 现代信息技术,整合离散的科学数据资源,构建面向全社会的网络化、 智能化的管理与共享服务体系,实现对科学数据资源的规范化管理及 其高效利用。

数据融合技术作为信息处理关键技术之一,是指利用计算机对按 时序获得的若干观测信息,在一定准则下加以自动分析、综合,以完 成所需的决策和评估任务,包括对各种信息源给出的有用信息的采集、 传输、综合、过滤、相关及合成,以便辅助人们进行态势/环境判定、 规划、探测、验证、诊断。根据融合前后数据信息含量差别,数据融 合可分为无损融合(无损压缩)和有损融合(有损压缩)。典型的无损 数据压缩有:Huffman编码、LZSS、LZW、分布式信源编码、报头 压缩及数据包合并;有损数据压缩主要有:基于小波变换(wavelet transform)的数据压缩、压缩感知等。

发明内容

为了克服传统城市公共数据流融合的不足,本发明引入中位数绝 对值偏差方法,结合离散小波变换方法,提出一种基于小波时序树状 概要的城市公共数据流融合方法,能够高效、高质量得对城市公共数 据流进行融合。

本发明解决其技术问题所采用的技术方案是:

一种基于小波时序树状概要的城市公共数据流融合方法,所述融 合方法包括以下步骤:

1)数据预处理:开始到达的数据作为第0层,每一时间段到达的数据 流片段平均包含m个数据,假设每m个数据组成一个子序列,记为 di,对di进行预处理,包括对数据进行空缺值处理,去离群点;

2)压缩处理:对每m个数据di进行压缩操作,生成第1层的压缩数 据节点Pi,i=(1,2,3…),构造一个非线性衰减函数:

fi=-αe-(ti-t0)+β---(1)

其中:α,β为衰减速度因子,α+β=1,α>β,α,β∈[0,1],用于对衰 减函数进行调整以提高精确度,t0表示初始时刻,则在时刻ti,数 据节点Pi的加权值为Pifi。数据节点的压缩采用离散小波变换变换, Φ分量中保存变换得到的r个最重要的小波系数;

随着新数据的不断到来,第1层上的压缩数据节点不断增加,达到 设定数量时,将最老的m个数据节点{P1’,P2’,...,Pm’}进行归并, 合并成第2层上的一个数据节点,并计算数据节点的概要信息,以 此逐层向上,从而使得该数据流总是被压缩成一组分层次的数据节 点;在整个计算过程中,内存中始终只存储n个数据节点,不断淘 汰旧的数据;

3)小波系数的筛选:规范化小波系数,将每个系数除以即变化 为其中l是层数,重构误差的度量标准 决定了最重要小波系数的选择,小波系数的筛选过程遵循以下原 则:

a、绝对值大的系数的缺失会对相关数据值的重构有更大的影响;

b、从结构树上易知,越接近根节点的系数用于重构时影响的数据 越多,具有更大的重要性,运用误差平方和sse:

sse(D,D)=Σi=1n(xi-xi)2---(2)

来进行小波系数的筛选,系数重要性的衡量基于sse最小化,使得Φ 中保留了r个绝对值最大的系数;

4)基于小波变换的树状概要结构的动态维护:动态更新概要树的节 点,根据数据节点可加性原则,将li层上最老的m个节点合并到li+1层,并将li层余下的节点重新计数,同时将这m个老的数据移出内 存,完成数据融合。

进一步,所述步骤1)中,假设数据流中数据的属性个数为a,如 果空缺属性个数则认为该条数据是无效的,直接过滤。反之, 将空缺属性补充为该属性所有取值的平均值,随后采用中位数绝对值 偏差(MAD)方法确定该数据流中的离群点,并删除。

本发明的技术构思为:针对目前城市公共数据量庞大、数据采集 精度低,数据流融合过程中数据具有衰减特性等问题,提出一种基于 小波时序树状概要的城市公共数据流融合方法。通过该方法能够科学 合理有效得对城市海量公共数据流压缩处理。

本发明充分考虑城市公共数据流融合过程中数据的衰减特性,引 入中位数绝对值偏差判断数据流的离群值,将数据流中小波系数的动 态维护和其衰减特性相结合,实现了数据流的近似表示及其概要结构 的动态维护。该发明能够较好的对城市海量公共数据流进行高质量得 压缩处理,并具有良好的鲁棒性。

本发明的有益效果在于:本发明有效地克服传统城市海量公共数 据流融合的不足,具有良好的应用价值。

附图说明

图1是基于小波变换的树状概要结构方法流程图。。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1,一种基于小波时序树状概要的城市公共数据流融合方 法,包括以下步骤:

5)数据预处理:假设数据流是稳定的,开始到达的数据作为第0层, 每一时间段到达的数据流片段平均包含m个数据。假设每m个数据 组成一个子序列,记为di。对di进行预处理,主要包括对数据进行 空缺值处理,去离群点。假设数据流中数据的属性个数为a,如果 空缺属性个数则认为该条数据是无效的,直接过滤。反之, 将空缺属性补充为该属性所有取值的平均值。随后采用中位数绝对 值偏差(MAD)方法确定该数据流中的离群点,并删除;

6)压缩处理:对每m个数据(di)进行压缩操作,生成第1层的压缩数 据节点Pi,i=(1,2,3…)。对Pi引入衰减函数f,该函数为非线性的, 之所以构建非线性的衰减函数是因为更符合人类的心理学规律,很 容易被人们所理解。本发明根据德国心理学家艾宾浩斯提出的遗忘 曲线(短期内遗忘进行得较快,经过足够长的时间间隔后遗忘进行 得比较缓慢,即遗忘过程是先快后慢),构造一个非线性衰减函数:

fi=-αe-(ti-t0)+β---(1)

其中:α,β为衰减速度因子,α+β=1,α>β,α,β∈[0,1],用于对衰 减函数进行调整以提高精确度,t0表示初始时刻,则在时刻ti,数 据节点Pi的加权值为Pifi。数据节点的压缩采用离散小波变换变换, Φ分量中保存变换得到的r个最重要的小波系数。

随着新数据的不断到来,第1层上的压缩数据节点不断增加,达到 一定数量时,将最老的m个数据节点{P1’,P2’,...,Pm’}进行归并, 合并成第2层上的一个数据节点,并计算数据节点的概要信息,以 此逐层向上,从而使得该数据流总是被压缩成一组分层次的数据节 点。在整个计算过程中,内存中始终只存储n个数据节点,不断淘 汰旧的数据。压缩数据节点的可加性保证了归并得到的数据流概要 信息与直接从原始数据中提取得到的概要信息是一致的,从而使得 树结构的每一层能够被动态维护。层数越低的数据节点所对应的数 据流子序列越短,同样大小的概要信息对原数据序列的重构近似程 度就越好。反之,层数越高的数据节点对应较长的子序列,其概要 信息对原数据序列的近似较为粗略。

7)小波系数的筛选:由于不同的小波系数在重构过程中所起的作用不 一样,需要先规范化小波系数,通常将每个系数除以即变化 为其中l是层数。重构误差的度量标准 决定了最重要小波系数的选择。小波系数的筛选过程遵循以下原 则:

a、绝对值大的系数的缺失会对相关数据值的重构有更大的影响;

b、从结构树上易知,越接近根节点的系数用于重构时影响的数据 越多,具有更大的重要性。本发明运用误差平方和sse:

sse(D,D)=Σi=1n(xi-xi)2---(2)

来进行小波系数的筛选,系数重要性的衡量基于sse最小化,使得Φ 中保留了r个绝对值最大的系数;

8)基于小波变换的树状概要结构的动态维护,动态更新概要树的节 点,根据数据节点可加性原则,将li层上最老的m个节点合并到li+1层,并将li层余下的节点重新计数,同时将这m个老的数据移出内 存。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号