首页> 中国专利> 一种基于二分数据修补与扰动因子的商品价格预测方法

一种基于二分数据修补与扰动因子的商品价格预测方法

摘要

本发明公开了一种基于二分数据修补与扰动因子的商品价格预测方法,将二分修补数据方法引入扰动因子预测的新型商品价格预测方法,并将该商品价格预测方法应用于手机价格的预测,解决了现有销售商只有销售价格没有预测的问题,提高了网页商品价格数据抽取的抗噪性能,获得了更高的预测准确率,具有很高的实用价值。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-01-18

    专利权人的姓名或者名称、地址的变更 IPC(主分类):G06Q30/02 变更前: 变更后: 申请日:20111216

    专利权人的姓名或者名称、地址的变更

  • 2015-07-01

    授权

    授权

  • 2013-02-20

    实质审查的生效 IPC(主分类):G06Q30/02 申请日:20111216

    实质审查的生效

  • 2013-01-02

    公开

    公开

说明书

技术领域

本发明属于商品市场预测技术领域,特别涉及一种商品价格的预测方法,可应用于商品 市场预测分析与商品销售决策支持系统。

背景技术

商品价格的预测方法是市场预测分析与商品生产销售决策的基础,是市场预测领域中的 一个重要问题,在商品生产、销售等很多问题中起着关键作用。由于网络技术的发展与网络 商店的普及,因此近年来,人们越来越重视对商品价格的预测方法的研究。商品价格的预测 问题可以看作是基于时间序列的数据处理与数据分析问题,分为数据获取、数据处理与预测 模型三个方面。对于数据的获取,一般较多的是针对行业数据,如电力需求,股票交易数据 等。股票市场、期货市场、电力市场等价格数据获取较为容易,且研究其预测的方法也比较 广泛,如最小二乘回归、神经网络、灰色马尔科夫链、小波理论和GM(1,1)模型等。

2010年和2011年,朱全银等给出了商品销售数据抽取与数据挖掘的方法以及基于Web的非 修补数据的价格动态预测方法(Quanyin Zhu,Yunyang Yan,Jin Ding and Yu Zhang.The  Commodities Price Extracting for Shop Online,2010 International Conference on Future  Information Technology and Management Engineering,Changzhou,Jiangsu,Chian,Dec.2010, Vol.2,pp.317-320;Quanyin Zhu,Yunyang Yan,Jin Ding and Jin Qian.The Case Study for Price  Extracting of Mobile Phone Sell Online.IEEE 2nd International Conference on Software  Engineering and Service Science,Beijing,Chian,July.2011,pp.281-295;Quanyin Zhu,Sunqun  Cao,Jin Ding and Zhengyin Han.Research on the Price Forecast without Complete Data based on  Web Mining,2011 Distributed Computing and Applications to Business,Engineering and Science, Wuxi,Jiangsu,Chian,Oct.2011,pp.120-123;Quanyin Zhu,Hong Zhou,Yunyang Yan,Jin Qian and Pei Zhou.Commodities Price DynamicTrend Analysis Based on Web Mining.The International  Conference on Multimedia Information Networking and Security,Shanghai,Chian, Nov.2011,pp.524-527;Jianping Deng,Fengwen Cao,Quanyin Zhu,and Yu Zhang.The Web Data  Extracting and Application for Shop Online Based on Commodities Classified.Communications in  Computer and Information Science,Vol.234(4):189-197;王红艳,朱全银,严云洋,钱进.商品 价格数据的两种WEB挖掘算法比较.微电子学与计算机.2011.Vol.28(19):168-172)。

扰动因子算法的基本思路如下:

定义:预测误差et=Yt-Y^t,t=1,2,···,n---(1)

相对预测误差:e~t=etYt=Yt-Y^tYt,t=1,2,···,n---(2)

绝对平均误差:MAE=1nΣt=1n|et|=1nΣt=1n|Yt-Y^t|---(3)

绝对平均百分误差:MAPE=1nΣt=1n|et|Yt=1nΣt=1n|Yt-Y^t|Yt---(4)

t为预测周期,Yt实际值,为预测值。

设回归方程为y=aq2+bq+c,定义扰动因子si=x^iAi,L---(5)

y是下一个扰动因子的平均值,x是商品价格,L是预测时使用的日期窗口长度。 为了简化运算,令x=1,x=2,x=3带入回归方程,可以得到:

y1=a+b+cy2=4a+2b+cy3=9a+3b+c---(6)

根据式(6)可以求得a,b,c:

a=(y1-2y2+y3)/2b=(-3y1+4y2-3y3)/2c=3y1-3y2+y3---(7)

根据式(7)求出a,b,c代入会回方程可以得到下一个扰动因子y:

y=y1-2y2+y32x2+-3y1+4y2-3y32x+(3y1-3y2+y3)---(8)

以上算法是将最小二乘用于回归预测,但其只适用于数据正常情况,将其用于有缺陷数 据时,具有很大的局限性。由于日常生活中的商品,如消费类产品,其每天的销售价格数据 获取非常困难,采用基于网页的数据挖掘方法获取时,由于网络噪声的影响,会造成比较严 重的数据缺失问题。针对缺失数据的修补方法,常见的有均值替代法,Hedonic插补法、Kriging 插值法、回归预测法等。除均值替代法外,其他算法计算复杂,效率低,而广大的生产商与 销售商对消费类商品市场预测分析与商品销售决策有迫切的需求,因此,需要找到一种能够 对缺陷数据进行修补的方法,以获得更高的预测准确率。

发明内容

本发明的目的是将数据修补方法引入最小二乘回归预测,以提供一种对缺陷数据有效的 价格预测方法,进而实现一种新的商品价格预测方法,以提高商品价格预测的准确率。

本发明的技术方案是通过二分插值方法将网页挖取的数据进行预处理,在实现修补后的 数据集上进行最小二乘回归分析,进而完成商品的价格预测。

为便于理解本发明方案,首先对本发明的理论基础进行描述如下:

一般理论上用于修补数据的方法中,最简单的是使用缺陷数据在时间上或空间上左右的 值,求平均值后回填丢失之处,或者使用Hedonic插补法、Kriging插值法。但是对于商品价 格数据的趋势性,及趋大、趋小或不变化,均值回填法带来的误差往往较大,Hedonic插补、 Kriging插值都是计算复杂,效率低,用于商品价格预测时误差较大,在应用于价格预测分析 上都存在较大的局限性。二分插补算法正好能够满足这样的需求。

具体的说,本发明方案通过如下各步骤实现二分数据修补与扰动因子的商品价格预测:

步骤A、抽取网页中商品的名称、型号、类型与价格数据,建立数据集X={A1,A2,…,Ak}, 设定需要预测价格的商品为Ai={x1,x2,…,xn},i的取值区间为:[1,k];

步骤B、查找Ai中异常数据,得到异常数据集Bi,分别统计Bi中属于时间上连续的异常 数据段,设共有s个日期连续的异常数据段,每段日期上连续异常的数据个数为p,并设r=s; 对于每一个p值,步骤G到步骤I只可能被执行一次,且步骤G到步骤I一共被执行s次, 之后执行步骤J;

步骤C、当r的值为零时,直接执行步骤J,当r的值不为零时,执行步骤D;

步骤D、设Bi中第r个连续的异常数据段为Br={b1,b2,…bm},r∈[1,s],其 在A中的位置为:{xi,xi+1,…xi+p-1};

步骤E、按照p的值分别执行步骤F到步骤H,当p=1时执行步骤F,当p=2时执行步 骤G,当p≥3时执行步骤H,

步骤F、b1=xi+1;r=r-1,回到步骤C;

步骤G、b1=xi-1,b2=xi+1;r=r-1,回到步骤C;

步骤H、计算pmod2的值,若值为0,则b1,b2,···bm2=xi-m2+1,bm2+1,···bm=xi+m,,r=r-1, 回到步骤C;若值不为0,则b1,b2,···bm+12-1=xi-m+12+1,bm+12+1,···bm=xi+m,bm+12=xi+m,r=r-1, 回到步骤C;

步骤I、针对不同的商品Ai经过步骤B到步骤H后可以得到修复后的数据集 X^={A^1,A^2,···A^k},A^i={x^1,x^2,···x^n};

步骤J、求扰动窗口长度为L的的平均值

步骤K、设回归方程为y=aq2+bq+c,定义扰动因子并求Si

步骤L、求y1=x^n-2A^i,L-x^n-3A^i,L,y2=x^n-1A^i,L-x^n-2A^i,L,y3=x^nA^i,L-x^n-1A^i,L;

步骤M、令q1=1,q2=2,q3=3,求得a=(y1-2y2+y3)/2,b=(-3y1+4y2-3y3)/2,c=3y1-3y2+y3

步骤N、求q4=4时y4=aq2+bq+c;

步骤P、求扰动因子sn+1=y4+Sn

步骤Q、求得预测值

步骤R、重复步骤J到步骤Q,可以得到数据集X中所有商品的预测值。

步骤A至步骤Q的说明:

步骤A中所述抽取网页中商品的名称、型号、类型与价格数据是指:利用任意Web数据 抽取算法,抽取商品在网页上显示的名称、型号、类型与价格数据。其中x1,x2,…,xn可以是 第Ai个商品从一个网页中抽取的第1日至第n日的价格数据,也可以是从多个网页中抽取的 第1日至第n日的平均价格数据。

步骤A到步骤H是针对任意一个商品在一个网页中不同日期的价格数据的修补,其中步 骤B中异常数据集Bi的数据个数不大于Ai的总数据量的百分之十。

步骤J到步骤Q是针对任意一个商品在一个网页中不同日期的价格数据的预测值,或多 个网页中不同日期的平均值价格数据的预测值。

步骤J中扰动窗口长度L的取值一般为三个月,设为13周,91天。

步骤M中q1=1,q2=2,q3=3是指在步骤K回归方程中q的值。

相比现有技术的各种价格预测方法,本发明针对网页商品的价格数据挖掘,通过二分修 补方法,将缺陷数据修复,提高对商品价格预测的准确率,改变了现有价格预测方法只能对 完整无缺陷数据的预测,提高了数据挖掘的抗噪性能,可以达到更高商品价格预测准确率。

附图说明

图1为本发明具体实施方式的流程图。

具体实施方式

下面结合附图对本发明的技术方案进行详细说明:

如附图1所示,本发明实施方案按照以下步骤进行:

步骤A、抽取网页中商品的名称、型号、类型与价格数据,建立数据集X={A1,A2,…,Ak}, 设定需要预测价格的商品为Ai={x1,x2,…,xn},i的取值区间为:[1,k];

步骤B、查找Ai中异常数据,得到异常数据集Bi,分别统计Bi中属于时间上连续的异常 数据段,设共有s个日期连续的异常数据段,每段日期上连续异常的数据个数为p,并设r=s; 对于每一个p值,步骤G到步骤I只可能被执行一次,且步骤G到步骤I一共被执行s次, 之后执行步骤J;

步骤C、当r的值为零时,直接执行步骤J,当r的值不为零时,执行步骤D;

步骤D、设Bi中第r个连续的异常数据段为Br={b1,b2,…bm},r∈[1,s],其 在A中的位置为:{xi,xi+1,…xi+p-1};

步骤E、按照p的值分别执行步骤F到步骤H,当p=1时执行步骤F,当p=2时执行步 骤G,当p≥3时执行步骤H,

步骤F、b1=xi+1;r=r-1,回到步骤C;

步骤G、b1=xi-1,b2=xi+1;r=r-1,回到步骤C;

步骤H、计算pmod2的值,若值为0,则b1,b2,···bm2=xi-m2+1,bm2+1,···bm=xi+m,,r=r-1, 回到步骤C;若值不为0,则b1,b2,···bm+12-1=xi-m+12+1,bm+12+1,···bm=xi+m,bm+12=xi+m,r=r-1, 回到步骤C;

步骤I、针对不同的商品Ai经过步骤B到步骤H后可以得到修复后的数据集 X^={A^1,A^2,···A^k},A^i={x^1,x^2,···x^n};

步骤J、求扰动窗口长度为L的的平均值

步骤K、设回归方程为y=aq2+bq+c,定义扰动因子并求Si

步骤L、求y1=x^n-2A^i,L-x^n-3A^i,L,y2=x^n-1A^i,L-x^n-2A^i,L,y3=x^nA^i,L-x^n-1A^i,L;

步骤M、令q1=1,q2=2,q3=3,求得a=(y1-2y2+y3)/2,b=(-3y1+4y2-3y3)/2,c=3y1-3y2+y3

步骤N、求q4=4时y4=aq2+bq+c;

步骤P、求扰动因子sn+1=y4+Sn

步骤Q、求得预测值

步骤R、重复步骤J到步骤Q,可以得到数据集X中所有商品的预测值。

步骤A至步骤Q的说明:

步骤A中所述抽取网页中商品的名称、型号、类型与价格数据是指:利用任意Web数据 抽取算法,抽取商品在网页上显示的名称、型号、类型与价格数据。其中x1,x2,…,xn可以是 第Ai个商品从一个网页中抽取的第1日至第n日的价格数据,也可以是从多个网页中抽取的 第1日至第n日的平均价格数据。

步骤A到步骤H是针对任意一个商品在一个网页中不同日期的价格数据的修补,其中步 骤B中异常数据集Bi的数据个数不大于Ai的总数据量的百分之十。

步骤J到步骤Q是针对任意一个商品在一个网页中不同日期的价格数据的预测值,或多 个网页中不同日期的平均值价格数据的预测值。

步骤J中扰动窗口长度L的取值一般为三个月,设为13周,91天。

步骤M中q1=1,q2=2,q3=3是指在步骤K回归方程中q的值。

为了说明本方法的有效性,利用从2011年7月1日至2011年10月1日从不同网页中抽 取的不同商品的价格数据,采取人为丢失数据的方法来验证一种基于二分数据修补与扰动因 子的价格预测方法的有效性,先求得每一种商品的周价格平均值,其中选取人为丢弃的商品 数据都为价格正好发生变动的日期,保证了数据具有较好的典型性,并进行2011年10月1 日的价格预测,最后算的平均误差为3.30%,而如果没有人为丢失数据,其预测的平均误差 为1.85%,即修补数据预测的准确率只比利用原始数据预测的准确率下降了1.45个百分点。

为了比较平均值修补法和二分修补法对预测准确率的影响,采用相同时间区间不同商品 的价格数据进行实验,实验结果显示采用原始数据预测的误差率为1.25%,采用二分修补法 预测的误差率为1.73%,而采用均值修补法预测的误差率为2.81%。结论是二分修补法预测的 误差率比均值修补法预测的误差率平均下降了1.08个百分点。

由于网络的噪声等原因,在利用网页抽取价格数据的过程中,在每天抽取大量的数据的 情况下,无法做到人工的数据确认修补,为了更进一步说明本发明的实际应用价值,利用抽 取的商品价格数据所进行的修补后预测价格与实际价格的比较,选择了网页抽取价格数据中 存在缺陷的4种商品价格进行实验,实验结果是缺陷数据下预测的平均准确率达到96.07%。

本发明可与计算机系统结合,从而自动完成商品价格的预测。

本发明创造性的提出了将二分修补数据方法引入扰动因子预测的新型商品价格预测方 法,并将该商品价格预测方法应用于手机价格的预测,解决了现有销售商只有历史销售价格 没有预测价格的问题,同时还提高了网页商品价格数据抽取的抗噪性能,获得了更高的预测 准确率,具有很高的实用价值。

本发明提出的商品价格预测方法不但可以用于手机生产与销售领域,也可以用于其他消 费类商品价格预测、数据修补与数据处理等领域。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号