首页> 中国专利> 一种海关商品异常价格检测方法和装置

一种海关商品异常价格检测方法和装置

摘要

本发明公开了一种海关商品异常价格检测方法及装置,其中方法包括:把数据集分割成训练集和验证集;将数据集文本的不同信息分割成不同的词序列;对于每个数据,将分割成的词序列输入语言表示层,得到关于词向量的二维矩阵;将得到的二维矩阵输入文本双向多尺度神经网络中,从中提取相应的特征向量;将得到的特征向量输入用指数函数激活的单层感知机网络中,得到价格预测值;通过平均绝对对数误差损失函数计算网络的预测损失,然后使用随机梯度下降算法更新网络参数;结合得到的预测的价格,计算价格相似度;根据价格相似度,判断价格数据是否异常。本发明检测方法能较好地检测出异常价格,为海关部门异常报关价格数据的检测提供了参考依据。

著录项

  • 公开/公告号CN113298179A

    专利类型发明专利

  • 公开/公告日2021-08-24

    原文格式PDF

  • 申请/专利权人 南京大学;

    申请/专利号CN202110658278.8

  • 申请日2021-06-15

  • 分类号G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);G06Q30/02(20120101);

  • 代理机构11467 北京德崇智捷知识产权代理有限公司;

  • 代理人王斌

  • 地址 210000 江苏省南京市栖霞区仙林大道163号

  • 入库时间 2023-06-19 12:19:35

说明书

技术领域

本发明属于价格异常检测分类领域,尤其涉及一种基于文本回归的海关商品异常价格检测方法和模型。

背景技术

报关单审核主要涉及对现有商品价格数据的拟合、以及对未知商品的价格预测。在此背景下,许多学者设计了解决实际应用中的异常数据检测方法:一是,利用统计规律的异常检测方法,二是,基于时间序列的异常检测方法。前者因缺乏历史数据,无法根据数据的历史规律修正得到的统计规律,从而降低了异常数据检测的准确率。后者往往只能预测单一价格的变动规律,是针对单个及少量商品的价格时间序列特征进行建模,规模性不足。故已有方法很难较好地解决大规模数据集的异常检测任务,特别是对于商品种类繁多且价格多变的海关报关单的商品数据。此外,这些方法仅利用了商品的历史价格,并没有挖掘非结构化的商品描述信息中隐含的特征,这也造成了构建的异常检测模型无法得到令人满意的精度。

目前,海关采用报关单的形式获取商品信息。报关单由商家填写,提供包括企业名称、商品品名、商品品牌、规格型号、原产国等文本信息,以及申报时间、原产国(编号)、申报数量、申报价格等其他数字信息,海关审核人员主要根据商品的文本信息推测商家所报价格是否存在异常。因此,将海关报关单中的文本特征及提取方法用于海关异常数据检测任务中是十分有价值的。在现有的相关工作中,基于文本的预测方法多应用于文本分类任务,在更具难度而实际需求更大的数据预测、异常数据检测等回归任务,还没有得到很好地应用。

通过商品文本信息来进行价格预测,往往面临着以下两类困难:(1)同一类商品,由于品牌、规格、产地、功效等描述不同,以及商铺性质(如旗舰、代购、直营、海外购等)和商铺自行推出的折扣活动,往往导致同一商品的价格有很大差异,仅依靠商品文本数据很难正确预测价格,即商品文本数据存在“同质异构”现象;(2)不同类型商品可能有非常相似的商品文本数据,故很难通过商品文本数据预测出各自的真正价格,即存在“异质同构”的描述信息。以海关化妆品类商品的报关单数据为例,以“护肤品”为关键词搜索到的商品价格,可以发现,规格、品牌、原产地等因素的影响使得“护肤品”的申报单价从几十元到上百元不等,直接利用这类商品文本数据进行准确的价格预测是比较困难的。其中含“玻尿酸”的商品种类繁多,如具有不同功能的面部精华、乳液、喷雾、卸妆液等,这些商品在化妆品中分属不同类别,但由于非常相似的商品描述,提高了相应商品价格预测的难度。因此,通过现有的商品文本数据训练价格预测模型、利用价格预测模型进行异常检测,以及评估价格检测模型的性能是提高海关部门对报关商品异常价格检测效率的三个关键环节。

发明内容

本发明所要解决的技术问题是针对上述现有技术存在的不足,而提供一种能够较为准确地将价格异常的商品检测出来的方法和装置。

为解决上述技术问题,本发明采用的技术方案是:

一种海关商品异常价格检测方法,其特征在于,包括如下步骤:

步骤1:把数据集分割成训练集和验证集;

步骤2:对数据集文本信息中的不同信息分割成不同的词序列,其中不同信息包括品牌、型号,品名以及产地;

步骤3:对于每个数据,将步骤2中分割成的词序列输入语言表示层,使离散的词的文字表示编码为词向量,得到关于词向量的二维矩阵;

步骤4:将步骤3得到的二维矩阵输入文本双向多尺度神经网络中,从中提取特征向量;

步骤5:将步骤4得到的特征向量输入指数函数激活的单层感知机网络中,得到价格预测值

步骤6:通过平均对数误差损失函数计算网络的预测损失,然后使用随机梯度下降算法更新步骤3至步骤5中网络参数;

步骤7:结合真实的海关报关数据,对于当前预测的商品,给定申报价格Y,结合步骤6得到的预测的价格

步骤8:设定风险控制阈值用于判断异常,如果价格相似度不满足设定的风险控制阈值条件,则该价格数据判定为异常。

一种海关商品异常价格检测装置,包括处理器和存储器;所述存储器中存储有程序或指令,所述程序或指令由所述处理器加载并执行以实现上述海关商品异常价格检测方法的步骤。

有益效果:本发明提出了一种新的基于价格预测的海关异常检测方法和模型,在对商品文本数据进行文本特征提取的基础上,构建了价格回归模型,利用文本特征与价格之间的联系对海关的报关价格数据进行异常检测。此外,针对海关异常价格数据在数据集中占比小的特点,本发明还提供了一种有效的评价方案来衡量模型的性能。在海关真实报关数据的检测实验中,本发明提出的价格预测模型和评价方案能较好地检测出异常价格,为海关部门异常报关价格数据的检测提供了参考依据。

海关数据不同于普通的文本数据,其中存在大量的低频词汇和短特征词汇,且异常商品数量很少,导致数据存在不平衡问题。针对价格异常检测的问题,本发明提供了一种基于文本回归的海关商品异常价格检测方法和装置,检测方法中使用了双向多尺度神经网络,提取文本特征,并设计其中的卷积核结构以提取多尺度的局部特征。文本双向多尺度神经网络,结合多尺度卷积和BiGRU的优势,针对海关数据能提取出更有用的特征。现有方案只用Text CNN,只能提取出词袋特征,即关注了词出现的频率而忽略了词出现的位置,而这容易丢失位置信息带来的一些信息。本发明在Text CNN的基础上添加了BiGRU模块,BiGRU层通过训练序列向前和向后的两个循环神经网络,能有效利用前文和后文的信息。因此我们采用BiGRU层来弥补卷积层丢失掉的位置信息。通过结合卷积层和BiGRU层,相对于常规的TextCNN,能更好地学习序列依赖,更好地学习上下文的关系。针对海关数据的特点,本发明结合卷积层和BiGRU层,即结合了它们关注词频和上下文信息的优势,能提取出更好的特征以实现价格的预测,是更可行的方案,弥补了现有技术的不足。

针对海关数据,用文本回归的方法提取出了文本特征,这是首次用文本回归的方法进行海关价格预测与异常检测。以往的异常检测多用分类的方法,将其直接归类为正常或异常。本发明用预测的方法先预测出商品价格,再利用监督信息进行异常检测,从另一个角度实现了异常检测,为海关部门异常报关价格数据的检测方案提供了参考。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述或其他方面的优点将会变得更加清楚。

图1为本发明的流程图;

图2为本发明的整体模型框架。

具体实施方式

下面结合实施例对本发明做进一步说明。

实施例1

本发明海关产品异常价格检测方法,如图1所示,包括以下步骤:

步骤1:把数据集分割成训练集和验证集。从实际的海关报关单中获取60000条护肤品类的文本数据,包括“电商平台名称”、“电商企业名称”、“企业商品品名”和“商品描述信息”,将其中的54000条文本数据作为训练集,其余6000条作为验证集。在此数据集中,异常价格数据占比大约为1%,异常模式表现为虚报价格,通常虚报价格约为真实价格的1/10。

步骤2:对数据集中文本进行预处理,将品牌、型号,品名、产地等不同信息分开,分割成词序列。对于样本(雅漾Avene舒护活泉水喷雾300ml),分割后的词序列为雅漾/Avene/舒护/活泉水/喷雾/300/ml)。步骤2包括:对文字部分的文本进行分词处理,把句子分割成词序列。通过分词,文本表示的基本单元由句子变成细粒度水平更精细的词或字。具体包括如下步骤:

步骤2-1,分割标点符号,对各种标点符号进行字符级分割;

步骤2-2,分割英文单词,将连续的英文字母视为一个单词,对英文进行单词级分割;

步骤2-3,分割数字;

步骤2-4,分割中文,使用结巴分词工具分割中文。

步骤3:步骤2中分割成的词序列N

其中,F

步骤4:将步骤3得到的二维矩阵输入我们设计的双向多尺度神经网络中,从中提取相应的特征向量。步骤4包括如下步骤:

步骤4-1:将步骤3获得的词向量矩阵F

F

其中,F

步骤4-2:拼接卷积核W

F

其中,F

步骤5:将步骤4得到的特征向量F

步骤5-1:将步骤4得到的特征向量F

z=Linear(F

其中,F

步骤5-2:将步骤5-1的输出z输入激活函数中,得到价格预测

其中,activate为激活操作,z为步骤5-1的输出,

步骤6:通过平均绝对对数误差损失函数计算网络的预测损失,然后使用随机梯度下降算法更新步骤3至步骤5中网络参数。将价格预测误差置于对数空间,通过预测价格的损失函数计算网络的预测损失,然后使用随机梯度下降算法更新步骤3至步骤5中网络参数。其中损失函数为:

其中,

步骤7:结合真实的海关报关数据,对于当前预测的商品,给定申报价格Y,结合

步骤5得到的预测的价格

步骤8:设定风险控制阈值用于判断异常,满足下面的条件,则该价格数据判定为异常:

α<α

其中,α

表1

图2展现了本发明整个模型。其中假设有进行分词后的文本数据N1,N2,...,Nn分别对应某件商品的报关关键词信息,对其中的每个词进行词嵌入(Embedding),生成词向量,得到词向量矩阵。图中conv卷积层,将Embedding后得到的二维矩阵输入卷积层,再输入BiGRU层,从中提取相应的特征向量。再将抽取的特征向量输入单层感知机,得到预测的价格

下面表2中的实例展现了检测出的商品价格。

表2

例如,对于第一行商品名称为婴儿面霜的商品,某电商平台的申报单价是15.67元,而用本发明方法预测到的单价是153.91元,求出价格相似度α为0.116,对于我们设定的α

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号