首页> 中国专利> 基于评论中心词时序变化分析的消费热点追踪方法及装置

基于评论中心词时序变化分析的消费热点追踪方法及装置

摘要

一种基于评论中心词时序变化分析的消费热点追踪方法及装置,所述基于评论中心词时序变化分析的消费热点追踪方法,包括:获取具体目标商品评论中词汇的单次频度和重复频度,产生全局关键词汇集合;根据关键词的平均频度值,对关键词汇分类,得到全局的关键词汇分区集合;按时间分段进行统计分析,记录局部的关键词汇分区集合;根据全局的关键词汇分区集合和局部的关键词汇分区集合的变化信息,得出评论信息的兴趣点转移情况。从海量的电商评论数据中,结合自然语言处理技术以及统计概率方法,发现并跟踪买家对各类商品的消费热点,从而帮助卖家更有针对性地提供满足买家消费需求的商品,为买家提供更为专业的购物指导。

著录项

  • 公开/公告号CN104484329A

    专利类型发明专利

  • 公开/公告日2015-04-01

    原文格式PDF

  • 申请/专利权人 浙江工商大学;

    申请/专利号CN201410603951.8

  • 发明设计人 徐斌;

    申请日2014-10-31

  • 分类号G06F17/30(20060101);G06F17/27(20060101);

  • 代理机构杭州裕阳专利事务所(普通合伙);

  • 代理人应圣义

  • 地址 310018 浙江省杭州市下沙高教园区学正街18号

  • 入库时间 2023-12-17 04:27:34

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-11-19

    专利权的转移 IPC(主分类):G06F17/30 登记生效日:20191030 变更前: 变更后: 申请日:20141031

    专利申请权、专利权的转移

  • 2018-07-06

    授权

    授权

  • 2015-04-29

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20141031

    实质审查的生效

  • 2015-04-01

    公开

    公开

说明书

技术领域

本发明涉及一种互联网领域的热点处理技术,尤其是一种基于评论中心词时序变化分析的消费热点追踪方法及装置。

背景技术

随着通讯设备和技术的更新,以及计算机网络在电子商务、电子政务、娱乐、生活等方面的普及,网络的社交性越来越明显。在日常生活中,人们花费越来越多的时间在网络上进行交流,相互交易。其中的网络评论反映着已完成交易买家各自的购物诉求也影响着正在交易买家的购物选择。

如今在各大电商网购平台上网络评论数量庞大,导致买家和卖家都难以在整体上把握消费热点。但不管是卖家还是买家,都在一定程度上受到评论的影响。本专利的目的就是要根据买家的评论中心词在时序上的变化,跟踪消费热点的变化。对于商品销售者而言,他们可以及时获取当前买家的消费热点和消费倾向,从而更有针对性地提供商品和服务;而对于买家来说,掌握已完成交易买家对此商品或服务的关注点,在选择商品或服务的过程中会起到一定的辅助作用,从而避免被误导。因此如何在互联网中尤其是电商网购平台的买家评论中发掘有意义和有价值的热点商品信息、以及有可能成为热点的商品信息变得尤为重要。

发明内容

本发明的主要目的在于提供一种基于评论中心词时序变化分析的消费热点追踪方法及装置,能够高效地在电商网购平台的买家评论中发掘、追踪有价值的热点商品信息。

为此,本发明实施例提供一种基于评论中心词时序变化分析的消费热点追踪方法,包括:

获取具体目标商品评论中词汇的单次频度和重复频度,产生全局关键词汇集合;

根据关键词的平均频度值,对关键词汇分类,得到全局的关键词汇分区集合;

按时间分段进行统计分析,记录局部的关键词汇分区集合;

根据全局的关键词汇分区集合和局部的关键词汇分区集合的变化信息,得出评论信息的兴趣点转移情况。

可选的,获取具体目标商品的词汇单次频度和重复频度后,计算词汇密度和相对信息量以及词汇的权重值,列出全局关键词汇集合。

可选的,利用单次频度计算该词汇的相对信息量,利用重复频度计算该词汇的密度,利用词语的相对信息量和密度,计算该词语的权重值,并以键值对的形式(关键词,权重值)表示,并按照权重值的大小进行键值对排序,忽略掉键值对中权重值较小的键值对,列出全局关键词汇集合。

可选的,利用Pareto法则,根据设定的频度阈值,得到全局A、B、C三区关键词集合。

可选的,通过对不同时段的相关评价进行分段统计分析,记录各个时间段内局部的关键词汇分区集合。

可选的,首先获取目标商品的评论信息对应的词汇集。

本发明实施例还提供了一种基于评论中心词时序变化分析的消费热点追踪装置,包括:

关键词汇提取模块,获取具体目标商品评论中词汇的单次频度和重复频度,产生全局关键词汇集合;

全局关键词汇统计模块,根据关键词的平均频度值,对关键词汇分类,得到全局的关键词汇分区集合;

局部关键词汇统计模块,按时间分段进行统计分析,记录局部的关键词汇分区集合;

热点比较模块,根据全局的关键词汇分区集合和局部的关键词汇分区集合的变化信息,得出评论信息的兴趣点转移情况。

可选的,还包括评论词汇抓取模块,获取目标商品的评论信息对应的词汇。

可选的,获取具体目标商品的词汇单次频度和重复频度后,利用单次频度计算该词汇的相对信息量,利用重复频度计算该词汇的密度,利用词语的相对信息量和密度,计算该词语的权重值,并以键值对的形式(关键词,权重值)表示,并按照权重值的大小进行键值对排序,忽略掉键值对中权重值较小的键值对,列出全局关键词汇集合。

可选的,所述全局关键词汇统计模块利用Pareto法则,根据设定的频度阈值,得到全局A、B、C三区关键词集合。

与现有技术相比,本发明至少具有如下技术效果:

本专利将从海量的电商评论数据中,结合自然语言处理技术以及统计概率方法,发现并跟踪买家对各类商品的消费热点,从而帮助卖家更有针对性地提供满足买家消费需求的商品,为买家提供更为专业的购物指导。

附图说明

图1为本发明实施例的基于评论中心词时序变化分析的消费热点追踪方法的流程示意图;

图2为本发明实施例的基于评论中心词时序变化分析的消费热点追踪装置的结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。

本发明实施例首先提供了一种基于评论中心词时序变化分析的消费热点追踪方法的流程示意图,请参考图1,包括:

步骤S101,获取目标商品的评论信息对应的词汇集;

步骤S102,获取具体目标商品评论中词汇的单次频度和重复频度,产生全局关键词汇集合;

步骤S103,根据关键词的平均频度值,对关键词汇分类,得到全局的关键词汇分区集合;

步骤S104,按时间分段进行统计分析,记录局部的关键词汇分区集合;

步骤S105,根据全局的关键词汇分区集合和局部的关键词汇分区集合的变化信息,得出评论信息的兴趣点转移情况。

下面以手机的电商评论信息为例,对本发明技术方案进行说明。

具体的,执行步骤S101,获取目标商品的评论信息对应的词汇集。

首先获取电商平台中对应领域(手机领域)的评论信息,通过自动分词的方式或人工分词的方式对所有的评论信息进行分词。然后通过算法或人工判定,根据词性简单过滤掉无关的连接词,对过滤后剩下的词语以词汇聚合的形式记录为

M={m1,m2,m3,…,mn}。

执行步骤S102,获取具体目标商品评论中词汇的单次频度和重复频度,产生全局关键词汇集合。

根据上述方法分析具体目标商品(某一款某一型号的手机)的评论信息,针对具体目标商品的评论词汇集合表示为M1(含有n1个词汇),其中统计具体目标商品的评论词汇的单次频度和重复频度,单次频度是出现词语mi的评论数,不超过N,N为所分析的全部评论数;重复频度指的是词语mi在所分析的全部评论数中的出现次数,利用单次频度计算该词汇的相对信息量,此处相对信息量的计算与常规信息量计算不同,区别在于样本数仅限于所分析的N条评论,而非所有出现词语mi的评论集合,利用重复频度计算该词汇的密度,利用词语的相对信息量和密度,计算该词语的权重值,当词汇集合中的词语表示为mi,在N条评论中出现的单次频度(出现词语mi的评论数,不超过N)表示为fi,重复频度表示为di(词语mi在N条评论中的出现次数),则Pi表示该词的相对信息量,Qi表示该词的权重值;

>Pi=log2(Nfi+1),Qi=diN×Pi>

以键值对的形式(关键词,权重值)记录该目标物下的评论词汇以及权重,并按照权重值的大小进行排序如下形式:

{(mi,Qi)}i,其中{Qi}i满足Qi>Qj对于任意i<j

在此基础上,忽略掉键值对中权重值较小的键值对,得出全局关键词汇集合,并记录为:

W={w1,w2,…,wh},含有h个关键词,其中

在其他实施例中,也可以不忽略键值对中权重值较小的键值对,列出全局关键词汇集合。

执行步骤S103,根据关键词的平均频度值,对关键词汇分类,得到全局的关键词汇分区集合。

针对具体目标物的评论,对获得的关键词统计频度,并为每一个关键词计算平均频度值如下:关键词wi的平均频度

然后根据关键词的平均频度值,对关键词汇分类,得到全局的关键词汇分区集合。

在本实施例中,利用Pareto法则,根据关键词的平均频度值,绘制全局ABC分析表,请参考表1,其中,全局关键词集合为W={w1,w2,…,wh};其中p、q、l、m为正整数。

表一

其中,基本热点分析(A区分析):如在某个时间段局部A区中有新的关键词Wi出现,说明Wi成为买家消费的基本关注特性,反之如某全局A区的关键词Wj未包含在该时段局部A区关键词中,则说明Wj不是买家消费在该时段的基本关注点。

可选热点分析(B区分析):如在某个时间段局部B区中有新的关键词Wi出现,说明Wi成为买家消费的可选关注特性:如该关键词Wi为原全局A区关键词,则说明买家对Wi的关注度在下降,如该关键词Wi为原全局C区关键词,说明买家对Wi的关注度上升。如某全局B区的关键词Wj未包含在该时段局部B区关键词中,则说明Wj不是买家消费在该时段的可选关注点:如Wj为局部A区关键词,则说明买家对Wj的关注度在上升,如Wj为局部C区关键词,说明买家对Wj的关注度在下降。

潜在热点分析(C区分析):如在某个时间段局部C区中有新的关键词Wi出现,而且Wi并不存在于全局A、B、C三区关键词集合中,则说明Wi成为买家消费的潜在热点。

A、B、C三区的频度阈值可分别设置为:>=80%,>=15%且<80%,>=10%且<15%,根据关键词平均频度值与频度阈值比较得到全局A、B、C三区关键词集合。考虑到部分评论为垃圾评论,A区的阈值不宜设置过高。在应用时可根据不同领域垃圾评论发生比例,为不同领域设置不同的A区阈值。

在其他实施例中,所述频度阈值的设定也可以为其他值,所分布的区域数量也可以不同。

在其他实施例中,也可以采用分类方法,根据关键词的平均频度值,对关键词汇分类,得到全局的关键词汇分区集合。

执行步骤S104,按时间分段进行统计分析,记录局部的关键词汇分区集合。

对这些关键词汇,按时间分段进行统计分析,通过对不同时段(如每周、每月、每季度、每年)的相关评价进行分段统计分析,记录各个时间段内的局部A、B、C三区关键词,分区的方法与步骤S103的方法类似。

在其他实施例中,所述步骤S104和步骤S103可以互换。

执行步骤S105,根据全局的关键词汇分区集合和局部的关键词汇分区集合的变化信息,得出评论信息的兴趣点转移情况。

设全局关键词W={w1,w2,…,wh},在某个实施例中,获得的全局关键词分区为:

全局A区:{w1,w2,w3},全局B区:{w4,w5,w6,w7,w8},全局C区:{w9,w10}

在某一个时间段内(如2013年第二季度)的局部关键词分区为:

2013Q2局部A区:{w1,w2,w5},2013Q2局部B区:{w3,w4,w6,w7,w8},2013Q2局部C区:{w9,w10,w11}

关键词w3从全局A区转移到2013Q2局部B区,表明在2013Q2时间段内买家对w3的关注度在下降;关键词w5从全局B区转移到2013Q2局部A区,表明在2013Q2时间段内买家对w5的关注度在上升;在2013Q2局部C区中出现新的关键词w11,表明w11为2013Q2时间段内的潜在热点。

据此,本发明实施例还提供一种基于评论中心词时序变化分析的消费热点追踪装置,请参考图2,包括:

评论词汇抓取模块10,获取目标商品的评论信息对应的词汇集;

关键词汇提取模块20,获取具体目标商品评论中词汇的单次频度和重复频度,产生全局关键词汇集合;

全局关键词汇统计模块30,根据关键词的平均频度值,对关键词汇分类,得到全局的关键词汇分区集合;

局部关键词汇统计模块40,按时间分段进行统计分析,记录局部的关键词汇分区集合;

热点比较模块50,根据全局的关键词汇分区集合和局部的关键词汇分区集合的变化信息,得出评论信息的兴趣点转移情况。

所述评论词汇抓取模块10首先获取电商平台中对应领域的评论信息,通过自动分词的方式或人工分词的方式对所有的评论信息进行分词,然后通过算法或人工判定,根据词性简单过滤掉无关的连接词,获取目标商品的评论信息对应的词汇集。

所述关键词汇提取模块20利用单次频度计算该词汇的相对信息量,利用重复频度计算该词汇的密度,利用词语的相对信息量和密度,计算该词语的权重值,并以键值对的形式(关键词,权重值)表示,并按照权重值的大小进行键值对排序,忽略掉键值对中权重值较小的键值对,列出全局关键词汇集合。

当通过全局关键词汇统计模块30,和局部关键词汇统计模块40获得全局的关键词汇分区集合和局部的关键词汇分区集合的变化信息,利用热点比较模块50,根据全局的关键词汇分区集合和局部的关键词汇分区集合的变化信息,通过比较分区集合关键词的变化,是否有增减,从海量的电商评论数据中,结合自然语言处理技术以及统计概率方法,发现并跟踪买家对各类商品的消费热点,从而帮助卖家更有针对性地提供满足买家消费需求的商品,为买家提供更为专业的购物指导。

在本发明所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:本发明虽然以较佳实施例公开如上,但其并不是用来限定本发明,任何本领域技术人员在不脱离本发明的精神和范围内,都可以做出可能的变动和修改,因此本发明的保护范围应当以本发明权利要求所界定的范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号