首页> 中国专利> 基于领域信息的半监督方面自动提取方法及其系统

基于领域信息的半监督方面自动提取方法及其系统

摘要

本发明公开了一种基于领域信息的半监督方面自动提取方法,包括:网络信息爬取、信息预处理、关键词提取、评论文档重组和细粒度的标记LDA学习;本发明还公开了一种基于领域信息的半监督方面自动提取系统,包括:网络信息爬取模块、信息预处理模块、关键词提取模块、评论文档重组模块和细粒度的标记LDA学习模块。本发明可以使得提取出来的商品各个方面的描述更加明确、方面之间的区别更加清晰;另外,本发明生成的方面结构(顺序和内容)能与预先定义在种子词集中的商品方面结构保持一致,从而,本发明具有能有效地将消费者描述同一商品方面的不同用语进行语义聚类,并可以在对商品进行观点挖掘时减少人工干预等优点。

著录项

  • 公开/公告号CN103903164A

    专利类型发明专利

  • 公开/公告日2014-07-02

    原文格式PDF

  • 申请/专利权人 华南理工大学;

    申请/专利号CN201410114328.6

  • 发明设计人 蔡毅;王涛;梁浩锋;闵华清;

    申请日2014-03-25

  • 分类号G06Q30/02(20120101);G06F17/30(20060101);

  • 代理机构44245 广州市华学知识产权代理有限公司;

  • 代理人蔡茂略

  • 地址 510640 广东省广州市天河区五山路381号

  • 入库时间 2023-12-17 00:01:10

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-06-06

    授权

    授权

  • 2014-07-30

    实质审查的生效 IPC(主分类):G06Q30/02 申请日:20140325

    实质审查的生效

  • 2014-07-02

    公开

    公开

说明书

技术领域

本发明涉及一种商品观点挖掘技术,特别涉及一种基于领域信息的半监督 方面自动提取方法及其系统。

背景技术

随着电子商务的日益普及,越来越多的消费者都选择在网上购买商品和服 务,尤其是近几年的蓬勃发展,不同模式(B2B、B2C、C3C等)、不同领域的各 类型电子商务网站不断涌现,竞争不断加剧,用户需求也不断提高。生产和销 售厂商总是试图及时获取公众或消费者对它们产品和服务的评价观点以提升产 品质量及销量;而潜在的消费者在享受一种服务或购买一种产品之前,也想知 道当前消费者的评价观点,以便选择真正适合自身的产品。通过对网络上大量 的消费者评论反馈进行自动化的观点挖掘有助于解决上述问题,自动化的观点 挖掘有以下三个方面的优势:首先,该方法总结的结果可以避免用手工阅卷中 公司的人员变动使得评价结果出现不一致的现象。其次,该类系统可以近实时 地从网上吸收大量的信息进行分析,这使得调查成本相对较低。第三,观点挖 掘系统还可以处理多种语言的文档,这在传统方法中,对于一般人员是很难达 到掌握多种语言的要求。然而,在当前主流的观点挖掘框架中,对于商品方面 的提取往往是整个框架的瓶颈,因为该步骤需要将描述相同商品方面的不同用 语进行语义归类。此问题是目前该领域的一个研究热点。

当前商品方面提取的方法主要有:基于频繁字符串和基于主题模型(topic  model)的挖掘算法。前者的主要不足是不能将描述同一商品方面的语义相关的 用语进行归类,这导致该类方法无法用一种有结构的方式帮助用户快速、直观 地了解商品的各个方面特征;对于后者,大部分方法采用的是无监督式的学习 方式,这导致了以下的缺点与不足:

1.模型生成方面的粒度和分类标准可能与人的认知习惯相悖,使得结果难 以被理解。

2.无监督模型每次生成的方面序列不能保持一个稳定的结构,导致难以在 自动化的分析算法中应用。

3.由于大部分评论都包含相同或相似的商品方面,这将使得基于单词共现 性原理的主题模型方法难以将各个相关但不同的方面清晰地加以区分。

因此,为了更有效地从商品评论中提取商品方面,需要引入一些先验知识 来监督主题模型的学习过程,使得模型提取出来的商品方面分类更加清晰、更 好地满足人们的认知习惯、并以一种较稳定的结构输出。

发明内容

本发明的首要目的在于克服现有技术的缺点与不足,提供一种基于领域信 息的半监督方面自动提取方法,该方法通过同时在文档层次和词层次对LDA模 型进行标记学习,可以使得提取出来的各个商品方面的相关的信息描述得更加 明确,方面之间的区别更加清晰。

本发明的另一目的在于克服现有技术的缺点与不足,提供一种基于领域信 息的半监督方面自动提取系统,该系统能与预先定义的方面种子词的结构保持 一致,从而有效地将消费者描述同一商品方面的不同用语进行语义聚类,并可 以在对商品进行观点挖掘时减少人工干预。

本发明的首要目的通过下述技术方案实现:基于领域信息的半监督方面自 动提取方法,包括:

网络信息爬取,从电子商务网站上爬取消费者对于关注商品的评论,以及 电子商务网站中对于商品半结构化的商品细节描述信息;

信息预处理,将爬取到的评论进行分词、词性标注和去除停顿词处理,并 提取评论中的特征单词;

关键词提取,从电子商务网站中半结构化的商品细节描述信息中提取每个 方面类别的关键词作为半监督主题模型的种子词集,获取由电商网站中的专业 领域定义的或符合人们认知习惯的商品方面分类作为半监督方法的先验知识;

评论文档重组,将评论中各个句子利用提取的所述关键词进行标记,然后 将含有相同关键词的句子重新组合成新的文档,得到主题鲜明、共现商品方面 较少的学习文档;

细粒度的标记LDA学习,通过半监督的LDA主题模型识别评论中的产品 特征,将所述的产品特征的属于同一方面的特征进行归类;所述半监督的LDA 主题模型是通过加入方面-词的约束关系来监督模型生成更加易于理解、清晰的 分类,并获得顺序和种子词集中定义相一致的商品方面集;所述的方面-词的约 束关系是指在评论中,关键词具有特定的方面倾向,如:“LCD”更多的是用来 描述“屏幕”方面;

其中,所述方面类别ci中的第j个细节描述短语pi,j中的关键词wt的定义为以 下三种定义中的任意一种定义:

第一种定义:wmpi,j,mt,TFIDFm,i<TFIDFt,i;

第二种定义:wmpi,j,mt(TFIDFm,i=TFIDFt,i)(TFm,i<TFt,i);

第三种定义:wmpi,j,TFIDFt,i=1;

式中,TFIDFm,i表示单词wt在ci中的TFIDF(term frequency–inverse document  frequency)值,TFt,i表示单词wt在ci中的词频(term frequency),DF表示单词wt在 所有方面类别中的总词频。

所述的细粒度的标记LDA学习包括以下步骤:

(5a)利用种子词集初始化词-主题相关性变量相关性变量的设置表 达式如下:

ρkw=λ(1+ϵkw)+(1-λ),γkw=1,1,γkw=0,

其中,表示单词w在种子方面集sk的词频,λ是松弛因子,所述松弛因子 用于控制的影响强度,表示单词w是否种子方面集sk的指示函数,如果字 符w属于种子方面集sk,则为1,否则为0,指示函数的定义如下:

式中,sk表示种子方面集;

(5b)初始化狄利克雷(Dirichlet)先验概率参数:对于文档d的文档-方面 狄利克雷先验参数αd

αd=α×γld,

其中,α=(α1,…,αk),αi=50/K+Δi,K是种子方面的个数,Δi是[0,5]之 间的随机数,对于种子词的方面–词的狄利克雷先验参数 βs=0.5;对于普通词的方面-词的狄利克雷先验参数βg=0.1;

(5c)初始化后验概率随机初始化单词在方面变量上的分 布Z;

(5d)采用吉布斯采样方法估计概率P(w,z|α,β,γ)的值,所述概率 P(w,z|α,β,γ)的计算公式如下:

P(w,z|α,β,γ)=ρkwin-i,kwi+βsn-i,k(·)+sn-i,kd+αdn-i(·)d+d,wiS,n-i,kwi+βgn-i,k(·)+gn-i,kd+αdn-i(·)d+d,wiS,

式中,是单词wi与种子方面sk的相关性,αd是文档d的狄利克雷先验参 数,V是单词的数目,K表示方面的个数,即种子集中方面的个数,βs是种子 词的狄利克雷先验参数,βg是普通词的狄利克雷先验参数,表示单词wi在 方面zk的出现数目减去wi出现的数目,表示文档d中的单词出现在方面zk的 次数减去wi出现的数目,表示所有单词在方面zk的出现数目减去wi出现的 数目,表示文档d中的单词出现在所有方面的次数减去wi出现的数目;

(5e)根据分布变量Z,计算后验概率,所述后验概率包括和

所述的计算公式如下:

θkd=n-i,kd+αdn-i(·)d+d,

式中,表示方面k在文档d中的概率;

所述的计算公式如下:

式中,表示单词wi属于方面k的概率。

所述的评论文档重组包括以下步骤:

(4a)将评论拆分为句子,并对包含了细节描述或种子词的句子,使用细 节描述短语和种子词进行标记,如果某个句子同时包含了单词ti和tj,当tj为ti的 字串时,该句子只会被标记为ti

(4b)将包含了相同字符串标记的句子重新组合成新的文档。

所述的网络信息爬取包括以下步骤:

(1a)利用Scrapy爬虫引擎打开一个域名,定位出处理该域名的蜘蛛,所 述的蜘蛛指用户自定义的类,用于从解析回应、提取网页中相应的项或者提取 出特定的URL用于后续爬取,Scrapy爬虫引擎再请求蜘蛛提供种子URL;

(1b)引擎从蜘蛛获取种子URL,再包装为请求在调度器中进行调度,引 擎从调度器获取下一个待爬取的请求;

(1c)调度器将下一个待爬取的请求返回给引擎,然后引擎将它们发送到 下载器;

(1d)当网页被下载器下载完成以后,把响应内容发送到引擎;

(1e)引擎在收到下载器的响应内容后,将响应内容发送到蜘蛛进行处理;

(1f)蜘蛛处理响应内容并返回爬取到的项,然后给引擎发送新的请求;

(1g)引擎将抓取到的项放入项目流水线,并向调度器发送请求。

(1h)重复执行步骤(1b)至(1g),直到调度器中所有请求都完成为止, 最后断开引擎与域之间的联系。

所述的信息预处理包括以下步骤:

(2a)对于英文,首先将所有字符转换为小写,再将所有评论进行分词及 词性标注;对于中文,直接对评论进行分词及词性标注;

(2b)对于英文,去除停顿词、包含数字和URL的字符串,再将所有单词 进行词干化以得到单词原型,最后提取词性为名词或名词短语的单词作为评论 文档的特征词;对于中文,直接提取词性为名词或名词短语的单词作为评论文 档的特征词;

所述的关键词提取包括以下步骤:

(3a)对于每一个商品细节描述短语进行分词、去除数字、标点符号和停顿 词处理;

(3b)遍历所有细节描述短语中的各个单词,计算出每个单词wm在各个方面 类别ci中的词频、TFIDF值,并记录下每个类别ci中的最大词频和TFIDF值;

(3c)遍历每个商品方面ci中每个描述短语pi,j中各个单词wt,判断wt是否是 pi,j中拥有最大TFIDF值的词且pi,j中只有唯一的单词拥有最大的TFIDF值,如 果是,则将wt加入到方面ci的种子词集si;否则,判断wt是否是pi,j中拥有最大 TF值的词且pi,j中只有唯一的单词拥有最大的TF值,如果是,则将wt加入到方 面ci的种子词集si;否则,判断wt的TFIDF值是否等于1,如果是,则将wt加入 到方面cx的种子词集si;否则,将wt排除在方面ci的种子词集si之外。

本发明的另一目的通过下述技术方案实现:基于领域信息的半监督方面自 动提取系统,包括:

网络信息爬取模块,用于从电子商务网站上爬取消费者对于关注商品的评 论,以及电子商务网站中对于商品的半结构化的商品细节描述信息;

信息预处理模块,用于将爬取到的评论进行分词、词性标注、去除停顿词, 提取评论中的特征单词;

关键词提取模块,用于从电子商务网站中半结构的商品细节描述信息中提 取每个方面类别的关键词作为半监督主题模型的种子词集,获取由电商网站中 的专业领域定义的或符合人们认知习惯的商品方面分类作为半监督方法的先验 知识;

评论文档重组模块,用于将评论中各个句子利用提取的所述关键词进行标 记,然后将含有相同关键词的句子重新组合成新的文档,得到主题鲜明、共现 商品方面较少的学习文档;

细粒度的标记LDA学习模块,用于通过半监督的LDA主题模型识别评论 中的产品特征并将所述的产品特征的属于同一方面的特征进行归类;所述半监 督的LDA主题模型是通过加入方面-词的约束关系来监督模型生成更加易于理 解、清晰的分类,并获得顺序和种子词集中定义相一致的商品方面集;所述的 方面-词的约束关系是指在评论中,关键词具有特定的方面倾向,如:“LCD”更 多的是用来描述“屏幕”方面;

其中,所述方面类别ci中的第j个细节描述短语pi,j中的关键词wt的定义为以 下三种定义中的任意一种定义:

第一种定义:wmpi,j,mt,TFIDFm,i<TFIDFt,i;

第二种定义:wmpi,j,mt(TFIDFm,i=TFIDFt,i)(TFm,i<TFt,i);

第三种定义:wmpi,j,TFIDFt,i=1;

式中,TFIDFm,i表示单词wt在ci中的TFIDF(term frequency–inverse document  frequency)值,TFt,i表示单词wt在ci中的词频(term frequency),DF表示单词wt在 所有方面类别中的总词频。

所述的细粒度的标记LDA学习模块具体用于:

利用种子词集初始化词-主题相关性变量所述相关性变量的设置表达 式如下:

ρkw=λ(1+ϵkw)+(1-λ),γkw=1,1,γkw=0,

其中,表示单词w在种子方面集sk的词频,λ是松弛因子用于控制的影 响强度,表示单词w是否种子方面集sk的指示函数,如果字符w属于种子方 面集sk,则为1,否则为0,指示函数的定义如下:

式中,sk表示种子方面集;

初始化狄利克雷(Dirichlet)先验概率参数,对于文档d的文档-方面狄利克 雷先验参数其中α=(α1,…,αk),αi=50/K+Δi,K是种子方面 的个数,Δi是[0,5]之间的随机数,对于种子词的方面–词的 狄利克雷先验参数βs=0.5;对于普通词的方面-词的狄利克雷先验参数βg=0.1;

初始化后验概率随机初始化单词在方面变量上的分布Z;

采用吉布斯采样方法估计概率P(w,z|α,β,γ)的值,所述概率P(w,z|α,β,γ)的计 算公式如下:

P(w,z|α,β,γ)=ρkwin-i,kwi+βsn-i,k(·)+sn-i,kd+αdn-i(·)d+d,wiS,n-i,kwi+βgn-i,k(·)+gn-i,kd+αdn-i(·)d+d,wiS,

其中,是单词wi与种子方面sk的相关性,αd是文档d的狄利克雷先验 参数,V是单词的数目,K表示方面的个数,即种子集中方面的个数,βs是种 子词的狄利克雷先验参数,βg是普通词的狄利克雷先验参数,表示单词wi在 方面zk的出现数目减去wi出现的数目,表示文档d中的单词出现在方面zk的 次数减去wi出现的数目,表示所有单词在方面zk的出现数目减去wi出现的 数目,表示文档d中的单词出现在所有方面的次数减去wi出现的数目;

根据分布变量Z,计算后验概率,所述后验概率包括和

所述的计算公式如下:

θkd=n-i,kd+αdn-i(·)d+d,

式中,表示方面k在文档d中的概率;

所述的计算公式如下:

式中,表示单词wi属于方面k的概率。

所述的评论文档重组模块具体用于:

将评论拆分为句子,并对包含了细节描述或种子词的句子使用细节描述短 语和种子词进行标记,如果某个句子同时包含了单词ti和tj,当tj为ti的字串时, 该句子只会被标记为ti

将包含了相同字符串标记的句子重新组合成新的文档。

所述的网络信息爬取模块具体用于:

利用Scrapy爬虫引擎打开一个域名,定位出处理该域名的蜘蛛,再请求蜘 蛛提供种子URL,所述的蜘蛛指用户自定义的类,用于从解析回应、提取网页 中相应的项或者提取出特定的URL用于后续爬取;

引擎从蜘蛛获取种子URL,再包装为请求在调度器中进行调度,最后引擎 从调度器获取下一个待爬取的请求;

调度器将下一个待爬取的请求返回给引擎,然后引擎将它们发送到下载器;

当网页被下载器下载完成以后,把响应内容发送到引擎;

引擎在收到下载器的响应内容后,将响应内容发送到蜘蛛进行处理;

蜘蛛处理响应内容并返回爬取到的项,然后给引擎发送新的请求;

引擎将抓取到的项放入项目流水线并向调度器发送请求;

依次重复执行

引擎蜘蛛获取种子URL,再包装为请求在调度器中进行调度,引擎从调度 器获取下一个待爬取的请求;

调度器将下一个待爬取的请求返回给引擎,然后引擎将它们发送到下载器;

当网页被下载器下载完成以后,把响应内容发送到引擎;

引擎在收到下载器的响应内容后,将响应内容发送到蜘蛛进行处理;

蜘蛛处理响应内容并返回爬取到的项,然后给引擎发送新的请求;以及

引擎将抓取到的项放入项目流水线并向调度器发送请求,直到调度器中所 有请求都完成为止,最后断开引擎与域之间联系。

所述的信息预处理模块具体用于:

对于英文,首先将所有字符转换为小写,再将所有评论进行分词及词性标 注;对于中文,直接对评论进行分词及词性标注;

对于英文,去除停顿词、包含数字和URL的字符串,再将所有单词进行词 干化以得到单词原型,最后提取词性为名词或名词短语的单词作为评论文档的 特征词;对于中文,直接提取词性为名词或名词短语的单词作为评论文档的特 征词;

所述的关键词提取模块具体用于:

对于每一个商品细节描述短语进行分词、去除数字、标点符号和停顿词处 理;

遍历所有细节描述短语中的各个单词,计算出每个单词wm在各个方面类别 ci中的词频、TFIDF值,并记录下每个类别ci中的最大词频和TFIDF值;

遍历每个商品方面ci中每个描述短语pi,j中各个单词wt,判断wt是否是pi,j中 拥有最大TFIDF值的词且pi,j中只有唯一的单词拥有最大的TFIDF值,如果是, 则将wt加入到方面ci的种子词集si;否则,判断wt是否是pi,j中拥有最大TF值的 词且pi,j中只有唯一的单词拥有最大的TF值,如果是,则将wt加入到方面ci的种 子词集si;否则,判断wt的TFIDF值是否等于1,如果是,则将wt加入到方面ci的种 子词集si;否则,将wt排除在方面ci的种子词集si之外。

本发明的工作原理:本发明是一种基于领域信息的半监督商品方面(Aspect) 提取方法,方法利用电子商务网站中半结构化的商品描述信息中提取商品各个 描述方面的关键词,将其作为半监督主题模型的种子词引导模型的方面提取和 归类。通过同时在文档层次和词层次对LDA模型进行标记学习,可以使得提取 出来的商品各个方面的描述更加明确、方面之间的区别更加清晰。另外,本发 明生成的方面结构(顺序和内容)能与预先定义在种子词集中的商品方面结构 保持一致,从而有效地将消费者描述同一商品方面的不同用语进行语义聚类, 并可以在对商品进行观点挖掘时减少人工干预。由于关于某一商品的评论集是 一个确定领域的语料库,评论中有些词语含有确定的方面类别,如:“LCD”在 相机评论中更多的是描述相机的屏幕而不是电池。因此,本发明利用少许方面 种子词来对主题模型进行标记,使其能够生成接近人们认知习惯的产品方面分 类;为避免现有方法中人工标注种子词,并增加方法在海量商品处理的可行性, 本发明利用电子商务网站上半结构化的描述信息中提取各个方面类别的种子词, 并在主题模型加入种子词的“方面—词”分布标记以产生与种子词集结构一致 的方面;另外,通过将含有相同种子词的句子组合成一个新的文档作为主题模 型的输入文件,获得主题鲜明并且具有充足共现上下文的学习文档,减少各个 不同方面的共现频率以提高模型生成出的各个方面之间的区分度;在模型设计 方面,本发明通过加入种子词的方面-词相关权重信息,使得模型能够生产与种 子集方面内容及顺序保持一致的方面分类,并可在实际自动化的应用中省去人 工鉴别工作。

本发明相对于现有技术具有如下的优点及效果:

1、本发明利用电子商务网站上半结构化的商品细节描述信息提取方面分类 并通过自动的提取算法获得相应的种子词,避免了传统半监督方法的人工标注。

2、本发明通过文档重组过程减轻了主题模型在评论语料库中常见的两个问 题:原始评论级别上文档的方面分布高度相似以及在句子级别上共现上下文不 充足的问题。重组后的文档拥有更集中的方面分布以及较充足的共现上下文, 能够更好地发挥主题模型的性能。

3、本发明采用一种细粒度的标记主题模型,通过利用种子词在词级别对主 题模型进行监督,使其能够生成和种子集中定义保持一致的方面类别及次序。 从而,减少了在实际应用中,人工对各个方面进行鉴别。

附图说明

图1为本发明的总体结构图。

图2为本发明的总体流程图。

图3为细粒度的标记LDA模型的贝叶斯图模型图。

图4为细粒度的标记LDA模型的后验概率计算流程。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方 式不限于此。

实施例

如图1所示的总体结构图和图2所示的总体数据流程图,一种基于领域信 息的半监督方面自动提取方法,包括:

网络信息爬取,从电子商务网站上爬取消费者对于关注商品的评论,以及 电子商务网站中对于商品的半结构化的商品细节描述信息。

信息预处理,将爬取到的评论进行分词、词性标注、去除停顿词,提取评 论中的特征单词。

关键词提取,从电子商务网站中半结构的商品细节描述信息中提取每个方 面的关键词作为半监督主题模型的种子词集,获取由电商网站中的领域专家定 义的、符合人认知习惯的商品方面分类作为半监督方法的先验知识。

其中,方面类别ci中的第j个细节描述短语pi,j中的关键词wt的定义为以下任 意一种:

1、wmpi,j,mt,TFIDFm,i<TFIDFt,i;

2、wmpi,j,mt(TFIDFm,i=TFIDFt,i)(TFm,i<TFt,i);

3、wmpi,j,TFIDFt,i=1;

TFIDFm,i表示单词wt在ci中的TFIDF(term frequency–inverse document  frequency)值,TFt,i表示单词wt在ci中的词频(term frequency)。其中,DF表示 单词wt在所有方面类别中的总词频。

评论文档重组,将评论中各个句子利用上步提取的关键词进行标记,然后 将含有相同关键词的句子重新组合成新的文档,得到主题鲜明、共现商品方面 较少的学习文档。

细粒度的标记LDA学习,通过半监督的LDA主题模型识别评论中的产品 特征并将其属于同一方面的特征进行归类;所述半监督的主题模型是通过加入 方面-词的约束关系来监督模型生成更加易于理解、清晰的分类,并获得顺序和 种子词集中定义相一致的商品方面集;所述的方面-词的约束关系是指在评论中, 某些词具有特定的方面倾向,如:“LCD”更多的是描述“屏幕”方面。

下面对本发明提供的一种基于领域信息的半监督方面自动提取方法作详细 说明:

首先介绍本发明中网络信息爬取模块。利用爬虫引擎对商品的评论进行爬 取并进行结构化保存。利用商品名、型号等信息在含有半结构化商品描述信息 的电子商务网站,如ebay、newegg、京东等,将商品描述信息爬取下来。考虑 到很多页面使用AJAX技术来动态加载评论,本发明利用WebKit模拟用户的一 般浏览行为,并利用Scrapy爬虫框架进行信息的收集。数据流动由Scrapy内部 的引擎进行控制,数据处理流程为:1.引擎打开一个域名,定位出处理该域名的 蜘蛛(用户自定义的类,用于从解析回应、提取相应的项或者提取出特定的URL 用于后续爬取),然后请求蜘蛛提供种子URL;2.引擎从蜘蛛获取种子URL,然 后包装为请求在调度器中进行调度;3.引擎从调度器获取接下来进行爬取的请求; 4.调度器将下一个待爬取的请求返回给引擎,然后引擎将它们发送到下载器;5. 当网页被下载器下载完成以后,响应内容被发送到引擎;6.引擎在收到下载器的 响应后,将响应发送到蜘蛛进行处理;7.蜘蛛处理响应并返回爬取到的项,然后 给引擎发送新的请求;8.引擎将抓取到的项放入项目流水线,并向调度器发送请 求。重复第二步和后面的操作,调度器中所有请求都完成,然后断开引擎与域 之间的联系。

所述评信息预处理模块,首先将评论的文本利用分词工具进行分词和词性 标注。英文分词工具有:Stanford POS Tagger;中文分词工具有:中科院的 ICTCLAS、开源Java分词工具IKAnalyzer和开源python分词工具结巴分词等。

其中,对于英文,为降低文档词向量的维度,还需对不同语态形式的单词提取 词干(Stemming),常用的方法是Porter stemmer。最后,利用语言学中的停顿 词表将文本中的停顿词(stop word)去除。

所述关键词提取模块,首先对于每一个商品细节描述短语进行分词、去除数 字、标点符号和停顿词,对于英文类似于评论预处理模块,将其转化为小写, 然后进行分词、去停顿词并词干化;然后,遍历所有细节描述短语中的各个单 词,计算出每个单词wm在各个方面类别ci中的词频、TFIDF值,并记录下每个 类别ci中的最大词频和TFIDF值;最后,遍历每个商品方面ci中每个描述短语pi,j中各个单词wt,判断wt是否是pi,j中拥有最大TFIDF值的词且pi,j中只有唯一的 单词拥有最大的TFIDF值,如果是,则将wt加入到方面ci的种子词集si;否则, 判断wt是否是pi,j中拥有最大TF值的词且pi,j中只有唯一的单词拥有最大的TF 值,如果是,则将wt加入到方面ci的种子词集si;否则,判断wt的TFIDF值是 否等于1,如果是,则将将wt加入到方面ci的种子词集si;否则,将wt排除在方 面ci的种子词集si之外。

所述评论文档重组模块,首先,将评论拆分为句子,并对包含了细节描述 或种子词的句子,使用细节描述短语和种子词进行标记,如果某个句子同时包 含了单词ti和tj,当tj为ti的字串时,该句子只会被标记为ti;然后,将包含了 相同字符串标记的句子重新组合成新的文档。

如图3所示,为所述细粒度的标记LDA模型学习模块的基本流程。本发 明中的LDA模型利用吉布斯采样进行后验推导,采用的是3000次采样迭代以 及200次预模拟(burn-in)迭代。对于主题模型K是根据电子商务网站中细节 描述信息中方面的个数进行确定。对于文档-方面的狄利克雷先验αi=50//+ Δi,其中Δi是[0,5]之间的随机数。对于种子词的方面-词狄利克雷先验βs=0.5, 普通词的方面-词狄利克雷先验βs=0.1。对于种子词的方面-词相关权重中的松 弛因子λ=0.8。但本发明的实施方式及模型参数不限于此,可根据实际情况进 行参数调节。

如图4所示,为所述细粒度的标记LDA模型的后验概率计算流程。基于吉 布斯采样的模型推导算法详述如下:

变量定义:

设z为单词变量在方面变量上的分布;

设θ为模型中文档与方面的联合分布变量;

设为模型中单词与方面的联合分布变量(模型中种子词集S 和普通词集g中单词与方面的联合分布变量);

设α(αd)为θ的狄利克雷先验参数(在文档d中θ的狄利克雷先验参数);

设β(βs,βg)为的狄利克雷先验参数(在种子词集S和普通词集g中的 狄利克雷先验参数);

设是单词wi与种子方面sk的相关性;

设为种子词wi是否属于种子方面sk的指示函数;

设V是单词的数目;

设K表示方面的个数,即种子集中方面的个数;

设D表示预料库中所有文档的全集;

设N为文档d中词的总个数;

设S为种子词集;

设表示单词wi在方面zk的出现数目减去wi出现的数目;

设表示文档d中的单词出现在方面zk的次数减去wi出现的数目;

设表示所有单词在方面zk的出现数目减去wi出现的数目;

设表示文档d中的单词出现在所有方面的次数减去去wi出现的数目。

1、初始化:对于第m篇文档中第n个词的方面进行分配,zm,n初始化为[1,K] 之间的某个随机数k。根据文档标记l的方面类别初始化其中 α=(α1,…,αk),αi=50/K+Δi,K是种子方面的个数,Δi是[0,5]之间的随机数, 依次循环读入所有文档中的各个词,随机初始化各个词的方 面类别k,然后文档-方面计数矩阵“文档-所有方面”矩阵方面-词计数 矩阵以及“方面-所有词”矩阵都自增1,此为马尔可夫链的初始状态。

吉布斯采样:对语料库中所有文档中的所有词进行循环迭代采样,对于第m 篇文档中第n个词,首先获得上次采样时赋值的方面k;然后都 自减1并更新各个矩阵;接着根据公式:

P(w,z|α,β,γ)=ρkwin-i,kwi+βsn-i,k(·)+sn-i,kd+αdn-i(·)d+d,wiS,n-i,kwi+βgn-i,k(·)+gn-i,kd+αdn-i(·)d+d,wiS,

2、获得多项分布概率:该过程中,如果词w属于种子词,计算时需考虑方 面-词的相关权重采用上式中的第一个分式进行计算;如果w是普通词,则 采用上式中的第二分式进行计算。接着,获取马尔可夫链的下一个状态,随机 生成对于当前词的新方面分配最后四个矩阵的值都自增 1。

3、迭代收敛:迭代步骤2,采样前预模拟(burn-in)次迭代以便收敛到目 标分布函数,此时对于各个词采样出来的方面类别不更新后验概率和在 迭代数大于前预模拟后,采用下式对于各个词采样出的方面类别更新后验概率 值和

θkd=n-i,kd+αdn-i(·)d+d,

为获得分布的期望,需继续迭代预定的总迭代次数进行多次样本采样,并 以样本均值作为分布期望的近似值。

4、模型输出:当采样分布函数收敛或者预定的采样次数完成时,根据公式:

θkd=n-i,kd+αdn-i(·)d+d,

获得各个文档文档-方面分布,根据公式:

获得各个方面中方面-词的分布,每个方面中的概率最大的一些词就是该方 面中较典型的词。

本发明的目的是提取商品评论中商品的特征并将描述相同方面的消费者表 达用语进行归类。

上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实 施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、 替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号