法律状态公告日
法律状态信息
法律状态
2020-05-08
专利权人的姓名或者名称、地址的变更 IPC(主分类):G06F16/9535 变更前: 变更后: 申请日:20141010
专利权人的姓名或者名称、地址的变更
2019-03-01
授权
授权
2016-06-08
实质审查的生效 IPC(主分类):G06F17/30 申请日:20141010
实质审查的生效
2016-05-11
公开
公开
技术领域
本发明属于数据挖掘领域,尤其涉及一种基于评论文本和评分分析的信息推荐方法。
背景技术
推荐系统广泛用于在线广告投放、网络购物平台等Web应用领域。推荐系统通过发现用户喜好,帮助用户发现感兴趣的电影、音乐及各类商品;同时,也为在线广告、商品等更精确地锁定目标人群。公知的推荐方法主要有两种:基于内容过滤(content-basedfiltering)和协同过滤(collaborativefiltering)。其中,基于内容过滤的推荐方法根据用户已购商品的特征属性来推荐具有相似属性的商品。然而,该方法推荐的商品种类较为单一,且缺乏新意。协同过滤方法则按用户浏览、评价商品等行为,推荐具有相似偏好的用户购买或喜爱的商品。
随着互联网的发展,电子商务网站中出现大量用户评论信息。用户通过评论来表达自己对商品的评价,交流购物心得。一条评论由评分和评论文本组成,评论文本包含丰富的商品属性描述信息,可看作评分的依据。然而,公知的协同过滤方法并未利用评论文本进行推荐。另一方面,公知的评论分析方法涵盖了主题发现、情感分析和观点挖掘等领域,可通过分析评论文本来预测评分。Qu等(Procofthe23rdIntConfonComputationalLinguistics.ACL,2010:913-921)使用观点相关词表示一条评论,对观点描述的属性、阐述观点的形容词和否定词等进行训练得到一个预测评分的线性模型;Ganu等(12thIntWorkshopontheWebandDatabases.2009)对评分建模,得到输入为商品属性和对应观点正负性的评分预测公式。但这些方法只能分析出已有评论的评分,而无法预测用户对未评论商品的评分,因此不适用于推荐系统。
公知的结合评分和评论文本的推荐方法有McAuley等(Procofthe7thACMConfonRecommenderSystems.ACM,2013:165-172)提出的HFT(HiddenFactorsasTopics),即通过结合评分的隐藏因子和评论文本的评论主题产生商品/用户档案,并使用SVD模型预测评分。然而,该方法中评论文本每次只和商品/用户中的一个维度关联,也就是说评论主题只反映了影响评分的一个维度,另一维度则人为地与其保持一致。
因此,为了克服上述缺陷,本发明提出了一种基于评论文本和评分分析的信息推荐方法,以发现评分与评论文本间的潜在关系为出发点,挖掘评论文本中的评论主题以及评论在主题上的分布,并在此基础上生成用户档案和评论对象档案,从而预测用户对未评论对象的评分,显著增强了推荐信息与用户偏好之间的潜在关联。
发明内容
本发明提出了一种基于评论文本和评分分析的信息推荐方法,包括如下步骤:
步骤一:获得评论文本的集合,所述集合包括一个以上用户分别对于一个以上已评论对象做出的评论文本,从所述集合中挖掘得到每一条评论文本关于已评论对象的多个评论主题以及所述评论文本关于各评论主题的分布数据。步骤二:根据所述每一条评论文本的分布数据生成用户档案和评论对象档案;所述用户档案是指用户在各评论主题的分布数据,所述评论对象档案是指已评论对象在评论主题的分布数据。步骤三:建立评分预测模型,将所述评论文本的分布数据输入所述评分预测模型,直至所述评分预测模型输出的预测评分与用户在评论文本中做出的实际评分之间的差异在阈值内则停止输入,完成对所述评分预测模型的训练。步骤四:对于一个用户,根据所述用户的用户档案和评论对象档案估计所述用户的评论文本关于未评论对象的分布数据,向所述评分预测模型输入所述分布数据以预测所述用户关于未评论对象的评分,根据所述评分的高低向用户推荐所述未评论对象的信息。
本发明提出的所述基于评论文本和评分分析的信息推荐方法中,在所述步骤一中,使用LDA文本模型挖掘每一条评论文本的评论主题,并且使用LDA文本模型得到所述评论文本关于所述评论主题的分布数据。
本发明提出的所述基于评论文本和评分分析的信息推荐方法中,在所述步骤二中,所述用户档案以如下公式表示:
>
其中,pu表示用户u的用户档案,puj表示用户u在第j个评论主题上的分布数据,∑iθuij表示用户u对于已评论对象i的评论文本中关于第j个评论主题的分布数据的和,|Du|表示用户u的评论总数,p′uj表示用户u的评论文本中关于第j个评论主题的分布数据的均值,K表示评论主题的总数。
本发明提出的所述基于评论文本和评分分析的信息推荐方法中,在所述步骤二中,所述评论对象档案以如下公式表示:
>
其中,qi表示第j个已评论对象的评论对象档案,qij表示第i个已评论对象第j个评论主题上的分布数据,∑uθuij表示第i个已评论对象关于第j个评论主题的分布数据的和,|Dij|表示第i个已评论对象的评论总数,q′ij表示第i个已评论对象的评论文本中关于第j个评论主题的分布数据的均值,K表示评论主题的总数。
本发明提出的所述基于评论文本和评分分析的信息推荐方法中,在所述步骤三中,建立线性回归模型,用于表示分布数据和预测评分之间的关联,利用所述线性回归模型进行预测的评分以如下公式表示:
其中,θui表示用户u关于已评论对象i的评论文本的主题分布数据,
本发明提出的所述基于评论文本和评分分析的信息推荐方法中,在所述步骤三中,建立逻辑回归模型,用于表示分布数据和预测评分之间的多元关联,利用所述逻辑回归模型进行预测的评分以如下公式表示:
其中,θui表示用户u关于已评论对象i的评论文本的分主题布数据,βn=(βn1,βn2…,βnK)是
本发明提出的所述基于评论文本和评分分析的信息推荐方法中,在所述步骤四中,所述用户的评论文本关于未评论对象的分布数据以如下公式表示:
其中,θ′uij表示用户u与未评论对象i在第j个评论主题上的分布数据的乘积,puj表示用户u在第j个评论主题上的分布数据,qij表示未评论对象i第j个评论主题上的分布数据,
本发明提出的所述基于评论文本和评分分析的信息推荐方法中,所述步骤四进一步包括:对于推荐的所述未评论对象的信息做进一步衡量与筛选,从中获取更高相关程度的评论文本同时发送给用户。
本发明提出的所述基于评论文本和评分分析的信息推荐方法中,对于一个未评论对象,计算其评论文本中评论主题与所述未评论对象的相关程度,所述相关程度以如下公式表示:
>
其中,d(rui,i)表示评论主题与未评论对象i的相关程度,||θui-qi||2表示θui-qi的2-范数,即>那么>θui表示用户u关于未评论对象i的评论文本的分布数据,qi表示未评论对象i的评论对象档案
本发明的有益效果包括:
1、本发明通过挖掘评论文本从中发现隐含的评论主题。评论文本包含丰富的商品属性描述信息,并且包含用户的评论侧重点。这些特征信息即是隐含在评论文本的主题,本发明首次提出通过LDA文本模型对文本进行挖掘发现这些有意义的评论主题,弥补了公知的基于内容过滤和协同过滤的推荐方法并未利用评论文本信息的不足。
2、在同一主题空间上分别建立用户/评论对象档案,反映的用户喜好和已评论对象特征。本发明根据评论主题分布按用户/已评论对象分别生成两者的档案,用户/评论对象档案中涉及的主题一致,便于分析两者之间的关联程度,且通过为用户/已评论对象分开建立档案,能更客观地得到两者在各个主题上的分布。公知的HFT推荐方法只生成用户/已评论对象中的一个档案,并假设另一个档案与其相似,使得其中一个档案不能捕捉到用户/已评论对象的真实信息,无法达到本发明的相关程度。
3、挖掘评分与评论文本问的潜在关联,更准确地预测用户对未评论对象的评分。本发明通过对评论主题分布与预测评分之间的关系建模,得到每个主题之于评分的权重。在利用评论文本信息预测评分的同时,也由主题权重展现了每个主题对预测餐馆评分的重要性和影响程度,解释了评分产生原因。
附图说明
图1是本发明基于评论文本和评分分析的信息推荐方法的流程图。
体实施方式
结合以下具体实施例和附图,对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公知常识,本发明没有特别限制内容。
本发明基于评论文本和评分分析的信息推荐方法可应用于各类产品、餐馆的评论网站的数据分析中,通过挖掘用户做出的评论文本获取用户关于其中评论主题的分布数据,建立用户与已评论对象的关联,同时通过预测模型对用户未评论的产品、餐馆等对象进行预测评分,进一步推荐用户关注的同类产品。如图l所示,本发明基于评论文本和评分分析的信息推荐方法包括如下步骤:
步骤一:获得评论文本的集合,所述集合包括一个以上用户分别对于一个以上已评论对象做出的评论文本,从所述集合中挖掘得到每一条评论文本关于已评论对象的多个评论主题以及所述评论文本关于各评论主题的分布数据。步骤二:根据所述每一条评论文本的分布数据生成用户档案和评论对象档案;所述用户档案是指用户关于各评论主题的分布数据,所述评论对象档案是指已评论对象在评论主题的分布数据。步骤三:建立评分预测模型,将所述评论文本的分布数据输入所述评分预测模型,直至所述评分预测模型输出的预测评分与用户在评论文本中做出的实际评分之间的差异在阈值内则停止输入,完成对所述评分预测模型的训练。步骤四:对于一个用户,根据所述用户的用户档案和评论对象档案估计所述用户的评论文本关于未评论对象的分布数据,向所述评分预测模型输入所述分布数据以预测所述用户关于未评论对象的评分,根据所述评分的高低向用户推荐所述未评论对象的信息。
由于关于餐馆的评论文本通常隐含诸多评论主题,例如环境、服务、美食和价格等诸多方面,能够普遍被本发明的数据挖掘技术挖掘出多种隐含的评论主题。因此以下具体实施例就结合餐馆的评论文本进行分析和评分预测,并不意味本发明仅限于分析餐馆的评论文本,其他所有可做出评论文本的产品或服务均可被本发明方法分析。
首先获得评论文本的集合,集合包括一个以上用户分别对于一个以上已评论对象做出的评论文本,使用LDA(LatentDirichletAllocation)文本模型来挖掘评论文本的隐含主题和每条评论在主题上的分布。令dui表示用户u关于已评论对象(餐馆i)的一条评论文本,将评论文本的集合{dui}利用LDA文本模型进行挖掘从中发现K个隐含的评论主题。同时,利用LDA文本模型可获得评论文本dui在这K个主题上的分布值,即由K维向量θui=(θui1,θui2,…,θuiK)组成的分布数据。
本实施例以某一用户的评论文本为例,参见以下表1,一条评论文本包括该用户评论的餐馆、时间和文字内容。
表1用户评论实例
分析该集合中每一条评论文本的分布数据,从而分别生成用户档案和评论对象档案。其中令Du表示用户u做出的一组评论文本,Di为餐馆i得到的一组评论。利用评论文本Du为每个用户u建立一个用户档案pu,以及利用评论文本Di为每家餐馆i建立一个评论对象档案。以上两种档案可由一个K维向量来表示。对一个给定用户u,其用户档案pu以如下公式表示:
>
其中,pu表示用户u的用户档案,puj表示用户u在第j个评论主题上的分布数据,∑iθuij表示用户u对于已评论对象i的评论文本中关于第j个评论主题的分布数据的和,|Du|表示用户u的评论总数,p′uj表示用户u的评论文本中关于第j个评论主题的分布数据的均值,K表示评论主题的总数。
同样地,评论对象档案以如下公式表示:
>
其中,qi表示第i个已评论对象的评论对象档案,qij表示第i个已评论对象第j个评论主题上的分布数据,∑uθuij表示第i个已评论对象关于第j个评论主题的分布数据的和,|Di|表示第i个已评论对象的评论总数,q′ij表示第i个已评论对象的评论文本中关于第j个评论主题的分布数据的均值,K表示评论主题的总数。本实施例中设置LDA参数K为10,由LDA生成的K个主题及某一用户在主题上的分布数据,该用户的档案如表2所示。主题分布数据越大说明用户对该主题的重视度更高,由表2可得该用户对日式料理,以及餐馆的生意、服务和环境更为在意。
表2该用户的用户档案
本发明较佳实施例中,将用户档案和评论对象档案相结合,生成用户-评论对象档案(pu/pi档案),该档案是用户u和餐馆i所有评论主题分布的归一化均值。
在生成了用户档案和评论对象档案之后,建立评分预测模型。本具体实施例中分别使用线性回归模型(LinearRegressionmodel)和逻辑回归模型(LogisticRegressionmodel)用于为评论dui的主题分布θui与预测评分
利用线性回归模型进行预测的评分以如下公式表示:
其中,θui表示用户u关于已评论对象i的评论文本的主题分布数据,
逻辑回归模型用于表示分布数据和预测评分之间的多元关联,其假设评分以rui∈{1,2,…,N}表示,利用逻辑回归模型进行预测的评分以如下公式表示:
其中,θui表示用户u关于已评论对象i的评论文本的主题分布数据,βn=(βn1,βn2…,βnK)是
上述两种回归模型都由最大后验概率(maximumaposterior,MAP)估计得到主题的权重向量。表3是分别由线性回归模型和逻辑回归模型得到的主题权重。
表3由线性回归模型和逻辑回归模型得到的主题权重
最后,利用训练后的评分预测模型进行评分预测。给定一个用户u和一家该用户u未评论的餐馆i(即未评论对象)。首先根据用户/评论对象档案pu/pi估计用户u对餐馆i的评论主题的分布
其中,θ′uij表示用户u与未评论对象i在第j个评论主题上的分布数据的乘积,puj表示用户u在第j个评论主题上的分布数据,qij表示未评论对象i第j个评论主题上的分布数据,
然后,把
>
其中,d(rui,i)表示评论主题与未评论对象i的相关程度,||θui-qi||2表示θui-qi的2-范数,即>那么>θui表示用户u关于未评论对象i的评论文本的分布数据,qi表示未评论对象i的评论对象档案。
表4是使用训练逻辑回归模型得到的主题权重预测餐馆评分,推荐给该用户的前10家餐馆。
表4推荐给该用户的前10家餐馆
此外,由于一些热门餐馆往往具有上百或上千条评论,即存在信息过载以及存在较多冗余信息的问题,因此需要选择具有代表性的一组评论方便用户阅读以作参考。因此本发明较佳实施例中对于推荐的未评论对象的信息做进一步衡量与筛选,从中获取更高相关程度的评论文本同时发送给用户。
本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下,本领域技术人员能够想到的变化和优点都被包括在本发明中,并且以所附的权利要求书为保护范围。
机译: 基于观看者评论情感分析的节目评分预测方法和装置及系统
机译: 基于建筑评分矩阵和基于语音单元分析的语音识别PLU序列搜索最佳路径的实现语音输入到文本字符串转换系统的方法
机译: 基于评论文本分析海报心理转变的装置,程序和方法