首页> 中国专利> 一种对电商产品评论词汇的歧义消除方法及装置

一种对电商产品评论词汇的歧义消除方法及装置

摘要

本公开揭示了一种对电商产品评论的词义消歧方法及装置,该方法包括:获取历史评论文本,从中提取历史特征词和与之搭配的历史情感词;根据历史特征词与之对应的各历史情感词之间的同现关系,筛选出最频繁出现的历史特征词和历史情感词组合;根据最频繁出现的历史特征词和历史情感词组合生成历史特征词的义项标注;获取新评论文本,从中提取新特征词和对应的新情感词组合;根据新特征词和新情感词组合,查询与新特征词和新情感词组合匹配的历史特征词和历史情感词组合,将匹配的历史特征词的义项标注作为新特征词的词义。该技术方案实现了对产品评论词汇的词义分析和义项确定,从而在不同的评论上下文中准确判断出现在该语境的产品特征词的准确释义。

著录项

  • 公开/公告号CN107526721A

    专利类型发明专利

  • 公开/公告日2017-12-29

    原文格式PDF

  • 申请/专利权人 深圳美云智数科技有限公司;

    申请/专利号CN201710473766.5

  • 发明设计人 谷云松;黄侃;于英;

    申请日2017-06-21

  • 分类号G06F17/27(20060101);G06F17/30(20060101);

  • 代理机构44232 深圳市隆天联鼎知识产权代理有限公司;

  • 代理人刘抗美

  • 地址 528311 广东省佛山市顺德区北滘镇美的大道6号美的总部大楼D区7楼

  • 入库时间 2023-06-19 04:08:06

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-05-06

    专利权人的姓名或者名称、地址的变更 IPC(主分类):G06F40/30 专利号:ZL2017104737665 变更事项:专利权人 变更前:深圳美云智数科技有限公司 变更后:佛山美云智数科技有限公司 变更事项:地址 变更前:528311 广东省佛山市顺德区北滘镇美的大道6号美的总部大楼D区7楼 变更后:528200 广东省佛山市顺德区北滘镇北滘社区居民委员会工业大道美的全球创新中心5#厂房三层北面

    专利权人的姓名或者名称、地址的变更

  • 2020-07-10

    授权

    授权

  • 2018-01-26

    实质审查的生效 IPC(主分类):G06F17/27 申请日:20170621

    实质审查的生效

  • 2017-12-29

    公开

    公开

说明书

技术领域

本公开涉及自然语言处理技术领域,特别涉及一种对产品评论词汇的歧义消除方法及装置。

背景技术

一词多义是自然语言固有的特征。在用计算机做自然语言处理时,这种多义性给分析结果带来很大影响。研究发现,词项的具体涵义主要取决于上下文,即单词出现的语境是决定词义的要素。

基于统计学习的词义消歧技术以语料库为知识源,从标注或未标注语料中学习各种不同的词义特征。通过计算给定文本中词汇在上下文中的概率权重,选择具有最大概率权重的词义作为最佳结果输出,如贝叶斯分类器、最大熵分类法等。统计方法又分为有指导和无指导的两类。有指导的词义消歧模型需要事先对训练语料进行词义标注,而无指导的方法没有此要求。当前主流的机器学习方法,如决策树(Decision Tree)、支持向量机(Support Vector Machine,SVM)、最大熵(Maximum Entropy,ME)都可以用于统计词义消歧。下面以贝叶斯为例具体说明:

贝叶斯消歧方法将词语序列的上下文看作是一个无结构词集,通过对上下文窗口中众多词汇信息的整合来消除歧义。具体步骤是:首先需要一个语料库,在这个样本训练集中每个歧义词的出现都标记好其正确的语义,为消歧提供了一个统计分类的实例;然后构建分类器,根据上下文对新的歧义词进行分类,算法是:设以词w为中心的窗口大小为n,这个窗口中的词可表示成"w1,w2,...w1/2,...wn-1"的形式;同时设歧义词w有L个语义项"S1...Sl...SL",则贝叶斯法选取使P(w/s1w1...wn-1)(l=1...L)取最大值时词义Sl(l=1...L)为歧义词的最终语义。

电商平台的评论分析是广大消费者自有发言的公共区域,具有言论不规范、随机性大、主题发散等特点。这种不规范的语言环境给词义分析带来新的挑战,使得传统基于上下文相关的统计机器学习方法无法准确进行词义分析。

发明内容

为了解决相关技术中存在电商产品评论词汇的随机性大,词义判定不够准确问题,本公开提供了一种对产品评论词汇的词义消歧方法。

一方面,本公开提供了一种对产品评论词汇的歧义消除方法,该方法包括:

获取针对指定产品的历史评论文本,从所述历史评论文本中提取产品历史特征词和对应的历史情感词;

根据所述历史特征词与对应的各历史情感词之间的同现关系,筛选出最频繁出现的历史特征词和历史情感词组合;

根据最频繁出现的历史特征词和历史情感词组合生成所述历史特征词的义项标注;

获取针对指定产品输入的新评论文本,从所述新评论文本中提取产品新特征词和对应的新情感词组合;

根据所述新特征词和新情感词组合,查询与所述新特征词和新情感词组合匹配的历史特征词和历史情感词组合,将匹配的历史特征词的义项标注作为所述新特征词的词义。

另一方面,本公开还提供了一种对产品评论词汇的歧义消除装置,该装置包括:

词汇获取模块,用于获取针对指定产品的历史评论文本,从所述历史评论文本中提取产品历史特征词和对应的历史情感词;

词汇组合模块,用于根据所述历史特征词与对应的各历史情感词之间的同现关系,筛选出最频繁出现的历史特征词和历史情感词组合;

词义标注模块,用于根据最频繁出现的历史特征词和历史情感词组合生成所述历史特征词的义项标注;

词汇提取模块,用于获取针对指定产品输入的新评论文本,从所述新评论文本中提取产品新特征词和对应的新情感词组合;

匹配消歧模块,用于根据所述新特征词和新情感词组合,查询与所述新特征词和新情感词组合匹配的历史特征词和历史情感词组合,将匹配的历史特征词的义项标注作为所述新特征词的词义。

本公开的实施例提供的技术方案可以包括以下有益效果:

本公开提供的对产品评论词汇的歧义消除方法及装置,通过历史评论文本中历史特征词与对应的各历史情感词之间的同现关系,筛选出最频繁出现的历史特征词和历史情感词组合,然后根据组合对历史特征词进行义项标注,对于新评论文本中的新特征词和新情感词组合,通过特征词匹配,可以筛选出匹配的历史特征词和历史情感词组合,从而匹配的历史特征词的义项标注可以作为新特征词的词义,从而消除了新特征词的歧义。该方案以最常出现的搭配作为语境,实现了对产品评价词汇的词义分析和义项确定,引入情感词和特征词搭配的方式,从语法结构上进一步对语义选择做出筛选,从而在不同的评论上下文中准确判断出现在该语境中的产品特征词的准确释义。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并于说明书一起用于解释本发明的原理。

图1是根据本公开所涉及的实施环境的示意图;

图2是根据一示例性实施例示出的一种服务器的框图;

图3是根据一示例性实施例示出的一种对产品评论词汇的歧义消除方法的流程图;

图4是图3对应实施例的步骤310的细节的流程图;

图5是图3对应实施例的步骤320的细节的流程图;

图6是图5对应实施例的步骤322的细节的流程图;

图7是根据一示例性实施例示出的一种对产品评论词汇的歧义消除装置的框图;

图8是图7对应实施例的词汇组合模块的细节框图;

图9是图7对应实施例的关联挖掘单元的细节框图。

具体实施方式

这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据本公开所涉及的实施环境的示意图。该实施环境包括:至少一个移动终端110和服务器120。

移动终端110与服务器120之间的关联方式,包括硬件的网络关联方式和/或协议,以及二者之间往来的数据关联方式。移动终端110可以安装购物软件APP,移动终端110调用购物软件APP后可以在产品评论区域供用户输入对产品的评论文字,并将输入的评论文本上传至服务器120。服务器120具有数据存储和处理能力,服务器120接收评论文本后可以对评论文本进行分析处理,具体可以采用本公开提供的对产品评论词汇的歧义消除方法对评论文本进行分析处理,进而得到指定产品的评论词汇的词义。

参见图2,图2是本公开实施例提供的一种服务器结构示意图。该服务器200可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessing units,CPU)222(例如,一个或一个以上处理器)和存储器232,一个或一个以上存储应用程序242或数据244的存储介质230(例如一个或一个以上海量存储设备)。其中,存储器232和存储介质230可以是短暂存储或持久存储。存储在存储介质230的程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器222可以设置为与存储介质230通信,在服务器200上执行存储介质230中的一系列指令操作。服务器200还可以包括一个或一个以上电源226,一个或一个以上有线或无线网络接口250,一个或一个以上输入输出接口258,和/或,一个或一个以上操作系统241,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。下述图3-6所示实施例中所述的由服务器所执行的对产品评论词汇的歧义消除方法可以基于该图2所示的服务器结构。

图3是根据一示例性实施例示出的一种对产品评论词汇的歧义消除方法的流程图。本公开示例性实施例提供的对产品评论词汇的歧义消除方法的适用范围和执行主体,例如,该方法用于图1所示实施环境的服务器120。如图3所示,该歧义消除方法,可以由服务器120执行,可以包括以下步骤。

在步骤310中,获取针对指定产品的历史评论文本,从所述历史评论文本中提取产品历史特征词和对应的历史情感词;

具体的,服务器120可以部署爬虫系统,定向抓取从移动终端110上传的针对指定产品输入的历史产品评论文本。历史评论文本是相对下文的新评论文本而言的,是指在新评论文本产生之前已经接收的评论文本。以手机举例来说,评论文本可以是电池寿命很长、电池温度高、屏幕分辨率不高、摄像头像素很低、摄像头拍照不清晰等。

可选的,如图4所示,步骤310具体包括以下步骤:

在步骤311中,对所述历史评论文本进行分词操作,得到若干历史特征词和历史情感词;

其中,在获取历史评论文本后可以先对历史评论文本进行分词操作,具体的可以采用现有的分词算法,将历史评论文本的句子拆成一个个词汇。分词算法包括基于字典、词库匹配的分词方法;基于词频度统计的分词方法和基于知识理解的分词方法,在此不再赘述。在分词后,可以通过特征抽取的方法提取产品特征词,举例来说,“电池”、“寿命”、“屏幕”、“分辨率”等就是产品特征词,而“长”、“短”“高”、“低”、“不清晰”等就是情感词。历史特征词是指历史评论文本中出现的特征词,历史情感词是指历史评论文本中与历史特征词组合出现的情感词。之后,还可以进行去重,去噪,词性标注(名词、形容词的标注)、主题聚类、极性情感判断等文本处理工作。

在步骤312中,统计每个历史特征词和每个历史情感词在所述历史评论文本中的出现次数,计算每个历史特征词和每个历史情感词在所述历史评论文本中的支持度;

需要解释的是,很多词汇出现次数极少,甚至只出现过一次,为了减少样本词汇的数量,可以通过统计每个历史特征词和历史情感词出现的次数,滤除出现频率较低的历史特征词和历史情感词。

其中,支持度是指历史特征词或历史情感词出现的概率。通过统计历史特征词和历史情感词出现的次数,可以分别计算出历史特征词和历史情感词出现的概率。

在步骤313中,将所述历史特征词和历史情感词按支持度降序进行排列形成频繁项列表,根据设定的最小支持度阈值,筛选出支持度大于等于最小支持度阈值的历史特征词和历史情感词,分别写入特征词事务数据库和情感词事务数据库。

其中,可以人为设定最小支持度阈值,分别对历史特征词和历史情感词按照支持度进行降序排列,形成频繁项表,筛选出支持度大于等于最小支持度阈值的历史特征词和历史情感词,过滤掉支持度小于最小支持度阈值的历史特征词和历史情感词。将筛选后的特征词写入特征词事务数据库,将筛选后的情感词写入情感词事务数据库。

在步骤320中,根据所述历史特征词与对应的各历史情感词之间的同现关系,筛选出最频繁出现的历史特征词和历史情感词组合;

其中,根据历史评论文本的同一个句子中出现的特征词和情感词的同现关系,可以形成历史特征词和历史情感词组合,并可以通过构建频繁项集筛选出最频繁(最常)出现的历史特征词和历史情感词搭配,从语法关系上确定词汇的词义。

具体的,如图5所示,步骤320可以包括以下步骤:

在步骤321中,扫描所述特征词事务数据库,将所述历史特征词生成特征词频繁一项集;扫描所述情感词事务数据库,将所述历史情感词生成情感词频繁一项集;将所述历史特征词与所述历史情感词组合生成“历史特征词-历史情感词”频繁二项集;

需要说明的是,在经过上述预处理后,可以将历史特征词写入特征词事务数据库并将历史情感词写入情感词事务数据库中,从而通过扫描特征词事务数据库和情感词事务数据库可以分别生成特征词频繁一项集和情感词频繁一项集,通过将历史特征词的频繁一项集和历史情感词的频繁一项集组合生成频繁二项集。换句话说,以“特征词-情感词”形式组合生成频繁2-项集。一个产品特征词称为一个特征频繁项,一个情感词称为一个情感频繁项。其中,“产品特征词”为先决条件,“情感词”为相应的关联结果,用于表示数据内隐含的关联性。存在一个特征词与一个情感词组合,一个特征词与多个情感词组合,多个特征词与多个情感词分别组合三种情况,均按照搭配关系生成频繁2-项集。

在步骤322中,根据所述历史评论文本的频繁二项集中每个“历史特征词-历史情感词”组合出现的次数,利用关联规则挖掘算法筛选出最频繁出现的历史特征词和历史情感词组合。

其中,如图6所示,步骤322具体包括以下步骤:

在步骤3221中,将所述“历史情感词-历史特征词”频繁二项集作为候选项集,计算频繁二项集中每个组合的支持度;

为了便于描述,将历史特征词用X表示,将历史情感词用Y表示,支持度是指在所有组合中,{X,Y}出现的可能性,即所有项集中同时含有X和Y的概率。换句话说,就是某个组合出现的频繁度,也就是“出镜率”。出现次数多的,支持度大;出现次数少的,支持度小。通过设定支持度阈值,剔除支持度小于阈值的组合,简化后续的计算。

在步骤3222中,将频繁二项集中的每个组合按照支持度降序排序,将大于等于最小支持度阈值的组合构成频繁二项表;

具体的,可以根据频繁二项集中每个“历史情感词-历史特征词”组合出现的次数,计算每个组合的支持度,按照支持度降序排列各个组合,即支持度大的组合排前,支持度小的组合排后,滤除支持度小于阈值的“历史情感词-历史特征词”组合,将大于等于阈值的组合构成频繁二项表L。

在步骤3223中,创建FP-Growth树根节点null,根据所述频繁二项表,依次将每个“历史情感词-历史特征词”组合作为一个事务从表中抽出,与所述根节点结合,构成一个从根节点null->特征词->情感词的路径,通过路径对所述事务进行编码,并将路径上所有节点的频度计数为1,生成若干路径,形成频繁模式FP-Growth树;

具体的,根据频繁二项表L,创建频繁模式树(FP-树)的根结点,以“null”标记它。对于事务数据库D中每个事务(每个“历史情感词-历史特征词”组合),执行:选择事务中的频繁项对,并按L中的次序排序。设排序后的频繁项表为[p|P],其中,p是第一个元素,而P是剩余元素的表。调用insert_tree([p|P],T)。该过程执行情况如下。如果T有子女N使得N.item-name=p.item-name,则N的计数增加1;否则创建一个新结点N将其计数设置为1,链接到它的父结点T,并且通过结点链结构将其链接到具有相同item-name的结点。如果P非空,递归地调用insert_tree(P,N)。从而将频繁2-项集的数据库压缩到一棵频繁模式树,但仍保留项集关联信息。

在步骤3224中,根据所述频繁模式FP-Growth树,由频繁项表生成关联规则,得到所述历史特征词所关联的历史情感词共同构成的“历史特征词-历史情感词”的最频繁同现关系。

可选的,步骤3224具体包括:

计算所述频繁二项集中每个“历史情感词-历史特征词”组合的置信度;

需要说明的是,可以通过计算每个组合的置信度,滤除置信度较低的组合,简化后续的计算。置信度表示在先决条件“特征词”发生的条件下,关联结果“情感词”发生的概率,这是生成强关联规则的一个门槛,衡量了所考察的关联规则在“质”上的可靠性。其中,可以对置信度设定最小阈值来实现进一步筛选,剔除置信度小于最小阈值的组合。

根据每个“历史情感词-历史特征词”组合的支持度和置信度计算结果,对每个“历史情感词-历史特征词”组合构建条件模式基及条件FP-Growth树,遍历整个频繁二项集,直到FP-Growth树为空,或者FP-Growth树仅包含一条单一的路径;

将生成所述路径的所有子路径的组合中的每个组合作为一个频繁模式,即“历史特征词-历史情感词”的最频繁同现关系。

具体的,根据置信度和支持度筛选后的频繁二项集构建频繁二项集的条件模式基,对条件模式基构建频繁二项集的条件频繁模式树;根据条件频繁模式树的创建过程,对每个新创建的条件频繁模式树迭代上述过程;

根据所述条件频繁模式树迭代的生成过程,当条件频繁模式树结果为空时,或者所述条件频繁模式树仅包含一个单一的生成路径时,该路径将所有生成所述条件频繁模式树的子路径进行组合,每个组合都是一个频繁模式。

需要说明的是,FP-树建好后,就可以进行频繁项集的挖掘,挖掘算法可以为FP-Growth(Frequent Pattern Growth)算法,挖掘从表头的最后一个项开始,以此类推。调用FP_growth(FP_tree,null)实现频繁项集挖掘的过程实现如下:

FP_growth(Tree,α)

(1)if Tree含单个路径P then

(2)for路径P中结点的每个组合(记作β)

(3)产生模式β∪α,其支持度support=β中结点的最小支持度;

(4)else for each ai在Tree的头部(按照支持度由低到高顺序进行扫描){

(5)产生一个模式β=ai∪α,其支持度support=ai.support;

(6)构造β的条件模式基,然后构造β的条件FP-树Treeβ;

(8)调用FP_growth(Treeβ,β);}

进一步可选的,在进行频繁项集挖掘后,可以进一步对频繁项集中的项进行筛选。具体可以通过计算频繁项集中历史特征词与各历史情感词之间的相关度,如果相关度较低,表示历史特征词的出现独立于历史情感词,否则称历史特征词和历史情感词之间依赖,通过这种方式可以滤除相关度较低的情感词和特征词组合。由此可以生成相关规则形如{i1,i2,...,im},其中,项{i1,i2,...,im}的出现是相关的。

进一步的,可以计算频繁项集中每个频繁项对频繁项集的兴趣度,如果兴趣度高,表示频繁项集会促进频繁项的存在,若兴趣度为负值,且频繁项集会抑制频繁项的存在;若兴趣度为0,则频繁项集对频繁项无太大影响。其中,可信度是指频繁项集F与某项j的并集(即F U{j})的支持度与频繁项集F的支持度的比值。而兴趣度是指F U{j}的可信度与包含{j}的集合比率之间的差值。通过兴趣度的计算可以去除兴趣度较低的频繁项。通过兴趣度和相关度的计算可以排除不常见的历史特征词和历史情感词搭配,从而得到与历史特征词关联的历史情感词,利于后续正确做出语义判定,使精确度更高。

在步骤330中,根据最频繁出现的历史特征词和历史情感词组合生成所述历史特征词的义项标注。

其中,义项标注是指对历史特征词的多项词义进行标注。换句话说,根据历史特征词和历史情感词组合最经常出现的词语搭配,对历史特征词的不同词义进行标注。

需要解释的是,根据最频繁出现的历史特征词和历史情感词组合可以生成历史特征词的义类,将该义类作为词义消歧的搭配知识和统计数据;根据历史特征词所对应的义类生成语义词典,从而静态地描述了历史特征词的义项区分;根据历史特征词对应的历史情感词的搭配知识和统计数据生成语义标注语料库(即义项标注),动态地呈现了不同义项在真实上下文本中的使用状况。

在步骤340中,获取针对指定产品输入的新评论文本,从所述新评论文本中提取产品新特征词和对应的新情感词组合;

对于历史评论文本之后输入的新评论文本,可以从新评论文本中提取特征词和情感词,为了与历史评论文本中的特征词和情感词进行区分,新评论文本中的特征词和情感词分别成为新特征词和新情感词。新特征词和新情感词的提取方式可以参照上述历史特征词和历史情感词的提取方式,在此不再赘述。

在步骤350中,根据所述新特征词和新情感词组合,查询与所述新特征词和新情感词组合匹配的历史特征词和历史情感词组合,将匹配的历史特征词的义项标注作为所述新特征词的词义。

具体的,可以将历史评论根据历史特征词和历史情感词的最常同现关系的挖掘算法生成语义词典,将获取的新评论文本中的新特征词和新情感词,通过相似度匹配搜索,查询语义词典,查找与新特征词和新情感词组合匹配的历史特征词和历史情感器组合。其中,查找到的匹配的历史特征词和历史情感词组合中,历史特征词的词义作为新特征词的词义标注。

通过对国内主流电商平台的数据分析发现,针对商品评论的文本带有明显的情感色彩,且产品特征词比较聚焦,经常在评论中出现的特征词分布呈现明显的长尾效应。通过对评论文本做进一步分析发现,出现在这些特征词附近的修饰词也集中在一个范围里。由于语言本身受语法规约范式的约束,语法结构往往可以将词义框定在一定范围里,实现对多义词的初步筛选。将历史评论文本中出现的修饰词(情感词)进行词频统计生成频繁项集合,观察在这些项集中产品特征词的释义都集中在哪个语义下,将最常出现的语义作为该产品特征词最终的语义。

综上所述,本公开提供的对产品评论词汇的歧义消除方法,通过历史评论文本中历史特征词与对应的各历史情感词之间的同现关系,筛选出最频繁出现的历史特征词和历史情感词组合,然后根据组合对历史特征词进行义项标注,对于新评论文本中的新特征词和新情感词组合,通过特征词匹配,可以筛选出匹配的历史特征词和情感词组合,从而匹配的历史特征词的义项标注可以作为新特征词的词义,从而消除了新特征词的歧义。该方案以最常出现的搭配作为语境,实现了对产品评价词汇的词义分析和义项确定,引入情感词和特征词搭配的方式,从语法结构上进一步对语义选择做出筛选,从而在不同的评论上下文中准确判断出现在该语境中的产品特征词的准确释义。

下述为本公开装置实施例,可以用于执行本公开上述服务器120执行的对产品评论词汇的歧义消除方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开对产品评论词汇的歧义消除方法实施例。

图7是根据一示例性实施例示出的一种对产品评论词汇的歧义消除装置的框图,该对产品评论词汇的歧义消除装置可以用于图1所示实施环境的服务器120中,执行图3-图6任一所示的对产品评论词汇的歧义消除方法的全部或者部分步骤。如图7所示,该判定装置包括但不限于:词汇获取模块710、词汇组合模块720、词义标注模块730、词汇提取模块740以及匹配消歧模块750。

其中,词汇获取模块710,用于获取针对指定产品的历史评论文本,从所述历史评论文本中提取产品历史特征词和对应的历史情感词;

词汇组合模块720,用于根据所述历史特征词与对应的各历史情感词之间的同现关系,筛选出最频繁出现的历史特征词和历史情感词组合;

词义标注模块730,用于根据最频繁出现的历史特征词和历史情感词组合生成所述历史特征词的义项标注;

词汇提取模块740,用于获取针对指定产品输入的新评论文本,从所述新评论文本中提取产品新特征词和对应的新情感词组合;

匹配消歧模块750,用于根据所述新特征词和新情感词组合,查询与所述新特征词和新情感词组合匹配的历史特征词和历史情感词组合,将匹配的历史特征词的义项标注作为所述新特征词的词义。

上述装置中各个模块的功能和作用的实现过程具体详见上述对产品评论词汇的歧义消除方法中对应步骤的实现过程,在此不再赘述。

词汇获取模块710比如可以是图2中的某一个物理结构输入输出接口258。

词汇组合模块720、词义标注模块730以及匹配消歧模块750也可以是功能模块,用于执行上述对产品评论词汇的歧义消除方法中的对应步骤。可以理解,这些模块可以通过硬件、软件、或二者结合来实现。当以硬件方式实现时,这些模块可以实施为一个或多个硬件模块,例如一个或多个专用集成电路。当以软件方式实现时,这些模块可以实施为在一个或多个处理器上执行的一个或多个计算机程序,例如图2的中央处理器222所执行的存储在存储器232中的程序。

可选的,所述词汇获取模块710包括:

分词单元,用于对所述历史评论文本进行分词操作,得到若干历史特征词和历史情感词;

支持度计算单元,用于统计每个历史特征词和每个历史情感词在所述历史评论文本中的出现次数,计算每个历史特征词和每个历史情感词在所述历史评论文本中的支持度;

排序筛选单元,用于将所述历史特征词和历史情感词按支持度降序进行排列形成频繁项列表,根据设定的最小支持度阈值,筛选出支持度大于等于最小支持度阈值的历史特征词和历史情感词,分别写入特征词事务数据库和情感词事务数据库。

可选的,如图8所示,所述词汇组合模块720包括:

词汇组合单元721,用于将扫描所述特征词事务数据库,将所述历史特征词生成特征词频繁一项集;扫描所述情感词事务数据库,将所述历史情感词生成情感词频繁一项集;将所述历史特征词与所述历史情感词组合生成“历史特征词-历史情感词”频繁二项集;

关联挖掘单元722,用于根据所述历史评论文本的频繁二项集中每个“历史特征词-历史情感词”组合出现的次数,利用关联规则挖掘算法筛选出最频繁出现的历史特征词和历史情感词组合。

可选的,如图9所示,所述关联挖掘单元722包括:

计算子单元7221,用于将所述“历史情感词-历史特征词”频繁二项集作为候选项集,计算频繁二项集中每个组合的支持度;

过滤子单元7222,用于将频繁二项集中的每个组合按照支持度降序排序,将大于等于最小支持度阈值的组合构成频繁二项表;

树构建子单元7223,用于创建FP-Growth树根节点null,根据所述频繁二项表,依次将每个“历史情感词-历史特征词”组合作为一个事务从表中抽出,与所述根节点结合,构成一个从根节点null->特征词->情感词的路径,通过路径对所述事务进行编码,并将路径上所有节点的频度计数为1,生成若干路径,形成频繁模式FP-Growth树;

关联挖掘子单元7224,用于根据所述频繁模式FP-Growth树,由频繁项表生成关联规则,得到所述历史特征词所关联的历史情感词共同构成的“历史特征词-历史情感词”的最频繁同现关系。

可选的,所述关联挖掘子单元7224包括:

置信度计算块,用于计算所述频繁二项集中每个“历史情感词-历史特征词”组合的置信度;

条件树构建块,用于根据每个“历史情感词-历史特征词”组合的支持度和置信度计算结果,对每个“历史情感词-历史特征词”组合构建条件模式基及条件FP-Growth树,遍历整个频繁二项集,直到FP-Growth树为空,或者FP-Growth树仅包含一条单一的路径;

模式组合块,用于将生成所述路径的所有子路径的组合中的每个组合作为一个频繁模式,即“历史特征词-历史情感词”的最频繁同现关系。

可选的,本公开还提供一种电子设备,该电子设备可以用于图1所示实施环境的服务器120中,执行图3-6任一所示的对产品评论词汇的歧义消除方法的全部或者部分步骤。所述电子设备包括:

处理器;

用于存储处理器可执行指令的存储器;

其中,所述处理器被配置为执行上述实施例所述的对产品评论词汇的歧义消除方法。例如包括:

获取针对指定产品的历史评论文本,从所述历史评论文本中提取产品历史特征词和对应的历史情感词;

根据所述历史特征词与对应的各历史情感词之间的同现关系,筛选出最频繁出现的历史特征词和历史情感词组合;

根据最频繁出现的历史特征词和历史情感词组合生成所述历史特征词的义项标注;

获取针对指定产品输入的新评论文本,从所述新评论文本中提取产品新特征词和对应的新情感词组合;

根据所述新特征词和新情感词组合,查询与所述新特征词和新情感词组合匹配的历史特征词和历史情感词组合,将匹配的历史特征词的义项标注作为所述新特征词的词义。

该实施例中电子设备的处理器执行操作的具体方式已经在有关该对产品评论词汇的歧义消除方法的实施例中执行了详细描述,此处将不做详细阐述说明。

在示例性实施例中,还提供了一种存储介质,该存储介质为计算机可读存储介质,例如可以为包括指令的临时性和非临时性计算机可读存储介质。该存储介质例如包括指令的存储器232,上述指令可由服务器200的中央处理器218执行以完成上述对产品评论词汇的歧义消除方法。

应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号