首页> 中国专利> 一种基于领域词典和语义角色的评价对象抽取方法

一种基于领域词典和语义角色的评价对象抽取方法

摘要

本发明涉及一种基于领域词典和语义角色的评价对象抽取方法,属于自然语言处理应用技术领域,包括以下步骤:首先根据词性、依存和语义角色信息,构建评价对象的领域词典DL,然后充分挖掘词汇、依存、相对位置和语义角色四方面的特征,与DL一起利用条件随机场(CRFs)进行模型训练和预测,从而完成评价对象的抽取工作。对比现有技术,根据中文句子特别是微博、论坛评论信息结构灵活多样、构成方法变化多、句子特征较少的特点,充分利用不同层级句法和语义信息,结合基于规则和机器学习的评价对象抽取方法的优点,自动快速而且准确地找到语料中置信度较高的评价对象,提高了中文句子评价对象抽取的准确率。

著录项

  • 公开/公告号CN104268160A

    专利类型发明专利

  • 公开/公告日2015-01-07

    原文格式PDF

  • 申请/专利权人 北京理工大学;

    申请/专利号CN201410453074.0

  • 发明设计人 冯冲;廖纯;杨森;黄河燕;

    申请日2014-09-05

  • 分类号G06F17/30;G06F17/27;

  • 代理机构

  • 代理人

  • 地址 100081 北京市海淀区中关村南大街5号北京理工大学

  • 入库时间 2023-12-17 03:57:53

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-06-06

    授权

    授权

  • 2015-02-04

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20140905

    实质审查的生效

  • 2015-01-07

    公开

    公开

说明书

技术领域

本发明涉及一种中文句子评价对象抽取方法,特别涉及一种基于 领域词典和语义角色的评价对象抽取方法,属于自然语言处理应用 技术领域。

背景技术

随着互联网特别是web2.0的发展,越来越多的人不仅仅通过网络 获取信息,而且还更多的参与到网络的交流。博客、微博、论坛的形 成发展极大地改变了人们的使用互联网的方式。伴随着互联网的发 展,通过人工的方式了解网络的海量信息,对网络上的信息进行整合 分析变得越来越困难。对网络文本的抓取和分析技术就是这样的应用 背景下应运而生。由于越来越多的网络文本信息,如何使用自然语言 处理技术来分析网络的文本是当前研究的一个主题。情感要素抽取是 对文本中重要的情感要素比如评价词,评价对象,评价者等进行提取, 是细粒度的情感挖掘,也变得越来越重要。

大数据时代的到来,对网络上的信息进行有效的整合分析已经是 研究者一个十分重要的研究课题。情感信息抽取,特别是细粒度的情 感要素抽取,在近几年得到了越来越多的重视。情感要素抽取对情感 信息抽取技术的研究有着十分重要的研究意义,在网络评论信息分析 处理、舆情监控、信息预测等领域发挥了越来越重要的影响。

评价对象抽取技术的研究,对上层情感信息检索、分类以及专家 系统等进一步的研究,有着十分重要的学术价值。评价对象抽取 (Opinion Targets Extraction/Identification)是对句子中观点 的指向词进行识别。评价对象指的是句子中表述观点和发表评论所针 对的对象;评价词是句子中发表观点所用的词汇,也称为情感词。随 着评价对象抽取任务的提出,相继出现了不同的抽取算法,主要分为 基于规则的方法和基于机器学习的方法。通常基于规则的方法主要是 采用句子中词、词性等模板特征,例如基于关联规则的方法。基于规 则的方法对特定领域的效果较好,但是领域适应性较差。基于机器学 习的方法在近年来才得以在评价对象抽取任务上进行研究。当前主要 有CRFs、HMM、LDA等机器学习模型。基于机器学习的方法,受到目前 句子短、特征少、语料库不足等影响,不能满足当前实际使用的需要。

发明内容

本发明的目的是为了解决现有基于规则的评价对象抽取方法领 域适应性差、基于机器学习的方法对有限的中文标注语料库不能充分 挖掘出特征的问题,提出一种基于领域词典和语义角色的中文句子评 价对象抽取方法。

为实现上述目的,本发明所采用的技术方案如下:

本发明技术方案的思想是首先根据词性、依存和语义角色信息, 构建评价对象的领域词典DL,然后充分挖掘词汇、依存、相对位置和 语义角色四方面的特征,与DL一起利用条件随机场(CRFs)进行模型 训练和预测,从而完成评价对象的抽取工作。

一种基于领域词典和语义角色的评价对象抽取方法,该方法包括 以下步骤:

步骤一、语料预处理:对语料集S的每一个句子按照规则(Rules) 进行过滤,然后对过滤后的句子集合进行分词、词性标注得到语料集 T;

步骤二、领域词典(DL)构建:首先通过对语料集T进行分析, 总结出词性序列模板集合(posT),并将posT中的每一个模板分别与T 中每一个已分词的句子的词性序列进行匹配,得到评价对象集合A; 然后对T中的每一个句子进行依存结果类型分析,通过分析评价对象 与评价词之间的依存关系类型,得到评价对象集合B;接下来通过一 个基于语义角色的评价对象提取算法,得到评价对象集合C;最后, 对集合A、B、C取并集,得到集合D,作为最终的DL;

步骤三、CRFs特征选择:使用词汇特征、依存特征、相对位置特 征和语义角色特征作为CRFs的特征;所述词汇特征部分,选择当前词 及其词性作为此部分特征;所述依存特征部分,选取当前词与中心词 是否存在依存关系、该依存关系的类型、当前词的父节点以及父节点 的词性作为此部分特征;所述相对位置特征部分,以当前词与评价词 之间的距离是否小于n作为本部分特征,n是一个大于零的自然数;所 述语义角色特征部分,选取语义角色名字和评价词词性作为该部分的 特征;

步骤四、利用CRFs进行评价对象抽取:首先对语料集T进行B,I, O标注,然后将步骤三提取的四部分特征、步骤二构建的DL及BIO标 注一起加入CRFs进行训练;并使用此训练后的CRFs对步骤三提取的四 部分特征和步骤二构建的DL进行评价对象识别,给出BIO分类结果;

步骤五、抽取完成,输出抽取结果OT集合,即分类结果为B或以B 开头后跟若干个I的词的集合。

所述Rules包含以下六项内容:

规则1:去除纯英文句子;

规则2:对句子进行“//”划分,并且使分句顺序倒置;

规则3:对句子中用户名和网址进行删除;

规则4:对连续出现的多个相同标点符号,用第一个标点符号进 行替换,同时去除表情标示符;

规则5:对于微博中特殊的“#内容#”,则把较短内容直接作为候 选评价对象,较长内容作为一个单独的句子另行分析;

规则6:对句子中的代词,选择其前句或后句中的名词性主语将 其替换。

所述posT的获取过程如下:

首先对语料集T中的词性标注进行替换,将属于比较词、主张词 和程度副词的词语的词性标注改成cmp,aw和adv;对于T中的每一个 句子,提取其评价对象前两个、前一个、后两个、后一个词与评价对 象的词性一起作为模板提取出来,如果评价对象不是一个单独的词, 而是由多个词的组合,则将这些组合词的词性,组合起来形成模板; 按照这种规则处理T中的所有句子,并计算每一个模板的出现概率; 最后,将出现概率最高的m个模板提取出来作为posT,m是一个大于 零的自然数。

所述集合A的获取过程如下:

将posT中的每一个模板分别与T中每一个已分词的句子的词性序 列进行匹配,将匹配得到的所有词性序列中词性为n的词提取出来, 去掉重复,构成集合A。

所述集合B的获取过程如下:

对语料集T中的每个句子进行依存分析,找出与评价词集合O中 的词存在ATT或SBV关系的词作为评价对象,加入集合B,然后再选 取与已知评级对象B中现存词的关系为COO的词,也添加入B,形成 最终的集合B。

所述基于语义角色的评价对象提取算法具体内容如下:

对于句子中的评价词,如果评价词词性为动词,则选取受事者(即 该动作的承受者)作为评价对象,而如果评价词词性为形容词,则选 取施事者(即该动作的发出者)作为评价对象。

所述BIO标注的具体过程如下:

首先对于每一个句子,找出对应的评价对象;然后遍历该句子分 词结果中的每一个词,如果其是该句所对应的评价对象中的第一个 词,则标注为B;若其是该句所对应的评价对象中的其他词,则标注 为I;其他情况,全部标注为O。

有益效果

本发明对比现有技术,根据中文句子特别是微博、论坛评论信息 结构灵活多样、构成方法变化多、句子特征较少的特点,利用基于规 则的句子过滤方法,去掉了部分冗余的信息,然后通过挖掘句子词汇、 句法和语义各方面的信息,通过规则的方法建立评价对象的领域词 典;并将其和语义角色特征,辅以其他三种常用特征一起使用CRFs 进行识别,充分利用了不同层级句法和语义信息,使用户能够更快速 而且准确地找到语料中置信度较高的评价对象,提高了中文句子评价 对象抽取的准确率。

附图说明

图1为本发明方法的流程图。

具体实施方式

下面结合实施例对本发明做进一步说明。

本实施例选取第六届中文倾向性分析评测(The Sixth Chinese  Opinion Analysis Evaluation,简称COAE2014)任务四提供的数据集作 为实验语料集,用于领域词典的创建和CRFs的训练。该语料集中, 对于每一个句子,都含有标注好的评价对象(OT:是评价对象)。

步骤一,对语料集S(多为微博、论坛中的句子)按照规则(Rules) 进行初步过滤。Rules的具体内容如下:

规则1:去除纯英文句子(目前主要专注于中文句子的分析);

规则2:对句子进行“//”划分,并且使分句顺序倒置;例如用户 a转发了用户b的微博“iphone5s很漂亮。”,并在此微博中说“我很喜 欢!”,在语料集S中则表示为:“我很喜欢!//iphone5s很漂亮。”, 经过此条规则过滤之后,得到“iphone5s很漂亮。我很喜欢!”,这样 就保证句子的转发关系,使后面的句子基于前面的句子进行分析。

规则3:对句子中用户名进行删除,即删除“@+用户名”结构, 删除“http://t.cn/h87oy”这样的网址结构;

规则4:对连续出现的多个相同标点符号,如“。。。。。。”,“!!!!” 等,采用第一个标点符号进行替换,同时去除微博中表情标示符;

规则5:对于微博中特殊的“#内容#”,则把较短内容直接作为候 选评价对象,较长内容作为一个单独的句子另行分析;

规则6:对句子中的代词,选择其前句或后句中的名词性主语将 其替换;例如句子“这款iphone好漂亮。我觉得它比三星漂亮多了!” 针对第二个句子中的“它”,我们则用其前句的“iphone”代替;

接着对通过以上规则过滤后得到的句子集合,分别进行分词和词 性标注,得到集合T;分词和词性标注可以手工进行,也可以使用现 有的工具进行,如ICTCLAS,结巴分词,本实施例中使用ICTCLAS。

步骤二,开始构建领域词典:

首先,根据处理后的语料集合T,在其中标注好的评价对象OT附 近,对其词性和词本身进行分析,具体分析流程如下:

对于语料集T中每一个分好词的句子,例如句子“轻薄的机身很 漂亮。”分词以及词性标注的结果为{“轻薄/adj”“的/de”“机身/n” “很/d”“漂亮/adj”“。/wp”};其中本句所对应的评价对象是“机 身”。首先我们遍历句子,去掉词性标注为wp的标点符号,同时将属 于比较词、主张词和程度副词的词语的词性标注改成cmp,aw和adv; 得到集合如下{“轻薄/adj”“的/de”“机身/n”“很/adv”“漂亮/adj”} 我们以评价对象“机身”为中心,分别按以下方式来提取模板:

a、前两个词的词性+评价对象的词性;

b、评价对象的词性+后两个词的词性;

c、评价对象的词性+后一个词的词性;

d、前一个词的词性+评价对象的词性;

e、如果一个评价对象不是一个单独的词,而是多个词的组合, 则将这些组合词的词性按照其在句子中的出现顺序依次连接起来作 为评价对象的词性形成模板;

则以上例子提取出的模板为“adj+de+n”“n+adv+adj”“n+adv” “de+n”;按上述流程处理语料集T中的每一个句子,提取模板;同时 计算每一个模板的出现概率,将出现概率最高的m个模板作为词性序 列模板提取出来作为posT,经多次实验,取m=6,因此posT的模板内 容具体如表1所示:

表1词性序列模板

其中,n表示的是名词;aw和adv表示主张词和程度副词,均由 hownet得到;adj表示形容词;cmp表示比较词,比较词集合如表2所 示。

表2比较词集合

然后,分别用表1总结出的六条词性模板序列匹配语料集T中的每 个分好词的词性序列:

例如句子:iphone不如三星实用,但它轻薄的机身和屏幕很好的 特点,还是让年轻人认为它更胜一筹。

经步骤一预处理之后,得到:iphone/n不如/v三星/n实用 /adj,/wp但/c iphone/n轻薄/a的/u机身/n和/c屏幕/n 很/d好/a的/u特点/n,/wp还是/c让/v年轻人/n认为/v  iphone/n更胜一筹/a。

将其与以上六条词性模板进行匹配:

得到“iphone/n不如/v三星/n”匹配模板“n+cmp+n”,提取 出评价对象为“iphone”“三星”;“三星/n实用/adj”匹配模板“n+adj”, 提取出评价对象为“三星”;“轻薄/a的/u机身/n”匹配“adj+的+n”, 提取出评价对象为“机身”;“屏幕/n很/d好/a”匹配“n+adv+adj”, 提取出评价对象为“屏幕”;“认为/v iphone/n”匹配“aw+n”,提取 出评价对象为“iphone”;则综合提取出评价对象为“iphone”“三星” “机身”“屏幕”,加入集合A。

然后,对语料集T中的每个句子进行依存结果类型分析,考虑到 评价词语评价对象之间的关系,选取依存分析结果中,与评价词集合 O中的词存在ATT或SBV关系的词作为评价对象,加入集合B,然后 再选取与已知评级对象关系为COO的词,也添加入B。此处,我们选 择知网(Hownet)提供的情感分析用词语集中的正面情感词语、负 面情感词语、正面评价词语、负面评价词语加上由台湾大学整理和发 布的简体中文的NTUSD作为评价词集合O;依存分析可以使用现有 的工具进行,如stanford-parser,哈工大的LTP,本实施例中使用 LTP。

例如句子:“效率和画质都好于一般摄像头。”

得到的依存分析结果如下:

首先,遍历评价词集合O,找出评价词集合OW,即OW={“好”} (id=4);接着继续遍历依存结果,选择与“好”有依存关系,即parent=4 的词,将其加入依存词集合dp,即dp={“效率”,“都”,“于”,“。”}; 然后遍历集合dp中每一个词与依存词的关系(即依存结果中的relate 这一项),将relate=”SBV”和relate=”ATT”的词作为新的评价词,即将 “效率”加入集合B;最后,以当前集合B中的词为基础,即“效率” id=0为中心,遍历依存结果,寻找与B中评价词有“COO”关系的词 作为新的评价词加入集合B,即将parent=0,且relate=”COO”的词语加 入集合B,B={“效率”,“画质”},完成对本句的处理。

然后,通过基于语义角色的评价对象提取算法,对于依存结果继 续进行分析提取:

在对试验语料的分析中,我们发现对于包含评价对象的主观句 中,评价对象跟评价词有着密切的关系。形容词性评价词的评价对 象在很大程度上为施事者,而动词性评价词的评价对象一般为受事 者。鉴于此,为了系统性能的提高,可引入语义角色来进行评价对 象提取。例如句子“我很喜欢iphone”,依存分析结果如下:

首先遍历依存分析结果中的每个词,与评价词集合O进行匹配, 找出其中的评价词OW,此例OW={“喜欢”},如果评价词pos=”V”动 词,则选取type=”A1”(受事着,即该动作的承受者)作为评价对象, 而如果评价词pos=”a”形容词,则选取type=”A0”(施事着,即该动作 的发出者)作为评价对象,该例子中,找到arg标签内type=“A1”的 项中,beg=“3”end=“3”,即A1受事者为从id=“3”到id=“3”的 部分,即“iphone”,并将其加入集合C,完成该部分的提取。

最后,将三部分集合合并在一起,即为构建出的领域词典DL。

步骤三、CRFs特征提取:

在CRFs的训练过程中,特征的选择非常重要,本实施例使用以 下四种类型的特征:词汇特征、依存特征、相对位置特征和语义角 色特征。

词汇特征:选取当前词及其词性作为此部分特征;

依存特征:选取当前词与中心词,即依存结果relate=“HED”的 词,是否存在依存关系(若本身就是中心词,则填1)、该依存关系 的类型(若无则填null,若当前词就为中心词,则填HED)、当前词 的父节点(若parent=-1,则置0)以及父节点的词性作为特征(若 parent=-1,则置0);

相对位置特征:选取当前词与评价词之间的距离是否小于n作为 特征,若是,则为1,否则为0;实验表明,n=5时效果较好;

语义角色特征:选取语义角色名字和评价词词性一起作为特 征;首先遍历依存分析结果,找到每一个arg标签内的type,以及各 种type的语义角色的作用范围,即beg和end所指示的范围;然后分 别对句中的每个词进行遍历,如果其具备语义角色,则将其语义角 色名称和本句中的评价词词性一起加入特征,如果不具备,则将两 位全置0;

例如上文句子“效率和画质都好于一般摄像头。”依存分析结 果为:

CRFs特征为:

效率:效率n 1SBV好a 1A0a

和:和c 0null画质n 1A0a

画质:画质n 0null效率n 1A0a

都:都d 1ADV好a 1ADV a

好:好a 1HED 00100

于:于p 1CMP好a 100

一般:一般c 0null摄像头n 100

摄像头:摄像头n 0null于p 100

以上例子中前两列表示词汇特征,第三列到第六列表示依存特 征,第七列表示相对位置特征,第八列和第九列表示语义角色特 征。

步骤四,利用经训练的CRFs进行评价对象抽取:

在介绍如何使用CRFs进行评价对象抽取前,先介绍如何对其进 行训练,训练过程如下:

将步骤三提取的四部分特征与步骤二构建的DL和BIO标注一起 加入CRFs进行训练;针对DL的利用,如果当前词在DL中存在,则置 1,否则置0;要使用BIO标注,首先要对语料集T进行B,I,O标注, 其具体过程如下:

首先对于语料集T中的句子,遍历原始语料集S,找出对应于每 一个句子的评价对象,即标注为OT的词;然后遍历每一个句子分词 结果中的每一个词,如果其是该句所对应的评价对象中的第一个词, 则标注为B;若其是该句所对应的评价对象中的其他词,则标注为I; 其他情况,全部标注为O。

因此,加上这二维特征后,以上例子加入CRFs时的特征为:

效率:效率n 1SBV好a 1A0a 1B

和:和c 0null画质n 1A0a 0I

画质:画质n 0null效率n 1A0a 1I

都:都d 1ADV好a 1ADV a 0O

好:好a 1HED 001000O

于:于p 1CMP好a 1000O

一般:一般c 0null摄像头n 1000O

摄像头:摄像头n 0null于p 1000O

按以上流程提取语料集T中的所有句子的词的特征序列,并使用 其对CRFs进行训练。

在使用经训练的CRFs进行评价对象抽取时,只需要去掉以上特 征序列的最后一列,即BIO特征列即可,CRFs识别后输出当前词的 BIO类别。

步骤五、抽取完成,输出抽取结果OT集合:对语料经CRFs分类 后的词,按词在语料集T中出现的顺序保留词及其BIO类别构成新的 序列,提取序列中分类结果为B的词或以B开头后面跟若干个I的词的 组合的集合,此集合即为OT,输出即可。

为了验证本发明实施例提供的中文评价对象抽取方法的有效 性,此次在COAE2014评测数据的基础上进行试验。在具体测试时, 选取其中4/5的数据作为已知数据,通过对该部分数据的学习生成 中文情感关键句分类器模型;剩余1/5的数据作为待识别的数据, 使用本文所述识别方法进行识别,通过CRFs预测出BIO序列,并将此 序列与此前标注好的BIO序列进行比对,得到评价对象抽取的准确率 P、召回率R和查全率F值。同时将本文所提方法DL+Srl与基于词典的 方法Lexicon和Jakob(Jakob,N.,&Gurevych,I.(2010,October). Extracting opinion targets in a single-and cross-domain setting with  conditional random fields.In Proceedings of the 2010Conference on  Empirical Methods in Natural Language Processing)方法这两种识别方 法所得到的结果作了比较,比较结果如下表所示:

实验结果表明,使用本文领域词典和语义角色相结合的方法大大 提升了实验效果,充分证明了本发明所提供方法的有效性。这主要是 因为通过详细分析词汇、句法和语义各层面的信息,充分挖掘可以作 为CRFs特征的信息,使用CRFs进行评价对象抽取,以保证达到更 高的准确率、召回率和F值。

以上显示和描述了本发明的基本原理和主要特征和本发明的优 点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上 述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明 精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改 进都在要求保护的本发明范围内,本发明要求保护范围由所附的权利 要求书及其等效物界定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号