首页> 中国专利> 一种词汇语义褒贬获得方法、系统及装置

一种词汇语义褒贬获得方法、系统及装置

摘要

本发明公开了一种词汇语义褒贬获得方法、系统及装置,用以提高确定词汇语义褒贬的准确率。在本发明中,通过搜索引擎查询获得命中待处理词汇的第一文档数、命中所述待处理词汇分别与每个种子词汇的结合的第二文档数集合以及命中所述结合的文档集合中相应的摘要信息;获得每个种子词汇对应的摘要信息中所述待处理词汇与相应种子词汇间符合设定共现关系的文档比例;根据所述查询的总文档数量、所述第一文档数、所述第二文档数集合、命中每个种子词汇的第三文档数集合以及每个种子词汇对应的文档比例获得所述待处理词汇与每个种子词汇的点间互信息;根据各种子词汇的褒贬情况及相应的点间互信息确定所述待处理词汇的语义褒贬。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-06-19

    未缴年费专利权终止 IPC(主分类):G06F17/30 授权公告日:20100310 终止日期:20170530 申请日:20070530

    专利权的终止

  • 2010-03-10

    授权

    授权

  • 2009-01-28

    实质审查的生效

    实质审查的生效

  • 2008-12-03

    公开

    公开

说明书

技术领域

本发明涉及智能信息处理技术领域,尤其涉及一种词汇语义褒贬获得方法、系统及装置。

背景技术

日益活跃的网络群体在互联网上留下了大量的评论信息,这些评论信息包括新闻、论坛、Email和个人博客(blog)等。对于这些评论信息的情感分析无疑能够提供大量有价值的信息。而文本情感分析是指通过计算机技术,自动分析文本信息所包含的情感因素,例如喜欢或讨厌、正面或负面、快乐或悲伤、愤怒和恐惧等。情感分析有着众多的潜在应用领域:在商业领域,可以帮助企业进行市场分析和调查、顾客反馈等;在政治领域,可以帮助政府部门了解群众对于政策法规的反馈意见。

与传统的人工处理方式相比,通过计算机自动提取文档中的情感因素是一种新的实时分析信息的方法。它可以高效处理非结构化的文本数据,从而应对互联网上日益泛滥的海量数据。其中,词汇语义褒贬分析是文本情感分析研究的基础。词汇语义褒贬分析任务是试图理解一个词汇的情感语义属性及其强度因子。

目前,一种对于词汇语义褒贬分析的研究方法为统计方法,利用文档集中词汇间的共现关系来计算词汇语义褒贬。现有的基于搜索引擎的词汇语义褒贬获得方法中,采用基于搜索引擎AND(和)关系的PMI-IR(Pairwise MutualInformation,点间互信息)技术,如图1所示,其步骤可以概括如下:

步骤S101,选定褒义和贬义种子词汇集合PWords和NWords,并通过向搜索引擎发送查询请求,记录每个种子词汇Wi(i为不大于Q的正整数,Q为PWords和NWords的总个数)的命中数Hits(Wi);

步骤S102,读入一个需要计算的词汇A,向搜索引擎发送查询请求“A”,并结合每个种子词汇Wi向搜索引擎发送查询请求“A Wi”;

步骤S103,读取搜索引擎返回的对“A”和“A Wi”的查询结果,从中分析出命中数Hits(A)以及每个种子词汇对应的Hits(A,Wi);

步骤S104,根据Hits(A)、Hits(A,Wi)、Hits(Wi),计算A和每个Wi的点间互信息PMI(A,Wi);

在本步骤中,可以采用公式(1)进行计算:

PMI(A,Wi)=log2(1Nhits(A,Wi)1Nhits(A)*1Nhits(Wi));---(1)

其中,N表示搜索引擎索引的总文档数量。

步骤S105,用A与PWords中词汇的点间互信息之和,减去A与NWords中词汇的点间互信息之和得到V(A);

步骤S106,判断V(A)是否大于褒贬阈值T,如果是,则标注A的词义为褒义,否则标注A的词义为贬义,其中,V(A)减去T的绝对值可以认为是语义褒贬的强度。

Turney的PMI-IR实验选择了AltaVista高级搜索中的NEAR操作符,其NEAR限制网页搜索范围为查询词汇间距离为10个词以内的文档。发明人通过实验证明,文档内NEAR关系性能明显好于AND关系。然而,目前已经没有主流搜索引擎支持NEAR操作符,因此在利用搜索引擎进行查询时只能采用AND关系,从而导致词汇语义褒贬判断准确率下降很多。

发明内容

本发明实施例提供一种词汇语义褒贬获得方法、系统及装置,用以提高确定词汇语义褒贬的准确率。

本发明实施例提供了一种词汇语义褒贬的确定方法,包括以下步骤:

通过搜索引擎查询获得命中待处理词汇的第一文档数、命中所述待处理词汇分别与每个种子词汇的结合的第二文档数集合以及命中所述结合的文档集合中相应的摘要信息;

获得每个种子词汇对应的摘要信息中所述待处理词汇与相应种子词汇间符合设定共现关系的文档比例;

根据所述查询的总文档数量、所述第一文档数、所述第二文档数集合、命中每个种子词汇的第三文档数集合以及每个种子词汇对应的文档比例获得所述待处理词汇与每个种子词汇的点间互信息;并且

根据各种子词汇的褒贬情况及相应的点间互信息确定所述待处理词汇的语义褒贬。

进一步地,上述方法还可具有以下特点:设定所需摘要信息的数量,在获得所述摘要信息时,根据所述设定获得相应数量的摘要信息。

进一步地,上述方法还可具有以下特点:根据如下公式获得所述待处理词汇与一种子词汇的点间互信息PMI(A,Wi):

PMI(A,Wi)=log2(1Nhits(A,Wi)*F(A,Wi)1Nhits(A)*1Nhits(Wi))

其中,N表示搜索引擎索引的总文档数量;hits(A)表示所述第一文档数;F(A,Wi)表示该一种子词汇对应的文档比例;hits(A,Wi)表示所述第二文档数集合中该一种子词汇对应的文档数;hits(Wi)表示所述第三文档数集合中该一种子词汇对应的文档数。

进一步地,上述方法还可具有以下特点:所述设定共现关系为以下几种关系之一:

片断内共同出现的关系;

片断内共同出现,且距离不超过设定个数的字或词的关系;

句子内共同出现的关系;

句子内共同出现,且距离不超过设定个数的字或词的关系。

进一步地,上述方法还可具有以下特点:所述确定所述待处理词汇的语义褒贬的具体方法为:

获得所述待处理词汇与各种子词汇中的褒义词汇的点间互信息之和,以及所述待处理词汇与各种子词汇中的贬义词汇的点间互信息之和;

根据所述两个点间互信息之和的差值确定所述待处理词汇的语义褒贬。

进一步地,上述方法还可具有以下特点:获得所述第三文档数集合的方法为:预先选定所述各种子词汇,并通过搜索引擎分别查询命中每个种子词汇的文档数构成所述第三文档数集合。

进一步地,上述方法还可具有以下特点:所述词汇为字、词以及短语中的任意一个。

本发明实施例还提供了一种确定词汇语义褒贬的系统,包括计算机和搜索引擎,其中:

所述搜索引擎,用于查询命中指定词汇的文档集合;

所述计算机,用于通过所述搜索引擎查询获得命中待处理词汇的第一文档数、命中所述待处理词汇分别与每个种子词汇的结合的第二文档数集合以及命中所述结合的文档集合中相应的摘要信息;获得每个种子词汇对应的摘要信息中所述待处理词汇与相应种子词汇间符合设定共现关系的文档比例;根据所述查询的总文档数量、所述第一文档数、所述第二文档数集合、命中每个种子词汇的第三文档数集合以及每个种子词汇对应的文档比例获得所述待处理词汇与每个种子词汇的点间互信息;并且根据各种子词汇的褒贬情况及相应的点间互信息确定所述待处理词汇的语义褒贬。

本发明实施例还提供了一种确定词汇语义褒贬的装置,包括:

用于通过搜索引擎查询获得命中待处理词汇的第一文档数、命中所述待处理词汇分别与每个种子词汇的结合的第二文档数集合以及命中所述结合的文档集合中相应的摘要信息的模块;

获得每个种子词汇对应的摘要信息中所述待处理词汇与相应种子词汇间符合设定共现关系的文档比例的模块;

根据所述查询的总文档数量、所述第一文档数、所述第二文档数集合、命中每个种子词汇的第三文档数集合以及每个种子词汇对应的文档比例获得所述待处理词汇与每个种子词汇的点间互信息的模块;以及

根据各种子词汇的褒贬情况及相应的点间互信息确定所述待处理词汇的语义褒贬的模块。

进一步地,上述装置还可具有以下特点:所述装置还包括:

用于预先选定所述各种子词汇的模块;以及

用于通过搜索引擎分别查询命中每个种子词汇的文档数构成所述第三文档数集合的模块。

本发明实施例提供的技术方案利用与待处理词汇相关的搜索引擎动态摘要信息中的词汇共现关系,提高词汇语义褒贬判断的准确率。采用本发明实施例提供的技术方案,能够明显提高词汇语义褒贬计算方法的准确率,具有重要的应用价值。

附图说明

图1为现有的基于搜索引擎的词汇语义褒贬获得方法的流程图;

图2为本发明实施例中基于搜索引擎的词汇语义褒贬获得方法的流程图;

图3为本发明实施例中的确定词汇语义褒贬的系统示意图。

具体实施方式

本发明实施例中,利用与待处理词汇相关的搜索引擎动态摘要信息中的词汇共现关系,提高词汇语义褒贬判断的准确率。

首先,通过搜索引擎查询获得命中待处理词汇的第一文档数、命中该待处理词汇分别与每个种子词汇的结合的第二文档数集合以及命中该结合的文档集合中相应的摘要信息;

获得每个种子词汇对应的摘要信息中该待处理词汇与相应种子词汇间符合设定共现关系的文档比例;

然后,根据该查询的总文档数量、该第一文档数、该第二文档数集合、命中每个种子词汇的第三文档数集合以及每个种子词汇对应的文档比例获得该待处理词汇与每个种子词汇的点间互信息;并且

从而根据各种子词汇的褒贬情况及相应的点间互信息确定该待处理词汇的语义褒贬。

其中,由于增加了获得第二文档集合中相应的摘要信息中该待处理词汇与各种子词汇间符合设定共现关系的文档比例的步骤,并且结合该文档比例来获得待处理词汇与相应种子词汇的点间互信息,从而提高了确定词汇语义褒贬的准确率。

在本文中,词汇可以为字、词以及短语中的任意一个。

下面结合附图对本发明实施例做进一步地描述。

本发明实施例中基于搜索引擎的词汇语义褒贬获得方法的流程如图2所示,包括以下步骤:

步骤S201,选定褒义和贬义种子词汇集合PWords和NWords,并通过向搜索引擎发送查询请求,记录每个种子词汇Wi(i为不大于Q的正整数,Q为PWords和NWords的总个数)的命中数Hits(Wi)得到第三文档数集合;

本步骤中的种子词汇集合需要精心选择,一般而言选择一些反义词词对,同时种子词汇个数足够多时,效果会比较好。

步骤S202,读入一个需要计算的词汇A(即待处理词汇),向搜索引擎发送查询请求“A”,并结合每个种子词汇Wi向搜索引擎发送查询请求“A Wi”;

步骤S203,读取搜索引擎返回的对“A”和“A Wi”的查询结果,从中分析出命中待处理词汇A的第一文档数Hits(A)、命中该待处理词汇A分别与每个种子词汇Wi的结合“A Wi”的第二文档数集合Hits(A,Wi)以及命中该结合的文档集合中相应的摘要信息;

在具体实施时,文档标题也可以被看作摘要信息中的一部分,作为一个片断或句子进行后续处理。并且,可以设定所需摘要信息的数量,在获得该摘要信息时,根据该设定获得相应数量的摘要信息。例如,设定读取并分析出前100个文档的摘要信息,则在实施时,如果命中该结合的文档集合中包括摘要信息的文档数量大于100个,则在本步骤中,会读取并分析出前100个文档的摘要信息。

步骤S204,获得每个种子词汇对应的摘要信息中该待处理词汇与相应种子词汇间符合设定共现关系的文档比例F(A,Wi);

本步骤中的设定共现关系可以为以下几种关系之一:

片断内AND关系,即片断内共同出现的关系;

片断内NEAR关系,即片断内共同出现,且距离不超过设定个数的字或词的关系;

句子内AND关系,即句子内共同出现的关系;

句子内NEAR关系,即句子内共同出现,且距离不超过设定个数的字或词的关系。

由于对摘要信息中的内容进行了分析,因此,本发明实施例提供的技术方案可以更好地保证确定出的词汇语义褒贬。并且,由于NEAR关系性能明显好于AND关系,然而目前已经没有主流搜索引擎支持NEAR操作符,因此,在本流程中,可以由本地计算机在本步骤中进行NEAR关系的判断,从而获得更好的性能。

其中,在设定NEAR关系中不超过字或词的设定个数时,应当根据实际情况和经验值找到最优值进行设置,以求获得最好的效果,并且应该注意到,不同的语言可能有不同的最优值,比如英文在设定个数M=5时、中文在设定个数M=3时效果较好。

在获得该摘要信息中该待处理词汇与各种子词汇间符合设定共现关系的文档比例F(A,Wi)时,可以根据公式(2)进行计算:

F=(A,Wi)=Rel(A,Wi)K(A,Wi)---(2)

其中,K(A,Wi)为步骤S203中读取并分析的对应第i个种子词汇的摘要信息的相应文档个数,Rel(A,Wi)为K(A,Wi)个摘要信息中满足设定共现关系的摘要信息个数。可见,在设定读取并分析出前100个文档的标题和摘要的情况下,如果命中该结合的文档集合中包括摘要信息的文档数量大于100个,则由于只读取并分析出前100个文档的摘要信息,因此,则K(A,Wi)为100,而该100个文档中摘要信息中满足设定共现关系的摘要信息个数为Rel(A,Wi)。

步骤S205,根据该查询的总文档数量、该第一文档数、该第二文档数集合、命中每个种子词汇的第三文档数集合以及每个种子词汇对应的文档比例获得该待处理词汇与每个种子词汇的点间互信息PMI(A,Wi);

在本步骤中,可以根据公式(3)进行计算获得该待处理词汇与第i个种子词汇的点间互信息PMI(A,Wi):

PMI(A,Wi)=log2(1Nhits(A,Wi)*F(A,Wi)1Nhits(A)*1Nhits(Wi))---(3)

其中,N表示搜索引擎索引的总文档数量;hits(A)表示该第一文档数;F(A,Wi)表示该一种子词汇对应的文档比例;hits(A,Wi)表示该第二文档数集合中该一种子词汇对应的文档数;hits(Wi)表示该第三文档数集合中该一种子词汇对应的文档数。

步骤S206,根据各种子词汇的褒贬情况及相应的点间互信息确定该待处理词汇的语义褒贬。

在本步骤中,可以通过获得该待处理词汇与各种子词汇中的褒义词汇的点间互信息之和,以及该待处理词汇与各种子词汇中的贬义词汇的点间互信息之和;并根据两个点间互信息之和的差值确定该待处理词汇的语义褒贬。

具体如何确定该待处理词汇的语义褒贬可以有多种方式,例如:

方式一

设置一个褒贬阈值T来确定语义褒贬。

用A与PWords中词汇的点间互信息之和,减去与NWords中词汇的点间互信息之和得到V(A),判断V(A)是否大于褒贬阈值T,如果是,则标注A的词义为褒义,否则标注为贬义,其中,V(A)减去T的绝对值可以认为是语义褒贬的强度。

其中,获得褒贬阈值T的方法可以为:从测试集中选择了X对反义词(比如X为10),计算这2*X个词汇的语义褒贬值V的平均值Avg作为判断语义褒贬的阈值。或者,选定一个褒贬义词个数相当的词汇集,计算该集合所有词汇语义褒贬值V的平均值。

方式二

分别设置褒义阈值P和贬义阈值N来确定语义褒贬。

用A与PWords中词汇的点间互信息之和,减去与NWords中词汇的点间互信息之和得到V(A),V(A)大于P时A标注为褒义,小于N时标注为贬义,介于P和N之间时标注为中性,其中,P≥N。

同样,也可以用A与NWords中词汇的点间互信息之和,减去与PWords中词汇的点间互信息之和得到V(A)’,V(A)’大于N时A标注为褒义,小于P时标注为贬义,介于P和N之间时标注为中性,其中,N≥P。

在本发明的一个实例中,针对英文测试集,具体的操作流程如下:

首先,预先选定褒义种子词汇集合PWords{good,nice,excellent,positive,fortunate,correct,and superior}和贬义种子词汇集合NWords{bad,nasty,poor,negative,unfortunate,wrong,and inferior},并通过搜索引擎分别查询命中每个种子词汇的文档数Hits(Wi)构成第三文档数集合;

读入待处理词汇A“respectful”,向搜索引擎发送查询请求“respectful”,并结合每个种子词汇Wi向搜索引擎发送查询请求“A Wi”,在具体实现时即分别发送查询请求“respectful good”、“respectful nice”......‘respectful inferior’,即每个种子词汇与“respectful”的结合都进行查询;

读取搜索引擎返回的对“A”和“AWi”的查询结果,从中分析出命中待处理词汇“respectful”的第一文档数Hits(A)、命中该待处理词汇“respectful”分别与每个种子词汇Wi的结合“A Wi”的第二文档数集合Hits(A,Wi)以及命中该结合的文档集合中前100个文档的摘要信息;

分别分析{good,nice,excellent,positive,fortunate,correct,superior,bad,nasty,poor, negative,unfortunate,wrong,and inferior}各自对应的摘要信息中与“respectful”的句子内NEAR关系,从而计算获得每个种子词汇对应的摘要信息中“respectful”与相应种子词汇间符合设定共现关系的文档比例F(A,Wi);

根据已经获得的数据利用公式(3)计算每个种子词汇与“respectful”的点间互信息PMI(A,Wi);

用“respectful”与PWords{good,nice,excellent,positive,fortunate,correct,and superior}中词汇的点间互信息之和,减去“respectful”与NWords{bad,nasty,poor,negative,unfortunate,wrong,and inferior}中词汇的点间互信息之和,得到“respectful”的语义褒贬值V(A):

如果V(A)大于褒贬阈值T,则“respectful”标注为褒义,否则标注为贬义;V(A)减去T的绝对值可以认为是语义褒贬的强度。例如,其中T的取值可以为10对反义词语义褒贬值V的平均值。

本发明实施例中的确定词汇语义褒贬的系统,如图3所示,包括通过互联网连接的计算机和搜索引擎,其中:

搜索引擎,用于查询命中指定词汇的文档集合;

计算机,用于通过搜索引擎查询获得命中待处理词汇的第一文档数、命中该待处理词汇分别与每个种子词汇的结合的第二文档数集合以及命中该结合的文档集合中相应的摘要信息;获得每个种子词汇对应的摘要信息中该待处理词汇与相应种子词汇间符合设定共现关系的文档比例;根据该查询的总文档数量、该第一文档数、该第二文档数集合、命中每个种子词汇的第三文档数集合以及每个种子词汇对应的文档比例获得该待处理词汇与每个种子词汇的点间互信息;并且根据各种子词汇的褒贬情况及相应的点间互信息确定该待处理词汇的语义褒贬。

本发明实施例中的确定词汇语义褒贬的装置,包括:

用于通过搜索引擎查询获得命中待处理词汇的第一文档数、命中该待处理词汇分别与每个种子词汇的结合的第二文档数集合以及命中该结合的文档集合中相应的摘要信息的模块;

获得每个种子词汇对应的摘要信息中该待处理词汇与相应种子词汇间符合设定共现关系的文档比例的模块;

根据该查询的总文档数量、该第一文档数、该第二文档数集合、命中每个种子词汇的第三文档数集合以及每个种子词汇对应的文档比例获得该待处理词汇与每个种子词汇的点间互信息的模块;以及

根据各种子词汇的褒贬情况及相应的点间互信息确定该待处理词汇的语义褒贬的模块。

该装置还可以包括:

用于预先选定该各种子词汇的模块;以及

用于通过搜索引擎分别查询命中每个种子词汇的文档数构成该第三文档数集合的模块。

综上所述,本发明实施例充分利用了与查询词相关的搜索引擎动态摘要中的词汇共现关系,从而提高了词汇语义褒贬判断的准确率。实验表明,采用本发明实施例提供的方法,明显提高词汇语义褒贬分析的准确率,从而大大增强其实用性。其中,基于搜索引擎摘要中句子或片断内NEAR关系的方法,与基于搜索引擎AND操作符的方法相比,在词汇褒贬判断准确率方面有明显的提升效果。发明人统计得出如下数据:英文词汇测试集(GI(General Inquirer)词典标注褒义、贬义的词汇)准确率由67.78%提高到了81.33%,中文词汇测试集(HowNet词典标注“良”、“莠”的词汇)准确率由58.58%提高到69.78%。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号