法律状态公告日
法律状态信息
法律状态
2020-06-02
未缴年费专利权终止 IPC(主分类):G06F17/27 授权公告日:20170118 终止日期:20190610 申请日:20140610
专利权的终止
2017-01-18
授权
授权
2014-12-03
实质审查的生效 IPC(主分类):G06F17/27 申请日:20140610
实质审查的生效
2014-08-27
公开
公开
技术领域
本发明属于文本语义信息处理技术领域,具体涉及一种基于语义空间映射的语义关系表征、聚类及识别的方法和系统。
背景技术
随着计算机的普及与网络技术的发展,各种海量的数据以电子文本的形式呈现出来,如何从中抽取出用户所关心的语义信息至关重要,除了实体抽取,用户往往会更加关心实体间的语义关系究竟是什么,因为语义关系才真正反映了数据互联的本质,将纷繁的实体世界有机地结合在一起,它在诸多领域都具有重要的应用价值:如在信息检索系统中,实体关系抽取技术使实现类似于“Which city is the capital of China”这样的语义检索功能成为可能;在自动应答系统中,实体关系抽取技术能够自动关联问题和相关的答案;在本体学习过程中,实体关系抽取技术能够发现新的实体间关系并用来进一步丰富本体结构;在语义网标注任务中,关系抽取能够自动关联语义网知识单元,等等。
然而,目前的实体关系抽取技术主要是基于种子模式迭代搜索的方法或者是基于自然语言处理的方法,它们最终抽取出的是一种确定性的关系描述,而这种确定性描述在词语变形、同义词变化、语法形式变化等情况下的鲁棒性不强,导致在此基础上的关系间语义比较的准确性不高,从而给后续的应用需求如关系聚类或识别带来了困难。
发明内容
本发明针对当前实体间语义关系抽取技术背景的不足,提出了一种基于语义空间映射的语义关系表征、聚类及识别的方法和系统。
本发明提出的基于语义空间映射的语义关系表征、聚类及识别的方法,具体步骤为:
1、输入实体对及语句,即输入待查询的实体对,及同时包含该对实体的语句;
2、抽取实体间关系,对于待抽取关系的实体对,对同时包含它们的语句进行语法依存关系分析;包括语法依存关系分析和最短路径计算;其中:
语法依存关系分析是对输入的语句进行语法依存分析,获得文本单元间的语法依赖关系。
最短路径计算是将语法依存树看作是一个Graph,并将输入实体对看作是Graph中的两个感兴趣结点,同时令各结点间的边的权值均为1;采用最短路径算法求解出该两个感兴趣结点间的最短路径,并用该路径来描述两个结点之间发生关系的实质内容;
3、关系语义向量表征,即对路径上的词语进行过滤处理,去除其中无语义的停用词;然后对每一个单词,获取其在语义空间中的投影向量,并将这些语义向量进行累加,获得该关系在语义空间上的向量表示;
4、关系聚类,
在关系向量化的基础上,对于多实体对的场景,使用聚类方法并结合向量相似性度量,进行关系聚类;
5、关系模型构建模块,对于完成聚类的实体对的每一类关系,根据其向量集合构建关系模型,
6、最后,进行关系识别,即依据该向量与预先标定关系的语义距离实现关系的识别。
具体是,对于待查询实体对,在按步骤(1)-(3)所述获得其关系向量表征后,将该向量与关系模型库中的关系模型依次进行比较,例如:对均值向量模型、高斯模型,可直接比较向量间相似度或者是计算输入向量属于模型的概率值,遍历后取最高值对应的类别作为输出;对人工神经网络、支持向量机,则是直接输出对应的类别。
根据上述输出的类别,从关系模型库中取出预先标注的相应类的关系标签赋给输入实体对,从而完成了关系的识别过程。
本发明提供的基于上述方法的系统,由六大模块组成:实体对及语句输入模块、实体间关系抽取模块、关系语义向量表征模块、关系聚类模块、关系模型构建模块、关系识别模块,其中,实体间关系抽取模块又包括两个子模块:语法依存关系分析子模块和最短路径计算子模块。
其具体内容如下:
(1)实体对及语句输入模块,用于输入待查询的实体对,及同时包含该对实体的语句;所述语句既可以是单句,也可以是从语句资源库中筛选出的满足条件的多句。
(2)实体间关系抽取模块,具体包括以下两个子模块:
语法依存关系分析子模块和最短路径计算子模块:
(2.1)语法依存关系分析子模块,用于对输入的语句进行语法依存分析,获得文本单元间的语法依赖关系。这里,凡是具备语法依存分析功能的工具均可使用,优选地,可使用美国斯坦福大学的Stanford Parser (http://nlp.stanford.edu/software/index.shtml);
(2.2)最短路径计算子模块,具体内容如下:
(2.2.1)将语法依存树看作是一个Graph,并将输入实体对看作是Graph中的两个感兴趣结点,同时令各结点间的边的权值均为1;
(2.2.2)采用最短路径算法求解出该两个感兴趣结点间的最短路径,并用该路径来描述两个结点之间发生关系的实质内容;这里,最短路径求解算法有多种,如Dijkstra算法、A*算法、Floyd算法、Bellman-Ford算法、SPFA(Shortest Path Faster Algorithm)算法、Johnson算法等,优选地,采用Dijkstra算法。
(3)关系语义向量表征模块,具体内容如下:
(3.1)对路径上的词语进行过滤处理,去除其中无语义的停用词;
(3.2)对每一个单词,获取其在语义空间中的投影向量,并将这些语义向量进行累加。语义向量可通过多种方法计算获得,如Word2Vec方法、ESA(Explicit semantic analysis)方法、LSA(Latent semantic analysis)方法、共现词频率特征等等,优选地,采用Word2Vec方法(https://code.google.com/p/word2vec/,同时参见文献[1,2,3]);
[1] Tomas Mikolov, et al. Efficient Estimation of Word Representations in Vector Space. In Proceedings of Workshop at ICLR, 2013.
[2] Tomas Mikolov, et al. Distributed Representations of Words and Phrases and their Compositionality. In Proceedings of NIPS, 2013.
[3] Tomas Mikolov, et al. Linguistic Regularities in Continuous Space Word Representations. In Proceedings of NAACL HLT, 2013.
构建语义向量的训练数据可来源于各大知识库,优选地,采用维基百科知识库(http://www.wikipedia.org/)。
(4)关系聚类模块,具体内容如下:
关系聚类是在关系抽取基础上的进一步语义挖掘;
(4.1)对于一批实体对,按前述方法分别计算得到各自的关系向量;
(4.2)在此基础上,进一步地对它们进行关系聚类。聚类方法有多种,如Kmeans方法、层次聚类方法等,优选地,采用Kmeans方法。相似性度量可采用多种度量,如Cosine、Cityblock、Euclidean、Mahalanobis、Minkowski、Chebychev等,优选地,采用Cosine相似度。
(5)关系模型构建模块,具体内容如下:
对于完成聚类的实体对的每一类关系,根据其向量集合构建关系模型,模型的构建可使用多种方法,如均值向量模型、高斯模型、人工神经网络、支持向量机等,优选地,使用均值向量模型;同时,人工为每一类关系标定出其对应的关系标签;
其中,mi,j表示第i类中第j个向量,ni为该类中的样本个数,
在模型构建完成后,将其添加进关系模型库。
(6)关系识别模块,具体内容如下:
(6.1)对于待查询实体对,在按模块(1)-(3)所述获得其关系向量表征后,将该向量与关系模型库中的关系模型依次进行比较,例如:对均值向量模型、高斯模型,可直接比较向量间相似度或者是计算输入向量属于模型的概率值,遍历后取最高值对应的类别作为输出;对人工神经网络、支持向量机,则是直接输出对应的类别。
以均值向量模型为例,输出的类别class为:
V为待识别关系的语义向量,为对应i类关系的均值向量,i∈{1,2,…,N},N为关系模型库中的模型数目,Sim(a,b)表示向量a和向量b的相似度,这里的相似性度量可采用多种度量,如Cosine、Cityblock、Euclidean、Mahalanobis、Minkowski、Chebychev等,优选地,采用Cosine相似度;
(6.2)根据上述模块输出的类别,从关系模型库中取出预先标注的相应类的关系标签赋给输入实体对,从而完成了关系的识别过程。
本发明的有益效果
本发明通过将语义关系映射为向量,克服了传统方法在进行实体间关系比较时对词语变形、同义词变化、语法形式变化等因素敏感的缺点,不但便于进一步的关系聚类,而且易于实现关系的识别,在提高关系比较准确性的同时,也增强了处理的灵活性。
附图说明
图1:系统模块图。
具体实施方式
以下用实例来演示本发明的具体实施方式,系统各模块依次进行处理如下:
(1)实体对及语句输入
输入例句:
"Beijing is the capital of China."。
(2)实体间关系抽取
(2.1)语法依存关系分析
使用Standford Parser对例句进行语法依存关系分析,得到如下结果:
nsubj(capital-4, Beijing-1)
cop(capital-4, is-2)
det(capital-4, the-3)
root(ROOT-0, capital-4)
prep_of(capital-4, China-6)
(2.2)最短路径计算
将上述结果看作是Graph,被分析单元看作是Graph中的结点,然后采用Dijkstra算法计算两个感兴趣结点“Beijing”和 “China”间的最短路径,得到如下结果:
Shortest Path: [Beijing, capital, China]
也即,用“capital”可描述“Beijing”和“China”之间所发生的最本质的语义关系。
(3)关系语义向量表征
基于整个英文维基库的文本语料,使用Word2Vec进行训练,训练输出的向量维度为500维。对于最短路径上的词语,分别从训练结果中取出对应的语义向量,然后再进行向量累加,从而得到该关系的语义向量表征。
(4)关系聚类
以FreeBase库(http://www.freebase.com/)作为关系比较的基准,从中选择10类关系,并为每种关系选出若干实体对,共计56对。
Germany/ Berlin
France/ Paris
Canada/ Ottawa
Russia/ Moscow
Italy/ Rome
England/ London
Netherlands/ Amsterdam
Spain/ Madrid
Austria/ Vienna
2." person/nationality":
Barack Obama/ United States of America
Bill Clinton/ United States of America
Margaret Thatcher/ United Kingdom
Jacques Chirac/ France
Nicolas Sarkozy/ France
Tony Blair/ United Kingdom
3." director/film":
Martin Scorsese/ Goodfellas
Quentin Tarantino/ Reservoir Dogs
Luc Besson/ Nikita
George Lucas/ Star Wars
Francis Ford Coppola/ The Godfather
4." olympic_host_city/olympics_hosted":
London/ 2012 Summer Olympics
Los Angeles/ 1984 Summer Olympics
Lillehammer/ 1994 Winter Olympics
Albertville/ 1992 Winter Olympics
Turin/ 2006 Winter Olympics
5." book_character/appears_in_book":
Shylock/ The Merchant of Venice
Heathcliff/ Wuthering Heights
Hester Prynne/ The Scarlet Letter
Alexandre Manette/ A Tale of Two Cities
6." Company/brand ":
Apple/ Macintosh
The Coca-Cola Company/ Coca-Cola
Nestlé/ Nescafé
Colgate-Palmolive/ Colgate
Kraft Foods/ Tang
PepsiCo/ Mountain Dew
Kimberly-Clark/ Kleenex
DuPont/ Teflon
7." river/mouth":
Yellow River/ Bohai Sea
Yangtze River/ East China Sea
Mississippi River/ Gulf of Mexico
Nile/ Mediterranean Sea
Volga River/ Caspian Sea
Danube/ Black Sea
8." award/presented_by":
Grammy Awards/ National Academy of Recording Arts and Sciences
Golden Globe Awards/ Hollywood Foreign Press Association
Academy Award/ Academy of Motion Picture Arts and Sciences
9." military_person/participated_in_conflicts":
Erwin Rommel/ World War II
10." orbital_relationship/orbits":
Moon/ Earth
Earth/ Sun
Mars/ Sun
Charon/ Pluto
Venus/ Sun
Saturn/ Sun
Jupiter/ Sun
Uranus/ Sun
Deimos/ Mars 。
从英文维基库语料中检索包含以上实体对的语句,最终为不同实体对搜索到的语句数目分别从2句到2980句不等,共计13349句。
对每一对实体对的语句集合,对其中每句分别进行语法依存关系分析、最短路径计算、关系语义向量表征后,计算其均值向量作为表征该实体对间关系的语义向量;
当遍历了所有实体对后,再对得到实体对关系表征的语义向量集合进行Kmeans聚类,聚类数目设定为10,经聚类实验后有51对实体的关系被正确聚类,聚类正确率为:51/56 = 91.1% 。
(5)关系模型构建
对每一类关系,选择半数的实体对用于关系的建模,模型标签则来自于FreeBase的关系定义,建模使用均值向量模型。
(6)关系识别
将关系建模剩下的另一半实体对用于关系识别的测试实验,相似性度量使用Cosine相似度。经实验,用于关系识别实验的28对实体对全部被贴上了正确的关系标签,识别正确率为:28/28 = 100% 。
机译: 一种基于语义相似度的电子文档自动迭代聚类的方法,一种基于语义相似度的聚类文档的多种搜索方法及计算机可读介质
机译: 语义词典管理器,语义文本编辑器,语义术语注释器,语义搜索引擎和语义信息系统构建器,该方法基于立即定义语义术语的方法来识别每个单词的准确含义
机译: 对象语义数据建模系统;一种用于创建相对于数据库存储数据的数据库模式的方法,一种在D中解释公式的方法,以及一种对象语义类型的数据模型的有效期的数据模型,该对象语义类型的数据模型包括多个对象语义。和系统来创建数据库架构