首页> 中国专利> 面向资源缺乏语言的实体链接系统

面向资源缺乏语言的实体链接系统

摘要

本发明涉及一种面向资源缺乏语言的实体链接系统,该系统采用基于规则和统计相结合的方法,对维吾尔语词汇进行词干切分和词性标注;根据实体指称项的上下文,对实体指称项进行扩充,通过机器翻译的双语对齐技术,实现汉语和维吾尔语词汇的对齐操作,从而利用汉语的丰富语义对维吾尔语进行扩充,获取候选实体;通过融合实体上下文特征、篇章主题特征和知识库中的概念图特征,对候选实体进行排序,将实体指称项链接到排序后的目标实体。通过本发明所述的系统解决资源缺乏语言的实体链接问题并构建实用化的维吾尔语实体链接系统。该系统能够实现语言资源缺乏的维吾尔语的实体链接功能,从而满足智能信息处理需求。

著录项

  • 公开/公告号CN104933039A

    专利类型发明专利

  • 公开/公告日2015-09-23

    原文格式PDF

  • 申请/专利权人 中国科学院新疆理化技术研究所;

    申请/专利号CN201510304943.8

  • 申请日2015-06-04

  • 分类号G06F17/28(20060101);

  • 代理机构65106 乌鲁木齐中科新兴专利事务所;

  • 代理人张莉

  • 地址 830011 新疆维吾尔自治区乌鲁木齐市北京南路40号附1号

  • 入库时间 2023-12-18 11:00:03

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-03-20

    授权

    授权

  • 2015-10-21

    实质审查的生效 IPC(主分类):G06F17/28 申请日:20150604

    实质审查的生效

  • 2015-09-23

    公开

    公开

说明书

技术领域

本发明涉及信息技术领域中的信息抽取、知识发现领域,尤其涉及面向资源缺乏语言 的实体链接系统。

背景技术

实体链接(Entity Linking)作为自然语言处理技术的一个分支,是指对于给定的实体 指称项,将其链接到知识库中的实体概念的过程。主要针对自然语言的多样性和歧义性问 题,通过将自然语言中的文本与知识库中的条目进行链接,实现阅读增强、以实体为中心 的精准信息聚合、知识库扩建等工作。

在候选实体发现方面,主要有两种方法,一种是基于维基百科的方法,利用维基百科 中锚文本的超链接关系、消歧页面以及重定向页面获得候选实体。另一种是基于主题模型 的方法。

在候选实体链接方面,核心仍然是计算实体指称项和候选实体的相似度,并选择相似 程度最高的候选实体作为链接的目标实体。从相似度计算的方式上,可以分成单一实体链 接和协同实体链接。单一实体链接仅仅考虑实体指称项与目标实体间的语义相似度。协同 实体链接通过利用协同式策略综合考虑多个实体间的语义关联,建立全局语义约束,从而 更好地对于文本内的多个实体进行消岐。

在现有的实体链接系统中存在以下问题:

1)系统运行需要丰富的语言资源,包括词性标注、句法分析等工具和标注资源库和知 识库等;

2)目前还不存在一种面向新疆地区维吾尔语等小语种的实体链接系统可供使用;

为解决上述常规实体链接系统中存在的问题,本发明提供了一种面向资源缺乏语言的 实体链接系统。该系统可以通过词向量技术从未标注语料中进行语义发现并利用双语对齐 技术进行语义扩充,缓解了传统实体链接系统的语言资源依赖问题。

发明内容

本发明目的在于,提供了一种面向资源缺乏语言的实体链接系统,该系统采用基于规 则和统计相结合的方法,对维吾尔语词汇进行词干切分和词性标注;根据实体指称项的上 下文,对实体指称项进行扩充,得到实体指称项的上下文信息;通过机器翻译的双语对齐 技术,实现汉语和维吾尔语词汇的对齐操作,从而利用汉语的丰富语义对维吾尔语进行扩 充,获取候选实体;通过融合实体上下文特征、篇章主题特征和知识库中的概念图特征, 对候选实体进行排序,将实体指称项链接到排序后的目标实体。本发明所述系统通过双语 对齐技术,利用资源丰富语言对资源缺乏语言的语义信息进行扩充,并融合了实体上下文 特征、篇章主题特征和知识库中的概念图特征对候选实体进行排序,其目的在于解决资源 缺乏语言的实体链接问题并构建实用化的维吾尔语实体链接系统。本发明所述的系统能够 实现语言资源缺乏的维吾尔语的实体链接功能,从而满足智能信息处理需求。

本发明所述的一种面向资源缺乏语言的实体链接系统,该系统面向新疆地区的少数民 族语言——维吾尔语,通过规则和统计相结合的方法,利用汉语的丰富语言资源对维吾尔 语进行语义扩充,完成实体链接,具体操作按下列步骤进行:

a.实体指称项获取模块:识别出文本中待链接到实体库的实体指称项;

b.维吾尔语预处理模块:采用基于规则和统计相结合的方法,对维吾尔语词汇进行词 干提取和词性标注,词干提取是将词汇切分为词干和词缀,并保留词干部分,其中词性标 注为标明该词汇的词性,如名词、动词、形容词;

c.实体指称项扩充模块:根据实体指称项的上下文,对实体指称项进行扩充,得到实 体指称项的上下文信息;

d.候选实体获取模块:通过机器翻译的双语对齐,实现汉语和维吾尔语词汇的对齐操 作,利用汉语的丰富语义对维吾尔语进行扩充,扩充后的文本组成实体库中实体的上下文 信息,将实体指称项的上下文信息与实体库中实体的上下文信息进行相似度计算,获取候 选实体;

e.候选实体排序模块:通过融合实体上下文特征、篇章主题特征和知识库中概念图特 征,对候选实体进行排序,将实体指称项链接到排序后的目标实体即可。

步骤b中所述的基于规则和统计相结合的词性标注方法:是根据维吾尔语词后缀的结合 规则,总结出词缀组合规则与维吾尔语词性的对应关系,先使用最大熵统计方法和条件随 机场统计方法对词性做出一个粗略的判断,然后利用总结出的规则,对使用统计得到的词 性标注结果进行验证。

步骤c中所述的实体指称项的上下文是实体指称项前后指定长度的文本。

步骤c中所述的对实体指称项的上下文进行扩充是利用词向量模型和维基百科标签对 其上下文进行扩充。

词向量的上下文扩充是使用深度学习方法进行多次迭代,通过逻辑回归的方法对文本 进行训练,采用二次抽样的方法来平衡训练语料中的频繁词汇和非频繁词汇的不对称,将 训练文本集合内的每个词汇表示成为200维的特征向量,通过度量向量之间的余弦相似度, 获取词汇间的语义关联,并将语义最为近似的词汇作为实体指称项的上下文。

维基百科标签的上下文扩充是使用维基百科标签作为中间媒介,计算实体指称项上下 文和所有维基百科标签上下文的余弦相似度,并从结果中选取相似性最高的一个子集,将 相似性最高的标签作为实体指称项的上下文。

步骤e中所述的实体上下文特征是实体指称项的上下文特征与候选实体的知名度特征、 名称特征的概率乘积。

步骤e中所述的实体篇章主题特征是在基于统计的主题模型中,实体指称项所包含的主 题与候选实体包含的主题之间的相似程度。

步骤e中所述的实体概念图特征是在以维基百科为基础的知识网络中,基于语义相似 度、共现度计算得到的实体指称项和候选实体相似程度。

本发明所述的一种面向资源缺乏语言的实体链接系统,该系统包括:1)实体指称项获 取模块:识别出文本中待链接到实体库的实体指称项;2)维吾尔语预处理模块:采用基于 规则和统计相结合的方法,对维吾尔语词汇进行词干提取和词性标注;3)实体指称项扩充 模块:根据实体指称项的上下文,对实体指称项进行扩充,得到实体指称项的上下文信息; 4)候选实体获取模块:通过机器翻译的双语对齐技术,实现汉语和维吾尔语词汇的对齐操 作,从而利用汉语的丰富语义对维吾尔语进行扩充,获取候选实体;5)候选实体排序模块: 通过融合实体上下文特征、篇章主题特征和知识库中的概念图特征,对候选实体进行排序, 将实体指称项链接到排序后的目标实体。

本发明所述的一种面向资源缺乏语言的实体链接系统,该系统是通过以下技术方案实 现的:

a、实体指称项获取:从输入文本中获得待链接到实体库的实体指称项;

b、维吾尔语预处理:对输入文本进行预处理,词干切分,去停用词,去标点符号;采 用规则与统计相结合的方式进行词性标注,统计方法采用最大熵与条件随机场相结合的方 式。先用最大熵为每个兼类词选择两个候选词性,然后再用条件随机场模型在这两个词性 中进行选择,不仅保留最优路径,而且将从其余几条路径中为每个兼类词选择出第二个最 合适的候选词性。根据维吾尔语词的构词特点和维吾尔语词后缀的结合规则,总结出词缀 组合规则与维吾尔语词性的对应关系,先使用统计的方法对词性做出一个粗略地判断,然 后利用总结出的规则,对使用统计得到的词性标注结果进行验证。

c、实体指称项扩充:利用词向量模型和维基百科标签,对实体指称项进行扩充,得到 扩充后的实体指称项上下文信息;

d、基于双语对齐的候选实体获取:给定文档d的上下文窗口c,词汇w的上下文信息可 由如下公式训练得到:

窗口。该目标函数可以对比正确词汇放入上下文和随机词汇放入同一个上下文时的不同打 分。

使用机器翻译中的词汇对齐技术来初始化双语词嵌入(word embeddings)过程,具体 如下所示:

Wt-init=Σs=1SCts+1Ct+S·Ws---(2)

其中S表示与原始词汇对齐的可能的目标词汇数量,Cts表示原始词汇s与目标词汇t对齐 的数量,Ct表示目标词汇t出现在目标语言中的总数量。

通过对齐数量来生成对齐矩阵Auy→zh和Azh→uy,对于Auy→zh,每行对应一个汉语词汇, 每列对应一个维吾尔语词汇,矩阵中的一项aij初始化为第i个汉语词汇与第j个维吾尔语词 汇在双语平行语料中对齐的数量。然后将矩阵中的每行归一化到加和为1。矩阵Azh→uy通过 类似方式定义。

汉语词嵌入表示为Vzh,维吾尔语词嵌入表示为Vuy,通过这两个对齐矩阵,将汉语词 嵌入表示为(其中,λ取值50):

JCO-zh+λ·JTEO-uy-zh  (3)

JTEO-uy-zh=||Vzh-Auy-zh·Ven||2  (4)

维吾尔语词嵌入表示为:

JCO-uy+λ·JTEO-zh-uy  (5)

JTEO-zh-uy=||Ven-Azh-en·Vzh||2  (6)

通过双语对齐,可以利用汉语的丰富语义信息对维吾尔语等资源缺乏的语言进行语义 扩充,确保候选实体的正确选取。

e、多特征融合的候选实体排序:引入三种重要的附加语义特征,分别是实体上下文特 征、篇章主题特征和知识库中的概念图特征,并融合这些特征对候选实体进行排序。

上下文与主题特征:实体本身包含知名度特征P(e)、名称特征P(s|e)和上下文特征P(c|e), 一个实体指称项m(其上下文是c,名称是s)与实体e,实体e是实体指称项m的目标实体的 概率可表示为:

P(m,e)=P(s,c,e)=P(e)·P(s|e)·P(c|e)  (7)

文章中的实体通常与文本主题相关,因此这些实体之间也存在着语义相关性。基于这 种主题一致性假设,构建面向实体链接的主题模型。假设每一篇文本都有N个内在主题, 每一个主题是实体的多项式分布,为实体分配若干主题。

知识库概念图特征:以维基百科维吾尔语版作为维吾尔语知识库,从知识库中构建知 识网络,并基于语义相似度、共现度来计算知识图间的相似度。通过实体指称项的上下文 特征和知识库中概念的知识图片段进行基于语义的相似度计算,从而去除指称项的歧义性, 正确定位所对应的实体。

基于图的协同推断通过将证据在图上的依存结构上传递来协同增强证据收敛,如下所 示:

rt+1=(1-λ)×T×rt+λ×S  (8)

其中,rt+1表示在时间t+1上的证据,T表示证据传递率矩阵(Referent Graph)的归一化 相邻矩阵,λ表示证据重分配率,S表示初始证据。

本发明所述的一种面向资源缺乏语言的实体链接系统,该系统所提供的技术方案的积 极效果是:通过机器翻译技术对双语进行自动对齐处理,利用常用语种(汉语)的丰富语 言资源和语义特征,对资源缺乏语言(维吾尔语等)进行语义扩充,克服了小语种语言资 源缺乏的问题。融合实体上下文特征、篇章主题特征和知识库中的概念图特征对候选实体 进行排序,解决了在语言资源缺乏情况下,精确链接实体指称项和候选实体的问题。

附图说明

图1为本发明流程图;

图2为本发明最大熵结合条件随机场总体结构图;

图3为本发明基于主题特征的候选实体排序示意图;

图4为本发明基于知识库的实体关联示意图;

图5本发明基于概念图的协同推断示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面结合附图对本发明做进一步的 详细说明。

实施例

a.实体指称项获取模块:识别出文本中待链接到实体库的实体指称项,实体指称项是准 备链接到实体库的一段文本描述,如维吾尔语单词“kechiche”(汉语翻译:整夜,在专利 内容的后半部分,将使用拉丁维文的方式书写维吾尔语);

b.维吾尔语预处理模块:采用基于规则和统计相结合的方法,对维吾尔语词汇进行词 干提取和词性标注,词干提取是将词汇切分为词干和词缀,并保留词干部分,其中词性标 注为标明该词汇的词性,如名词、动词、形容词,其中,对维吾尔语词汇进行词干和词缀 切分,并保留词干部分。如维吾尔语单词“kechiche”,提取词干的结果是“kech”,汉语翻 译是“晚上”;

词性标注采用规则与统计相结合的方式进行,如图2所示,统计方法采用最大熵与条件 随机场相结合的方式。先用最大熵为每个兼类词选择两个候选词性,然后再用条件随机场 模型在这两个词性中进行选择,不仅保留最优路径,而且将从其余几条路径中为每个兼类 词选择出第二个最合适的候选词性;根据维吾尔语词的构词特点和维吾尔语词后缀的结合 规则,总结出词缀组合规则与维吾尔语词性的对应关系,先使用统计的方法对词性做出一 个粗略地判断,然后利用总结出的规则,对使用统计得到的词性标注结果进行验证。如如 维吾尔语单词“kech”,词性标注的结果是“kech/n”,即“kech”的词性是名词;

c.实体指称项扩充模块:根据实体指称项的上下文,对实体指称项进行扩充,得到实 体指称项的上下文信息,对经过词干提取和词性标注的实体指称项进行扩充。

其中,扩充包括以下两种方式:

1)以实体指称项作为输入,在词向量模型中通过余弦相似度方法,寻找语义相近词汇 作为扩充项,如以“夜晚”作为输入,则可以获得“夜、夜色、傍晚”等扩充词汇项;

词向量模型的训练方法是:使用深度学习方法进行多次迭代,对文本进行训练,将训 练文本集合内的每个词汇表示成为200维的向量特征,进而可以通过度量向量之间的余弦相 似度,获取词汇间的语义关联,对于两个词汇对应的词向量,用A:[A1,A2,...,An]和B:[B1, B2,...,Bn]表示,余弦相似度的计算公式为:

cosθ=A·B|A|×|B|---(1)

2)以实体指称项作为输入,在维吾尔语维基百科标签库中,通过余弦相似度方法,寻 找相似词汇,并作为扩充项;具体方法是:首先计算所有维基百科标签与输入文本的相似 性,并从结果中选取相似性最高的一个子集;然后直接计算两个输入文本所对应的维基百 科标签集之间的相似性,从而获取相似性结果。基于维基百科标签的相似性计算包括:对 于词汇wi,vwi表示其词向量,整个文本的词向量用如下公式表示:

vS=Σi=1nvwi/n---(2)

其中S表示文本,n表示S中的词汇数量。T={t1,t2,Λ,tn}表示维基百科标签集合,ti表示 其中的一个标签,对于词向量表示vS,遍历计算vS与ti的相似性,并最终选出相似性最高的 一个子集作为输入文本S的扩充维基百科标签。如以“维吾尔语”作为输入,则可以获得“突 厥语族、土耳其语、新疆”等扩充词汇项;

d.候选实体获取模块:通过机器翻译的双语对齐,实现汉语和维吾尔语词汇的对齐操 作,利用汉语的丰富语义对维吾尔语进行扩充,扩充后的文本组成实体库中实体的上下文 信息,将实体指称项的上下文信息与实体库中实体的上下文信息进行相似度计算,获取候 选实体;对符合条件的候选实体进行选取,其中,维吾尔语属于语言资源缺乏的小语种, 通过实现基于双语平行语料的词嵌入(word embeddings)学习算法和基于机器翻译的双语 对齐,利用资源丰富语言(汉语)对维吾尔语进行语义扩充。

使用机器翻译中的词汇对齐技术来初始化双语词嵌入过程,具体如下所示:

Wt-init=Σs=1SCts+1Ct+S·Ws---(3)

其中S表示与原始词汇对齐的可能的目标词汇数量,Cts表示原始词汇s与目标词汇t对齐 的数量,Ct表示目标词汇t出现在目标语言中的总数量;

通过对齐数量来生成对齐矩阵Auy→zh和Azh→uy,对于Auy→zh,每行对应一个汉语词汇, 每列对应一个维吾尔语词汇,矩阵中的一项aij初始化为第i个汉语词汇与第j个维吾尔语词 汇在双语平行语料中对齐的数量。然后将矩阵中的每行归一化到加和为1。矩阵Azh→uy通过 类似方式定义;

汉语词嵌入表示为Vzh,维吾尔语词嵌入表示为Vuy,通过这两个对齐矩阵,将汉语词 嵌入表示为(其中,λ取值50):

JCO-zh+λ·JTEO-uy-zh  (4)

JTEO-uy-zh=||Vzh-Auy-zh·Ven||2  (5)

维吾尔语词嵌入表示为:

JCO-uy+λ·JTEO-zh-uy  (6)

JTEO-zh-uy=||Ven-Azh-en·Vzh||2  (7)

通过双语对齐,可以形成汉语-维语词对,如:Zh-Uy{'晚上','kech'},{'苹果','alma'}等;

e.候选实体排序模块:通过融合实体上下文特征、篇章主题特征和知识库中的概念图特 征,对候选实体进行排序,将实体指称项链接到排序后的目标实体,采用多特征融合的方 法对选取的候选实体进行排序,其中,基于主题特征的候选实体排序通过构建面向实体链 接的主题模型来获取实体之间的语义相关信息;如一句文本:“苹果发布iphone”,通过主 题模型,可以得到如下的主题分布结果,如图3所示:

苹果发布iPhone→{IT0.38,手机0.28,Apple公司0.36}。其中,基于知识库概念图特征的候 选实体排序是:以维基百科维吾尔语版作为维语知识库,从知识库中构建知识网络,并基 于语义相似度、共现度来计算知识图间的相似度;通过实体指称项的上下文特征和知识库 中概念的知识图片段进行基于语义的相似度计算,从而去除指称项的歧义性,正确定位所 对应的实体,如图4所示,乔丹本身可能是一位体育明星、影视明星或是一位学者,但是如 果指称项的上下文有提及到篮球、棒球或者公牛队,则会以较高的相似度定位到迈克尔· 乔丹这一实体概念;

候选实体在知识图中的相连节点也会与指称项上下文中的其他实体有着紧密的联系, 从而可以通过基于图的协同推断对候选实体进行排序;

图5展示了一个基于图的协同推断示例:输入文本是:“在公牛期间,乔丹出演了电影 大灌篮”。其中“公牛”有两个候选实体,分别是“芝加哥公牛队”和“公牛(动物)”;“乔 丹”有三个候选实体,分别是“乔丹(NBA球星)”、“乔丹(好莱坞影星)”和“乔丹(机 器学习专家)”;“大灌篮”则只有一个候选实体:“宇宙大灌篮”。而其中,实体“宇宙大灌 篮”和“芝加哥公牛队”都与实体“乔丹(NBA球星)”有紧密联系,从而确定了输入文本 中的“乔丹”的正确候选实体应为“乔丹(NBA球星)”。

本发明未详细阐述的部分属于本领域公知技术。显然,本领域的技术人员应该意识到, 在本发明的范围内和精神指导下,各种改进、添加和替换都是可能的,如改变数据格式和 内容、调整接口调用次序、使用不同编程语言(如Python、C、C++、Java等)实现等。这 样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发 明也意图包含这些改动和变型在内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号