公开/公告号CN107423284A
专利类型发明专利
公开/公告日2017-12-01
原文格式PDF
申请/专利权人 中国科学院自动化研究所;
申请/专利号CN201710449875.3
申请日2017-06-14
分类号
代理机构北京瀚仁知识产权代理事务所(普通合伙);
代理人郭文浩
地址 100080 北京市海淀区中关村东路95号
入库时间 2023-06-19 03:56:57
法律状态公告日
法律状态信息
法律状态
2020-03-06
授权
授权
2017-12-26
实质审查的生效 IPC(主分类):G06F17/27 申请日:20170614
实质审查的生效
2017-12-01
公开
公开
技术领域
本发明涉及自然语言处理技术领域,是一种融合中文单词内部结构信息的句子表示的构建方法及系统。
背景技术
句子表示是将一个自然语言的句子映射为一个高维空间中,使得语义相似的句子在这个空间中具有较近的距离。句子表示是自然语言处理的基础任务,直接影响到整个语言处理系统的性能。因此,人们投入了大量精力去研究如何针对特定的任务设计合适的句子表示方法,以提升语言处理系统的性能。
传统的句子表示方法用大量手工设计的特征来表示句子的含义,在各种自然语言处理任务中取得了良好的效果。但由于需要大量人力和专业知识,而且往往需要根据不同的任务选择特征,导致模型泛化能力差和特征表示困难的问题。最近几年,人们发现基于神经网络的模型可以从大规模文本中自动抽取句子的语义特征,并且极大的提升了句子语义表示的效果。
然而,绝大多数句子表示的研究都是针对英文句子,在单词粒度上设计不同的神经网络结构对句子的语义进行编码。与英文不同的是,中文的单词由字构成,字中包含了丰富的语义信息,可以反映这个单词的含义。事实上,目前已经有研究人员注意到这方面的问题,并利用中文单词中的字来改进词向量的学习,但这些方法并没有充分利用中文单词的内部信息,如字与字之间的关系,而且这些方法都只局限于词向量的学习任务中,并没有在句子表示中进行探索。因此,如何充分利用单词内部结构信息去学习更好的句子表示模型是一个非常值得研究的课题。
发明内容
为了解决现有技术中的上述问题,即为了解决单词内部结构信息利用率低的问题,本发明提供了一种融合中文单词内部结构信息的句子表示的构建方法及系统。
为解决上述技术问题,本发明提供了如下方案:
一种融合中文单词内部结构信息的句子表示的构建方法,所述构建方法包括:
对训练语料中所有的中文复述句对进行分词处理,得到多个单词语料;
对各所述单词语料进行预训练,得到预训练字向量和预训练词向量;
整合每个单词语料中的所有预训练字向量和预训练词向量,获得对应单词语料的组合词向量;
根据每个单词语料中的预训练词向量及所述组合词向量确定所述单词语料的最终词向量,所述最终词向量表征单词内部结构信息;
将待处理句子中的各个单词语料的最终词向量进行整合,得到所述待处理句子的表示向量。
可选的,所述对各所述单词语料进行预训练,具体包括:
对各所述单词语料按字进行拆分,得到字语料;
将单词语料和字语料拼接,得到字向量和词向量;
利用开源模型对所述字向量和词向量进行预训练,获得对应的预训练字向量和预训练词向量。
可选的,所述整合每个单词语料中的所有预训练字向量和预训练词向量,具体包括:
将每个单词语料的预训练字向量和预训练词向量进行拼接,得到对应预训练字向量的拼接向量;
将所述拼接向量输入到前馈神经网络中并进行非线性变换,得到对应所述预训练字向量的掩码向量;
根据每个单词语料中所有预训练字向量与对应的掩码向量确定所述单词语料的组合词向量。
可选的,将所述拼接向量输入到前馈神经网络中并进行非线性变换,具体包括:
根据如下公式确定掩码向量vij:
vij=tanh(W·[cij;xi])
其中,tanh()表示双曲正切函数,W是前馈神经网络的参数,cij是第i个单词语料xi中第j个预训练字向量。
可选的,所述根据每个单词语料中所有预训练字向量与对应的掩码向量确定所述单词语料的组合词向量,具体包括:
根据如下公式,将每个单词语料中所有预训练字向量与对应的掩码向量内积并求和,得到所述单词语料的组合词向量
其中,cij是第i个单词语料xi中第j个预训练字向量,vij为预训练字向量cij对应的掩码向量,m表示第i个单词语料的预训练字向量的全部数量。
可选的,所述根据每个单词语料中的预训练词向量及所述组合词向量确定所述单词语料的最终词向量,具体包括:
根据如下公式,基于最大池化方法,对预训练词向量和组合词向量的每一个维度上取最大值作为最终词向量
其中,
可选的,所述将待处理句子中的各个单词语料的最终词向量进行整合得到所述待处理句子的表示向量,具体包括:
通过句子组合函数将各个最终词向量整合为待处理句子的表示向量。
可选的,所述句子组合函数包括Average模型函数、Matrix模型函数、Dan模型函数、RNN模型函数及LSTM模型函数中至少一者。
可选的,所述训练语料为从百度百科中爬取的中文文本语料。
根据本发明的实施例,本发明公开了以下技术效果:
本发明融合中文单词内部结构信息的句子表示的构建方法通过对训练语料分词处理、对单词语料进行预训练,对预训练字向量和预训练词向量进行整合、确定最终词向量,从而对多个表征单词内部结构信息最终词向量进行整合以准确确定待处理句子的表示向量,提高单词内部结构信息的利用率。
为解决上述技术问题,本发明还提供了如下方案:
一种融合中文单词内部结构信息的句子表示的构建系统,所述构建系统包括:
分词单元,用于对训练语料中所有的中文复述句对进行分词处理,得到多个单词语料;
预训练单元,用于对各所述单词语料进行预训练,得到预训练字向量和预训练词向量;
第一整合单元,用于整合每个单词语料中的所有预训练字向量和预训练词向量,获得对应单词语料的组合词向量;
确定单元,用于根据每个单词语料中的预训练词向量及所述组合词向量确定所述单词语料的最终词向量,所述最终词向量表征单词内部结构信息;
第二整合单元,用于将待处理句子中的各个单词语料的最终词向量进行整合得到所述待处理句子的表示向量。
根据本发明的实施例,本发明公开了以下技术效果:
本发明融合中文单词内部结构信息的句子表示的构建系统通过设置分词单元、预训练单元、第一整合单元、确定单元及第二整合单元,可对训练语料分词处理、对单词语料进行预训练,对预训练字向量和预训练词向量进行整合、确定最终词向量,从而对多个表征单词内部结构信息最终词向量进行整合以准确确定待处理句子的表示向量,提高单词内部结构信息的利用率。
附图说明
图1是本发明融合中文单词内部结构信息的句子表示的构建方法的流程图;
图2是本发明融合中文单词内部结构信息的句子表示的构建系统的模块结构示意图。
符号说明:
分词单元—1,预训练单元—2,第一整合单元—3,确定单元—4,第二整合单元—5。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
本发明提供一种融合中文单词内部结构信息的句子表示的构建方法,通过对训练语料分词处理、对单词语料进行预训练,对预训练字向量和预训练词向量进行整合、确定最终词向量,从而对多个表征单词内部结构信息最终词向量进行整合以准确确定待处理句子的表示向量,提高单词内部结构信息的利用率。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明融合中文单词内部结构信息的句子表示的构建方法包括:
步骤100:对训练语料中所有的中文复述句对进行分词处理,得到多个单词语料;
步骤200:对各所述单词语料进行预训练,得到预训练字向量和预训练词向量;
步骤300:整合每个单词语料中的所有预训练字向量和预训练词向量,获得对应单词语料的组合词向量;
步骤400:根据每个单词语料中的预训练词向量及所述组合词向量确定所述单词语料的最终词向量,所述最终词向量表征单词内部结构信息;
步骤500:将待处理句子中的各个单词语料的最终词向量进行整合,得到所述待处理句子的表示向量。
其中,在步骤100中,所述训练语料为从百度百科中爬取的中文文本语料。
对汉语句子进行分词的方法有很多种。在本实施例中以开源的分词工具对汉语句子进行分词。
以中文复述句对:
在步骤200中,所述对各所述单词语料进行预训练,具体包括:
步骤201:对各所述单词语料按字进行拆分,得到字语料。
步骤202:将单词语料和字语料拼接,得到字向量和词向量。
步骤203:利用开源模型对所述字向量和词向量进行预训练,获得对应的预训练字向量和预训练词向量。
其中,在本实施例中,所述开源模型为skip-gram模型,但并不以此为限。
以“日本”为例,得到的300维的字向量和词向量为:
“日本-0.243430 0.294420 0.188458 -0.092921 0.139286 0.186599 0.011289-0.218883 -0.181062 0.152754…”;
“日-0.384900 0.214493 0.187968 -0.038464 0.057521 0.069445 -0.218115-0.035687 -0.126120 -0.419776 -0.312976…”。
在步骤300中,所述整合每个单词语料中的所有预训练字向量和预训练词向量,具体包括:
步骤301:将每个单词语料的预训练字向量和预训练词向量进行拼接,得到对应预训练字向量的拼接向量。
以“日本”为例,分别将一个单词语料“日本”中所有的预训练字向量“日”、“本”和预训练词向量“日本”进行拼接,可以得到两个600维的拼接向量。
步骤302:将所述拼接向量输入到前馈神经网络中并进行非线性变换,得到对应所述预训练字向量的掩码向量。
将所述拼接向量输入到前馈神经网络中并进行非线性变换,具体包括:
确定掩码向量vij,如公式(1)所示:
vij=tanh(W·[cij;xi])>
其中,tanh()表示双曲正切函数,W是前馈神经网络的参数,cij是第i个单词语料xi中第j个预训练字向量。其中,所述掩码向量vij来控制第i个单词语料xi对第j个预训练字向量含义的影响。
步骤303:根据每个单词语料中所有预训练字向量与对应的掩码向量确定所述单词语料的组合词向量。
其中,所述根据每个单词语料中所有预训练字向量与对应的掩码向量确定所述单词语料的组合词向量,具体包括:
将每个单词语料中所有预训练字向量与对应的掩码向量内积并求和,得到所述单词语料的组合词向量
其中,cij是第i个单词语料xi中第j个预训练字向量,vij为预训练字向量cij对应的掩码向量,m表示第i个单词语料的预训练字向量的全部数量。
在步骤400中,所述根据每个单词语料中的预训练词向量及所述组合词向量确定所述单词语料的最终词向量,具体包括:
基于最大池化方法,对预训练词向量和组合词向量的每一个维度上取最大值作为最终词向量
其中,
在步骤500中,所述将待处理句子中的各个单词语料的最终词向量进行整合得到所述待处理句子的表示向量,具体包括:
通过句子组合函数将各个最终词向量整合为待处理句子的表示向量。
其中,所述句子组合函包括Average(平均值)模型函数、Matrix(矩阵)模型函数、Dan(变换)模型函数、RNN(recurrent neural network,利用循环神经网络)模型函数及LSTM(long-short term memory,长短时记忆)模型函数中至少一者。
Average模型函数,是将一个句子中所有单词的向量表示进行平均得到最终的句子表示Rsentence,如公式(4)所示:
Matrix模型函数,首先利用Average模型函数得到句子的向量表示,然后与一个矩阵相乘并进行非线性变换得到最终的句子表示,如公式(5)所示:
Dan模型函数,首先利用Average模型函数得到句子的向量表示,然后利用多层前馈神经网络对这个句子表示进行变换得到最终的句子表示,如公式(6)所示:
RNN模型函数,将一个句子中的单词表示进行组合形成一个最终的句子表示,如公式(7)所示:
Rsentence=RNN(x)=f(Wxxi+Whhi-1+b)>
LSTM模型函数,将一个句子中的单词表示进行组合形成一个最终的句子表示,如公式(8)所示。
在得到复述句对中每个句子的表示向量后,采用最大间隔的目标函数,通过最大化正例与负例间的距离来求解模型参数,如公式(9)所示:
其中,(x1,x2)表示正例,是一个意思相近的句子对;(t1,t2)是负例,由随机组合的句子对构成,
表1给出了本发明与基于字的模型、基于词的模型和字词平均模型在三组测试数据(大数据,百度数据,总计Total(大数据与百度数据之和))上的对比结果。其中,训练数据包含30846个复述句对。根据表1可以得到:本发明在模型预测值与标准数值的相关度的评价指标(Pearson)上相比于基于词的模型有了平均2.00%Pearson相关性的提升,相比于字词平均模型有1.52%Pearson相关性的提高。这充分说明了本发明融合中文单词内部结构信息的句子表示的构建方法的有效性和优越性。
表1在不同句子相似度测试集上的Pearson相关性
除此之外,附表2给出了本发明与基于字的模型、基于词的模型和字词平均模型在单词相似度测试集的效果。从中可以直接得到,本发明可以有效的提升单词表示的性能。
表2在单词相似度测试集上的Pearson相关性
本发明融合中文单词内部结构信息的句子表示的构建方法的积极效果:中文的单词是由字构成的,对于大部分单词来说,字的含义在很大程度上影响了其构成单词的含义;而小部分中文单词是非组合词,其含义与构成字含义无关。本发明通过对中文单词的内部结构特点进行建模,可以有效的提升单词表示的效果,而且可以在一定程度上自动识别非组合词。本发明利用掩码门机制来控制一个单词中不同的字对这个单词语义的贡献程度,利用最大池化方法选择单词的含义是作为一个整体或者由字含义组合而成,并自动学习两者的权重。
通过在中文句子相似度任务上的实验,实验结果表明,相对于基于词的句子表示模型,本发明有平均2.00%Pearson相关性的提升;相对于基于字词平均方法的句子表示模型,本发明有平均1.52%Pearson相关性的提高。这充分证明了融合单词内部结构的有效性和优越性。
此外,本发明还提供一种融合中文单词内部结构信息的句子表示的构建系统。如图2所示,本发明融合中文单词内部结构信息的句子表示的构建系统包括分词单元1、预训练单元2、第一整合单元3、确定单元4及第二整合单元5。
其中,所述分词单元1用于对训练语料中所有的中文复述句对进行分词处理,得到多个单词语料;所述预训练单元2用于对各所述单词语料进行预训练,得到预训练字向量和预训练词向量;所述第一整合单元3用于整合每个单词语料中的所有预训练字向量和预训练词向量,获得对应单词语料的组合词向量;所述确定单元4用于根据每个单词语料中的预训练词向量及所述组合词向量确定所述单词语料的最终词向量,所述最终词向量表征单词内部结构信息;所述第二整合单元5用于将待处理句子中的各个单词语料的最终词向量进行整合得到所述待处理句子的表示向量。
相对于现有技术,本发明融合中文单词内部结构信息的句子表示的构建系统与上述融合中文单词内部结构信息的句子表示的构建方法的有益效果相同,在此不再赘述。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
机译: 使用知识数据库的中文单词处理程序,构建中文数据库文件的系统和中文字符图形文件系统
机译: 在自动翻译系统中提供中文句子单词含义的方法翻译设备和终端以及用于执行该方法的记录介质存储程序
机译: 利用单词和句子的权重完成英语句子系统的构建