首页> 中国专利> 一种基于模糊神经网络的句子匹配程度计算及对齐方法

一种基于模糊神经网络的句子匹配程度计算及对齐方法

摘要

本发明公开了一种基于模糊神经网络的句子匹配程度计算方法,包括以下步骤:首先提取英文和中文的匹配特征;采用模糊神经网络的形式实现信息融合;建立计算匹配度模型。本发明还公开了一种基于模糊神经网络的句子对齐方法,包括以下步骤:打开英文文档和对应的中文文档,从英文文档和中文文档的开始分别读取N句英文句子和N句中文句子;然后根据前述“基于模糊神经网络的句子匹配程度计算方法”分别计算每一句英文句子分别和N句中文文档的匹配度;根据匹配度找出中文和对应英文句子。该发明具有更加准确和快捷的特点。

著录项

  • 公开/公告号CN103617227A

    专利类型发明专利

  • 公开/公告日2014-03-05

    原文格式PDF

  • 申请/专利权人 福建工程学院;

    申请/专利号CN201310604055.9

  • 发明设计人 戴光荣;宋玉春;

    申请日2013-11-25

  • 分类号G06F17/30(20060101);G06F17/28(20060101);

  • 代理机构11255 北京市商泰律师事务所;

  • 代理人陈朝阳

  • 地址 350108 福建省福州市闽侯上街大学新区学府路3号

  • 入库时间 2024-02-19 22:14:31

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-08-17

    授权

    授权

  • 2014-04-02

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20131125

    实质审查的生效

  • 2014-03-05

    公开

    公开

说明书

技术领域

本发明涉及语言自动翻译技术领域,尤其涉及一种基于模糊神经网络的句子匹配程度计算及对齐方法。

背景技术

语料库(Corpus):运用计算机技术,按照一定的语言学原则,根据特定的语言研究目的而大规模收集并贮存在计算机中的真实语料。平行语料库(Parallel Corpus):由源语文本(Source Text)及其平行对应的译语文本(Target Text)构成的双语语料库。根据对齐的语言层面,平行对齐分为词汇、语句和段落等层面的对齐。双语句级层面对齐(Sentential Alignment between Source andTarget Languages):以句子为单位对源语文本进行切分,每个句子在译语文本中相应的翻译句子进行匹配,实现一一平行对应(句子定义为:以句号、问号、感叹号、分号结尾的一串字符,或以句号+引号、问号+引号、感叹号+引号等结尾的一串字符)。模糊理论(FuzzyTheory):在模糊集合理论基础上发展起来的理论,包括模糊数学、模糊系统、不确定性和信息、模糊决策、模糊逻辑与人工智能等五个分支;模糊集合中,给定范围内元素对它的隶属关系不一定只有“是”或“否”两种情况,而是用介于0和1之间的实数来表示隶属程度,还存在中间过渡状态。人工神经网络(Artificial NeuralNetworks,简写为ANNs):简称为神经网络(NNs)或称作连接模型(Connection Model),它是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型;这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。英汉句子匹配程度(Matching Degree ofEnglish-Chinese Sentence):一英文语句和它对应翻译成的中文语句是匹配的;当计算机判断一个语句是不是另外一个语句的翻译时,可以定量地描述其翻译对应关系的可能性,这就是匹配的程度。

目前实现段落级和句子级文本对齐的方法有如下几种,如基于长度的方法、基于词汇的方法、基于长度与词汇相结合的混合法、基于双语词典的方法等。

(一)基于长度的方法认为原文和译文的长度之间存在一定的比例关系,译文的句子长度与原文的句长成一定的正比例关系。对语源相近的语言,如英语与法语,这种方法尤其有效。Brown采用以单词为单位,计算长度,对英法双语的加拿大汉莎(CanadianHansard)语料库中较易处理的约90%的部分进行了自动对齐,准确率达到99.4%(Brown,Lai&Mercer,1991)。

(二)基于词汇的方法认为单词和其译文应该是同现的,其分布有相关性。这方面的工作以Kay和Roscheisen的算法为代表。Kay等人采用了松散范例(Relaxation Paradigm)来进行对齐(Kay&Roscheisent1993:121-142)。他们用少量的英、德句子对这种方法作了示例,但未提供准确率。Chen提出利用翻译模型进行双语句子对齐的方法,认为最佳句子对齐序列就是在给定的翻译模型下产生该双语语料概率最大的句子对齐状态(Chen1993)。

(三)混合法将长度与词汇线索相结合,先利用词汇信息对齐语料的一部分,无法对齐部分再用长度关系对齐。Wu用此方法对齐了相当部分汉英双语的香港(Hong Kong Hansard)汉莎语料库,准确率达到92.1%(王建新,2005:121-122)。

(四)基于双语词典的方法,把源语言文本看成单词的序列作为横轴,横轴上的每个点对应一个单词;同样以目标语言文本作为纵轴。用平面上的一个点来表示源语言文本中某个词和目标语言文本中的某个词对译。但只有这两个词分属于一对对齐的句子,它们才可能对齐。

从目前句级对齐技术来看,现有的技术存在以下不足:

第一种方法(基于句子长度)适应范围大多局限在语源相近、语系相同的两种语言之间(如英语与法语),而对于英汉语这样差异非常大的语言来说,则很难实现。

第二种方法(基于词汇信息)最大的问题就是搜索空间比较大,获得词汇对等信息的代价比较高,从而花费的时间太长。再加之一词多义现象的存在,使得对应信息的搜索变得更加复杂而最终效果不佳。

第三种方法(基于长度与词汇)适应范围大多局限在语源相近、时间长。

第四种方法(基于双语词典)词汇对齐占用的时间太大。

发明内容

本发明需要解决的技术问题是如何更快、更好地实现双语句级层面上的对齐。

为了解决以上技术问题,本发明公开了一种基于模糊神经网络的句子匹配程度计算方法,首先提取英文和中文的匹配特征;采用模糊神经网络的形式实现信息融合;建立计算匹配度模型。

本发明还公开了一种基于模糊神经网络的句子对齐方法,打开英文文档和对应的中文文档,从英文文档和中文文档的开始分别读取N句英文句子和N句中文句子,然后分别计算每一句英文句子分别和N句中文文档的匹配度,根据匹配度找出中文和对应英文句子。

本发明通过提取英文和中文的匹配特征,采用一种模糊神经网络的形式实现了信息融合,实现了匹配度的计算,进而实现了句子对齐,该发明具有更加准确和快捷的特点。

附图说明

当结合附图考虑时,通过参照下面的详细描述,能够更完整更好地理解本发明以及容易得知其中许多伴随的优点,但此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定,其中:

图1是本发明实施例一种基于模糊神经网络的句子匹配程度计算方法流程图。

图2是本发明实施例匹配特征触发的模糊集合示意图。

图3是本发明实施例一种基于模糊神经网络的句子对齐方法示意图。

具体实施方式

参照图1-3对本发明的实施例进行说明。

为使上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示,匹配程度计算方法的具体步骤如下,设英文句子为E,中文句子为C(S1):

1、把E分解成一个个的单词,并查软件内置字典,求得每个单词的中文含义。设所有单词语义的集合为EC;

2、把图中的匹配特征CD1清零,查找中文句子中每个字看是否属于EC,若属于则CD1加1,求得匹配特征CD1(S2);

3、把图中的匹配特征CD2清零,查找中文句子中每个单词看是否属于EC,若属于则CD2加1,求得匹配特征CD2(S2);

4、把图中的匹配特征CD3清零,求得英文句子长度LE和中文句子长度LC,则CD3=LE/LC,求得匹配特征CD3(S2);

5、用图2的方法把CD1、CD2、CD3模糊化,隶属度函数均取等腰三角形形式,例如图2中用粗黑线标示的模糊集合NM,相邻模糊集之间的重叠度为50%,因此当CD1、CD2、CD3的实际值已知时,CD1、CD2、CD3的论域上最多有两个模糊集被激活。例如图2中,当CD1=x1的时候,触发模糊集合NM和NS,并到隶属度hcd1a、hcd1b。同理,当CD2、CD3的实际值已知时可以得到隶属度hcd2a、hcd2b,当CD3的实际值已知时可以得到隶属度hcd3a、hcd3b(S3);

6、令h1=min(hcd1a,hcd2a,hcd3a)

h2=min(hcd1a,hcd2a,hcd3b)

h3=min(hcd1a,hcd2b,hcd3a)

h4=min(hcd1a,hcd2b,hcd3b)

h5=min(hcd1b,hcd2a,hcd3a)

h6=min(hcd1b,hcd2a,hcd3b)

h7=min(hcd1b,hcd2b,hcd3a)

h8=min(hcd1b,hcd2b,hcd3b)

其中,函数min(a,b,c)为取a、b、c中最小值运算(S4);

7、单层神经网络实现模糊推理,神经网络输出单元有一个S形激活函数,以增强网络逼近曲面的能力,此函数为:

>d=11+exp(-σ+θ)>

其中:>σ=Σm=18hmwm>

式中:θ为阀值;hm为步骤6中求得的隶属度值;wm为第m个权值,权值由步骤8训练求得;DEC为英文句子为E和中文句子为C的匹配度(S5);

8、选取[0,1]区间的随机值作为w1,w2....w8的初值(k=0),把已经对齐好的样本依次输入到此算法中,那么k+1时刻的权值如下:

wm(k+1)=wm(k)+β·[Dd(k)-D(k)]·hm(k)m=1,2…8

式中:β为学习速率因子;Dd(k)为k时刻希望网络的输出,全部取1;D(k)为k时刻网络的实际输出,全部取1;hm(k)为步骤6中求得的隶属度值;经过多次训练,就可以求得权值w1,w2....w8(S6)。

如图3所示,在软件中打开英文文档和对应的中文文档,从英文文档和中文文档的开始分别读取3句英文句子和3句中文句子(此处3为优选值,可不限于3),然后分别计算每一句英文句子分别和3句中文文档的匹配度,根据匹配度找出中文和对应英文句子。

虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些具体实施方式仅是举例说明,本领域的技术人员在不脱离本发明的原理和实质的情况下,可以对上述方法和系统的细节进行各种省略、替换和改变。例如,合并上述方法步骤,从而按照实质相同的方法执行实质相同的功能以实现实质相同的结果则属于本发明的范围。因此,本发明的范围仅由所附权利要求书限定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号