法律状态公告日
法律状态信息
法律状态
2022-08-26
实质审查的生效 IPC(主分类):G06F40/58 专利申请号:2022106922619 申请日:20220617
实质审查的生效
2022-08-09
公开
发明专利申请公布
技术领域
本发明属于蜕变测试领域,具体涉及神经机器翻译系统的蜕变测试过程中句子粒度相似度计算问题,提出了一种面向神经机器翻译系统的句子粒度蜕变测试方法。
背景技术
随着深度学习的发展,基于神经网络的机器翻译取得了长足的进步。但神经机器翻译系统采用的神经网络模型缺乏可解释性和可理解性,导致神经机器翻译系统的测试过程存在测试预言问题,而蜕变测试就是为了解决测试预言问题而提出的测试方法,因此蜕变测试也是目前对神经机器翻译系统进行测试的主要方法之一。在进行神经机器翻译系统的蜕变测试过程中,句子粒度的蜕变关系依赖于句子相似度计算结果的准确性,其准确性影响了蜕变关系满足率,进而导致神经机器翻译系统的评估结果出现偏差。因此,提高句子粒度相似度计算的准确度,对神经机器翻译系统进行翻译鲁棒性评估具有重要的现实意义和研究意义。
基于余弦距离的相似度计算方法虽然很好构建,但是却忽略了文本原来的词序、语法和语义。本发明通过使用TF-IDF文本向量化,在每个类间信息增加一个权值,再通过引进能够体现符号串共性和差异性的度量因子来改造单一的余弦相似度计算方法,提高句子相似度计算准确度,加强句子因词序变化带来语义变化的辨别能力,从而提高蜕变测试对神经机器翻译系统进行翻译鲁棒性评估的准确度。
发明内容
面向神经机器翻译系统的句子粒度蜕变测试方法,其一是在基于TF-IDF的词袋模型文本向量化的基础上,通过对词频进行改进,增加一个权值,来降低次要特征项的作用,提升主要特征项的作用。其二是利用Jaccard系数能够体现句子间共性的特点,和编辑距离能够体现句子间差异性的特点,将两者结合弥补余弦距离因词序变化很难捕捉到句子语义变化的缺点。
本发明为面向神经机器翻译系统的句子粒度蜕变测试方法,其特征在于包括以下步骤:
步骤一:获取语料库的中英文双语文本数据,根据蜕变关系生成测试用例,具体地,将每个领域英文数据输入到基于神经网络的翻译系统中进行三次往返翻译:先把源英语句子S
步骤二:对数据集的源中英文数据和生成的测试用例进行数据预处理操作:分词、删除停用词和标点符号,因为中英文构成不同,英文句子还需要进行小写字母转换和词形还原等操作,得到词语列表W;
步骤三:将需要计算相似度的两个句子记为S
tf-idf(t,d)=tf
其中tf
步骤四:计算V
其中,
步骤五:对数据集的源中英文数据和生成的测试用例进行数据预处理操作:分词和去除标点符号,生成只保留句子中原词序的公共子序列集合(W
其中,k和l分别表示字符串S
步骤六:计算句子S
其中,Jaccard系数和编辑距离乘积K
步骤七:根据相似度计算公式,计算两个句子的相似度,将步骤一的源英文句子S
步骤八:根据蜕变关系得出蜕变关系满足率,蜕变关系的定义如下:
Similarity(S
其中,Similarity(S
步骤九:根据每个翻译引擎的句子蜕变关系满足率计算出其翻译质量的评估分数。
附图说明
图1为本发明的句子相似度计算方法流程图。
图2为本发明具体实施过程示意图。
具体实施方式
为了使本发明的目的,技术方案和优点更明确,以Google翻译引擎为例,对本发明提出的面向神经机器翻译系统的句子粒度蜕变测试方法的的具体实施方式进行说明。
步骤一:选定Google翻译引擎为翻译模型T,选择UM-Corpus数据集中的教育、微博、新闻、口语和字幕五个领域的5000对中英文句子为原始数据集D
步骤二:将D
步骤三:对原数据集D
步骤四:计算W
步骤五:对原数据集D
步骤六:将W
步骤七:计算英文数据集D
步骤八:根据蜕变关系,将相似度集合Smilarity
通过以上过程可以实现面向神经机器翻译系统的句子粒度蜕变测试方法,上述步骤过程如图2所示,分为测试用例生成、文本预处理、文本向量化表示和相似度计算三个部分。其中文本向量化表示主要在TF-IDF词袋模型基础上增加一个权值,达到区分不同领域数据的效果;相似度计算过程通过添加能够体现两个句子之间共性的Jaccard系数和体现两个句子之间差异性的编辑距离作为抑制因子,改善了单一余弦相似度方法难以反映出句子不同词序所带来的语义变化。
本方法在面向神经机器翻译系统的蜕变测试的框架下进行实验,表1和表2是基于余弦距离的相似度计算方法与基于编辑距离的相似度计算方法在数据集UM-Corpus上的PC值和 SRC值对比实验结果。其中,BLEU和METEOR代表的是机器翻译的自动评价指标,BLEU侧重准确率,METEOR侧重准确率和召回率,相关系数和p值是皮尔逊相关系数,本方法将筛选出的5000对数据集中的中文数据作为参考译文,对5000个源英语句子按领域进行不同翻译引擎的翻译,得到的直译结果与参考译文的BLEU和METEOR结果进行皮尔逊相关系数和斯皮尔曼等级相关系数比较,相关系数越高,翻译结果评价越靠近参考译文结果,句子相似度计算方法越准确,p值反映的是相关度显著性,p值越小相关系数越显著。从表1和表 2可以看出基于余弦距离方法的相关值,在每个翻译引擎上相较于基于编辑距离都有提高, PC值平均提高了20.5%,SRC值平均提高了12%,且p值较低,说明PC值较为可信。
表1不同相似度计算方法与参考译文实验结果的PC值
表2不同相似度计算方法与参考译文实验结果的SRC值
机译: 评估翻译句子的方法和装置,具有翻译句子评估功能的机器翻译系统以及机器翻译系统评估装置
机译: 句子分割方法和句子分割装置,机器翻译系统以及使用句子分割方法的程序产品
机译: 句子分割方法和句子分割装置,机器翻译系统以及使用句子分割方法的程序产品