公开/公告号CN112766001A
专利类型发明专利
公开/公告日2021-05-07
原文格式PDF
申请/专利权人 语联网(武汉)信息技术有限公司;
申请/专利号CN202110047727.5
发明设计人 毛红保;
申请日2021-01-14
分类号G06F40/58(20200101);G06F40/55(20200101);
代理机构11002 北京路浩知识产权代理有限公司;
代理人郑朝然
地址 430206 湖北省武汉市东湖新技术开发区高新大道999号未来科技城B2栋13楼1302室
入库时间 2023-06-19 10:54:12
技术领域
本发明涉及机器翻译技术领域,尤其涉及一种企业名称翻译方法及装置。
背景技术
企业名称在自然语言处理中被视为一种命名实体,因为其构成形式的特殊性,在翻译时通常需要进行专门处理。若直接在翻译引擎中翻译,往往翻译结果的错误率很高。表1是几个企业名称在某主流翻译引擎中的输出结果,其中加下划线的斜体加粗部分为错误翻译。
表1中文企业名称在翻译引擎中的错误翻译示例
机器翻译引擎对企业名称翻译的效果不佳,跟机器翻译引擎的特性有关。当前的主流机器翻译模型都是基于语料库进行有监督学习的神经机器翻译模型,而新的企业名称每天都在诞生,用于训练的语料库的覆盖有限。此外,神经机器翻译模型为黑盒结构,很难在翻译过程中进行干预和调整,导致一些奇怪的翻译结果出现。
发明内容
本发明提供一种企业名称翻译方法及装置,用以解决现有技术中对企业名称的翻译错误率高的缺陷,实现对企业名称进行正确翻译。
本发明提供一种企业名称翻译方法,包括:
将待翻译中文企业名称中的预设部分替换为占位符;
将占位符替换后的待翻译中文企业名称输入机器翻译模型中,输出所述待翻译中文企业名称的英文译文;
将所述英文译文中的占位符替换为所述预设部分的拼音,将拼音替换后的英文译文作为所述待翻译中文企业名称的最终翻译结果。
根据本发明提供的一种企业名称翻译方法,所述将待翻译中文企业名称中的预设部分替换为占位符,之前还包括:
将所述待翻译中文企业名称输入序列标注模型中,输出所述待翻译中文企业名称的分割结果;
根据所述分割结果,获取所述待翻译中文企业名称中的预设部分;
其中,所述序列标注模型为,以样本中文企业名称为样本,以与所述样本中文企业名称对应的标注为标签训练得到。
根据本发明提供的一种企业名称翻译方法,所述待翻译中文企业名称的分割结果包括所述待翻译中文企业名称中的企业行政区划、企业字号、企业所属的行业和企业组织形式。
根据本发明提供的一种企业名称翻译方法,所述预设部分包括所述待翻译中文企业名称的企业字号。
根据本发明提供的一种企业名称翻译方法,所述占位符包括括号和预设字符,其中所述预设字符位于所述括号内部;
若所述待翻译中文企业名称中存在多个企业字号,则替换每个所述企业字号的占位符还包括每个企业字号的编号,所述编号位于所述括号内部;
相应地,所述将所述英文译文中的占位符替换为所述预设部分的拼音,包括:
对于所述英文译文中的任一占位符,根据该占位符中企业字号的编号,将该占位符替换为所述编号对应的企业字号的拼音。
根据本发明提供的一种企业名称翻译方法,所述样本中文企业名称对应的标注采用BIO标注。
根据本发明提供的一种企业名称翻译方法,所述序列标注模型为BERT-CRF模型。
本发明还提供一种企业名称翻译装置,包括:
处理模块,用于将待翻译中文企业名称中的预设部分替换为占位符;
翻译模块,用于将占位符替换后的待翻译中文企业名称输入机器翻译模型中,输出所述待翻译中文企业名称的英文译文;
还原模块,用于将所述英文译文中的占位符替换为所述预设部分的拼音,将拼音替换后的英文译文作为所述待翻译中文企业名称的最终翻译结果。
本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述企业名称翻译方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述企业名称翻译方法的步骤。
本发明提供的企业名称翻译方法及装置,通过将待翻译中文企业名称中的预设部分替换为占位符后,再使用机器翻译模型进行翻译,最后将翻译结果中的占位符还原为预设部分的拼音,保证预设部分的翻译准确性,进而提高以预设部分作为上下文的其他部分的翻译准确性,从而在不改变机器翻译模型的情况下大大提高企业名称翻译的质量。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的企业名称翻译方法的流程示意图之一;
图2是本发明提供的企业名称翻译方法中序列标注模型的结果示意图;
图3是本发明提供的企业名称翻译方法的流程示意图之二;
图4是本发明提供的企业名称翻译装置的结构示意图;
图5是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1描述本发明的一种企业名称翻译方法,该方法包括:步骤101,将待翻译中文企业名称中的预设部分替换为占位符;
其中,待翻译中文企业名称为需要翻译的中文企业名称,由多个部分组成。预设部分为待翻译中文企业名称中预先设定的需要翻译为汉语拼音的部分。占位符为一种特殊格式的符号,用于占用一个固定的位置,本实施例不限于占位符的具体格式。
在将待翻译中文企业名称中的预设部分替换为占位符之前,需要识别出待翻译中文企业名称中的各个部分,然后从中选择出预设部分进行占位符替换。
步骤102,将占位符替换后的待翻译中文企业名称输入机器翻译模型中,输出所述待翻译中文企业名称的英文译文;
将占位符替换后的待翻译中文企业名称输入机器翻译模型获得英文译文。本实施例中的机器翻译模型可以为神经机器翻译模型,但不限于此种类型。由于占位符是一种特殊字符,由中文到英文的翻译前后不发生变化。
步骤103,将所述英文译文中的占位符替换为所述预设部分的拼音,将拼音替换后的英文译文作为所述待翻译中文企业名称的最终翻译结果。
查找英文译文中的占位符,将其还原为预设部分的拼音。当有多个预设部分时,需要确定占位符与每个预设部分之间的关联关系。在进行还原时,根据关联关系将英文译文中的每个占位符替换为相应预设部分的拼音。
本实施例通过将待翻译中文企业名称中的预设部分替换为占位符后,再使用机器翻译模型进行翻译,最后将翻译结果中的占位符还原为预设部分的拼音,保证预设部分的翻译准确性,进而提高以预设部分作为上下文的其他部分的翻译准确性,从而在不改变机器翻译模型的情况下大大提高企业名称翻译的质量。
在上述实施例的基础上,本实施例中所述将待翻译中文企业名称中的预设部分替换为占位符,之前还包括:将所述待翻译中文企业名称输入序列标注模型中,输出所述待翻译中文企业名称的分割结果;根据所述分割结果,获取所述待翻译中文企业名称中的预设部分;其中,所述序列标注模型为,以样本中文企业名称为样本,以与所述样本中文企业名称对应的标注为标签训练得到。
具体地,使用序列标注模型将待翻译中文企业名称分割成多个部分,从分割结果中获取待翻译中文企业名称中的预设部分。本实施例不限于序列标注模型的种类。
在使用序列标注模型进行企业名称分割之前收集样本中文企业名称数据集,并对每个样本中文企业名称进行人工标注,本实施例不限于标注的方法。使用样本中文企业名称数据集和标注对序列标注模型进行训练。使用训练好的序列标注模型对待翻译中文企业名称进行自动分割。
在上述实施例的基础上,本实施例中所述待翻译中文企业名称的分割结果包括所述待翻译中文企业名称中的企业行政区划、企业字号、企业所属的行业和企业组织形式。
具体地,企业名称的组成结构有一定的特殊性,根据企业命名的标准,典型的企业名称由行政区划、字号、行业和企业组织形式四部分构成。因此,本实施例将待翻译中文企业名称划分为企业行政区划、企业字号、企业所属的行业和企业组织形式等多个部分。例如,企业名称“大亚市台利白瓜籽加工有限责任公司”的分割结果中,行政区划为“大亚市”,字号为“台利”,行业为“白瓜籽加工”,企业组织形式为“有限责任公司”。
在上述各实施例的基础上,本实施例中所述预设部分包括所述待翻译中文企业名称的企业字号。
具体地,在待翻译中文企业名称的分割结果中,“行政区划”和“字号”需要翻译为汉语拼音,“行业”和“企业组织形式”需要翻译为英语。例如,企业名称“大亚市台利白瓜籽加工有限责任公司”的正确英文译文是:
Daya Taili White Melon seed processing Co.,Ltd.
尤其是对于“字号”部分,由于企业命名规则中对该部分没有严格的限制,所以会出现大量随意创造的新词语,给机器翻译引擎的识别和翻译带来了困难。从表1的结果中可以看出,翻译错误主要都跟“字号”部分有关。因此,本实施例将企业字号作为替换为占位符的预设部分。
在上述实施例的基础上,本实施例中所述占位符包括括号和预设字符,其中所述预设字符位于所述括号内部;若所述待翻译中文企业名称中存在多个企业字号,则替换每个所述企业字号的占位符还包括每个企业字号的编号,所述编号位于所述括号内部;
例如,括号为中括号,预设字符为mask,则占位符为[mask]。将待翻译中文企业名称中的企业字号替换为[mask]。如果待翻译中文企业名称中存在多个企业字号,则分别使用[mask1]、[mask2]等逐个替换相应的企业字号。其中,括号中的1和2为企业字号的编号。
相应地,所述将所述英文译文中的占位符替换为所述预设部分的拼音,包括:对于所述英文译文中的任一占位符,根据该占位符中企业字号的编号,将该占位符替换为所述编号对应的企业字号的拼音。
将机器翻译模型输出的英文译文中的占位符还原为相应企业字号的音译。具体根据每个占位符中企业字号的编号获取编号对应的企业字号,使用获取的企业字号的拼音替换该占位符,从而获得最终的翻译结果。
在上述实施例的基础上,本实施例中所述样本中文企业名称对应的标注采用BIO(Begin,Inside,Outside,开始,内部,外部)标注。
具体地,本实施例采用BIO标注法,以人工的方式对样本中文企业名称数据集进行标注。根据企业名称的构成特点,分别针对企业行政区划、企业字号、企业所属行业和企业组织形式设计四种标签,标注样式的示例如表2所示。
表2标注样式示例
在上述实施例的基础上,本实施例中所述序列标注模型为BERT(BidirectionalEncoder Representation from Transformers,双向编码器的翻译模型)-CRF(Conditional Random Field,条件随机场)模型。
具体地,本实施例中的序列标注模型为BERT模型和CRF模型的结合。如图2所示,将样本中文企业名称中的每个字Tok1、Tok2…TokN输入到BERT模型的输入层,将输出层的输出输入到CRF模型中,输出每个字的标注,将每个字的输出标注和人工标注进行比较,根据比较结果对序列标注模型的参数进行调整。在使用序列标注模型对待翻译中文企业名称进行分割时,输出待翻译中文企业名称中每个字的标注,即可得到待翻译中文企业中的分割结果。
图3为本实施例的完整流程示意图,具体步骤如下:
步骤一:训练序列标注模型。具体包括:
(1)对收集的样本中文企业名称数据集进行人工标注。
(2)使用标注后的样本中文企业名称数据集训练序列标注模型。
步骤二:翻译过程的数据处理。具体包括:
(1)基于步骤一训练的序列标注模型对待翻译中文企业名称进行序列标注;
(2)将标注后的待翻译中文企业名称中的企业字号进行占位符替换;
(3)将替换后的待翻译中文企业名称通过机器翻译模型进行翻译;
(4)将翻译结果中的占位符还原为企业字号的拼音。
下面对本发明提供的企业名称翻译装置进行描述,下文描述的企业名称翻译装置与上文描述的企业名称翻译方法可相互对应参照。
如图4所示,本发明提供的企业名称翻译装置包括处理模块401、翻译模块402和还原模块403,其中:
处理模块401用于将待翻译中文企业名称中的预设部分替换为占位符;
其中,待翻译中文企业名称为需要翻译的中文企业名称,由多个部分组成。预设部分为待翻译中文企业名称中预先设定的需要翻译为汉语拼音的部分。占位符为一种特殊格式的符号,用于占用一个固定的位置,本实施例不限于占位符的具体格式。
在将待翻译中文企业名称中的预设部分替换为占位符之前,需要识别出待翻译中文企业名称中的各个部分,然后从中选择出预设部分进行占位符替换。
翻译模块402用于将占位符替换后的待翻译中文企业名称输入机器翻译模型中,输出所述待翻译中文企业名称的英文译文;
将占位符替换后的待翻译中文企业名称输入机器翻译模型获得英文译文。本实施例中的机器翻译模型可以为神经机器翻译模型,但不限于此种类型。由于占位符是一种特殊字符,由中文到英文的翻译前后不发生变化。
还原模块403用于将所述英文译文中的占位符替换为所述预设部分的拼音,将拼音替换后的英文译文作为所述待翻译中文企业名称的最终翻译结果。
查找英文译文中的占位符,将其还原为预设部分的拼音。当有多个预设部分时,需要确定占位符与每个预设部分之间的关联关系。在进行还原时,根据关联关系将英文译文中的每个占位符替换为相应预设部分的拼音。
本实施例通过将待翻译中文企业名称中的预设部分替换为占位符后,再使用机器翻译模型进行翻译,最后将翻译结果中的占位符还原为预设部分的拼音,保证预设部分的翻译准确性,进而提高以预设部分作为上下文的其他部分的翻译准确性,从而在不改变机器翻译模型的情况下大大提高企业名称翻译的质量。
在上述实施例的基础上,本实施例还包括分割模块,用于将所述待翻译中文企业名称输入序列标注模型中,输出所述待翻译中文企业名称的分割结果;根据所述分割结果,获取所述待翻译中文企业名称中的预设部分;其中,所述序列标注模型为,以样本中文企业名称为样本,以与所述样本中文企业名称对应的标注为标签训练得到。
在上述实施例的基础上,本实施例中所述待翻译中文企业名称的分割结果包括所述待翻译中文企业名称中的企业行政区划、企业字号、企业所属的行业和企业组织形式。
在上述实施例的基础上,本实施例中所述预设部分包括所述待翻译中文企业名称的企业字号。
在上述实施例的基础上,本实施例中所述占位符包括括号和预设字符,其中所述预设字符位于所述括号内部;若所述待翻译中文企业名称中存在多个企业字号,则替换每个所述企业字号的占位符还包括每个企业字号的编号,所述编号位于所述括号内部;相应地,所述还原模块用于:对于所述英文译文中的任一占位符,根据该占位符中企业字号的编号,将该占位符替换为所述编号对应的企业字号的拼音。
在上述实施例的基础上,本实施例中所述样本中文企业名称对应的标注采用BIO标注。
在上述实施例的基础上,本实施例中所述序列标注模型为BERT-CRF模型。
图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行企业名称翻译方法,该方法包括:将待翻译中文企业名称中的预设部分替换为占位符;将占位符替换后的待翻译中文企业名称输入机器翻译模型中,输出所述待翻译中文企业名称的英文译文;将所述英文译文中的占位符替换为所述预设部分的拼音,将拼音替换后的英文译文作为所述待翻译中文企业名称的最终翻译结果。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的企业名称翻译方法,该方法包括:将待翻译中文企业名称中的预设部分替换为占位符;将占位符替换后的待翻译中文企业名称输入机器翻译模型中,输出所述待翻译中文企业名称的英文译文;将所述英文译文中的占位符替换为所述预设部分的拼音,将拼音替换后的英文译文作为所述待翻译中文企业名称的最终翻译结果。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的企业名称翻译方法,该方法包括:将待翻译中文企业名称中的预设部分替换为占位符;将占位符替换后的待翻译中文企业名称输入机器翻译模型中,输出所述待翻译中文企业名称的英文译文;将所述英文译文中的占位符替换为所述预设部分的拼音,将拼音替换后的英文译文作为所述待翻译中文企业名称的最终翻译结果。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
机译: 扩展企业名称分类装置和方法
机译: 企业名称的分析方法及其装置
机译: 语音翻译装置,语音翻译方法和记录媒体的语音翻译方法