首页> 中国专利> 词表构建方法、机器翻译方法及其装置、设备与介质

词表构建方法、机器翻译方法及其装置、设备与介质

摘要

本申请公开一种词表构建方法、机器翻译方法及其装置、设备与介质,所述词表构建方法包括:对原语料进行切词,将切词所得词组构造为语料仓库,该语料仓库包含多个中文词组及非中文词组;将所述语料仓库中的每个非中文词组以字符为单位切分替换为多个非中文词组;根据所述语料仓库构造词表,所述词表储存所述语料仓库中各个词组及其所出现的词频之间的对应关系数据,各词组之间按其词频降序排序;裁剪词表,将词频排序靠后的不满足预设条件的部分词组从词表中移除,以使词表适于训练机器翻译神经网络模型。本申请能有效优化用于训练机器翻译神经网络模型的词表,构造大小适中的词表,降低词表的占用内存,同时提升神经网络模型的训练及翻译效率。

著录项

  • 公开/公告号CN113255337A

    专利类型发明专利

  • 公开/公告日2021-08-13

    原文格式PDF

  • 申请/专利权人 广州欢聚时代信息科技有限公司;

    申请/专利号CN202110559464.6

  • 发明设计人 钟裕滨;庞磊;

    申请日2021-05-21

  • 分类号G06F40/247(20200101);G06F40/289(20200101);G06F40/216(20200101);G06F40/58(20200101);G06N3/08(20060101);

  • 代理机构44673 广州利能知识产权代理事务所(普通合伙);

  • 代理人王增鑫

  • 地址 511442 广东省广州市番禺区南村镇万达广场B-1栋24层

  • 入库时间 2023-06-19 12:13:22

说明书

技术领域

本申请涉及机器翻译技术领域,尤其涉及一种词表构建方法、一种机器翻译方法,此外还涉及该些方法相应的装置、设备以及非易失性存储介质。

背景技术

随着技术的发展和交流的需要,机器翻译已经深切地融入到我们的生活。目前基于端到端生成模型的机器翻译,均需通过构造基础词表,将文本信息向量化表示,以便现有的神经网络模型识别词表中的文本信息进行翻译训练,为相应的翻译业务提供机器翻译服务。

现有的词表构造方式中,大多数是使用现有的切词器完成词表的词组切分处理,例如,可使用LTP切词器、THULAC切词器或jieba切词器等对文本进行切词处理,以构成相应的词表,但仅使用现有切词器完成词表的词组切分处理,往往会导致词表储存的词组过大,且面对特定领域时,如电商领域,进行切词的文本中中英混杂,且包含大量无意愿的品牌词及型号词,使词表中储存着大量无意义的词组,严重影响神经网络模型的训练效率,机器翻译速度均会极大降低,占用的机器资源,内存损耗等都会急剧增加,翻译成本也随着增加。

虽然通过BPE,subword等切词方式可极大地压缩词表的大小,但该类切词方式所构造的词表,对未登录词的覆盖性较差,使得使用该些词表进行训练的神经网络模型,对于新词通常无法表示,造成翻译结果出现漏译、错译等现象,极大降低翻译准确性。

针对词表构造中关于切词及压缩所存在的问题,是本领域亟待解决的问题。

发明内容

本申请的首要目的在于提供一种词表构建方法及其相应的装置、电子设备、非易失性存储介质。

本申请的另一目的在于适应前一目的而提供一种机器翻译方法及其相应的装置、电子设备、非易失性存储介质。

为满足本申请的各个目的,本申请采用如下技术方案:

适应本申请的首要目的而提出的一种词表构建方法,包括如下步骤:

对原语料进行切词,将切词所得词组构造为语料仓库,该语料仓库包含多个中文词组及非中文词组;

将所述语料仓库中的每个非中文词组以字符为单位切分替换为多个非中文词组;

根据所述语料仓库构造词表,所述词表储存所述语料仓库中各个词组及其所出现的词频之间的对应关系数据,各词组之间按其词频降序排序;

裁剪所述词表,将词频排序靠后的不满足预设条件的部分词组从词表中移除,以使所述词表适于训练机器翻译神经网络模型。

进一步的实施例中,还包括如下前置步骤

获取海量的原始语料进行数据预处理以形成所述的原语料,使该原语料移除了所述原始语料所包含的特定字符,形成规范文本。

进一步的实施例中,根据所述语料仓库构造词表,包括:

对语料仓库中的中文词组及非中文词组,以词组为单位进行分类汇总,汇总统计出各个词组在语料仓库中的频数,确定为各个词组的词频;

将每个词组与其词频之间的对应关系数据唯一性存储于词表中;

根据所述词频的大小,将所述词表中的各个词组进行降序排序。

较佳的实施例中,将词频排序靠后的不满足预设条件的部分词组从词表中移除的步骤,包括如下任意之一:

将词频低于预定数值的词组视为不满足预设条件而从词表中移除;

将词组总量超过预定数值后的词组视为不满足预设条件而从词表中移除;

将词组内存尺寸超过预定数值后所依附的词组视为不满足预设条件而从词表中移除。

进一步的实施例中,还包括如下后续步骤:

调用中文字典,将其中所有中文字符作为中文词组添加至所述词表中。

进一步的实施例中,还包括如下后续步骤:

对所述词表中储存的各个中文词组进行文本向量化,以便该词表被用于实施机器翻译神经网络模型训练。

适应本申请的目的而提出的一种词表构建装置,其包括:

语料切词模块,用于对原语料进行切词,将切词所得词组构造为语料仓库,该语料仓库包含多个中文词组及非中文词组;

词组切分模块,用于将所述语料仓库中的每个非中文词组以字符为单位切分替换为多个非中文词组;

词表构造模块,用于根据所述语料仓库构造词表,所述词表储存所述语料仓库中各个词组及其所出现的词频之间的对应关系数据,各词组之间按其词频降序排序;

词表裁剪模块,用于裁剪所述词表,将词频排序靠后的不满足预设条件的部分词组从词表中移除,以使所述词表适于训练机器翻译神经网络模型。

较佳的实施例中,所述词表构造模块包括:

词频确定单元,用于对语料仓库中的中文词组及非中文词组,以词组为单位进行分类汇总,汇总统计出各个词组在语料仓库中的频数,确定为各个词组的词频;

词表储存单元,用于将每个词组与其词频之间的对应关系数据唯一性存储于词表中;

词组排序单元,用于根据所述词频的大小,将所述词表中的各个词组进行降序排序。

适应本申请的另一目的而提出的一种机器翻译方法,其包括如下步骤:

响应翻译指令,从该翻译指令中获取待翻译文本;

调用机器翻译神经网络模型对所述待翻译文本进行翻译,所述机器翻译神经网络模型预先采用如前文所述的词表构建方法所制备的词表训练至收敛状态,获得该待翻译文本相对应的翻译文本;

应答所述翻译指令而返回所述翻译文本。

适应本申请的目的而提出的一种机器翻译装置,其包括:

指令响应模块,用于响应翻译指令,从该翻译指令中获取待翻译文本;

文本翻译模块,用于调用机器翻译神经网络模型对所述待翻译文本进行翻译,所述机器翻译神经网络模型预先采用如前文所述的词表构建方法所制备的词表训练至收敛状态,获得该待翻译文本相对应的翻译文本;

指令应答模块,用于应答所述翻译指令而返回所述翻译文本。

适应本申请的目的而提出的一种电子设备,包括中央处理器和存储器,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行所述的词表构建方法或机器翻译方法的步骤。

适应本申请的目的而提出的一种非易失性存储介质,其存储有依据所述的词表构建方法或机器翻译方法所实现的计算机程序,所述计算机程序被计算机调用运行时,执行其相应的方法所包括的步骤。

相对于现有技术,本申请的优势如下:

本申请通过技术改进提出了一种词表构建框架,该框架可根据翻译场景的业务需求,构造相应的词表供机器翻译神经网络模型进行训练;具体的,使用现有的切词器对原语料进行切词处理,将切词所得中文词组及非中文词组构造为语料仓库,并对语料仓库中的每个非中文词组以字符为单位切分替换为多个非中文词组,以便根据该些中文词组及非中文词组构造词表,该词表中储存着各个词组及其在语料仓库中出现的词频之间的对应关系数据,且按照各个词组的词频对其进行降序排序,并对该词表进行压缩裁剪,将词表中排序靠后的不满足预设条件的部分词组进行移除;由此,通过该框架所构造的词表,将非中文词组进行单字符切分替换,以压缩词表的大小,降低词表占用的储存内存大小,且通过移除词频排序靠后部分无意义词组,将词表精简至业务需求范围,精简后的词表可提高机器翻译神经网络模型的训练速度,提升其在翻译业务中的翻译效率。

特别是针对电商领域的翻译业务,通过本申请提供的框架构造的词表,可防止词表中包含大量无实际意义的词组,例如,商品型号、品牌名及货号等,根据电商领域的业务需求,有目的性地压缩词表的大小,使通过该词表进行训练的神经网络模型不仅在训练速度上有所提升,其所形成的机器翻译模型更适用于电商领域的翻译业务。

本申请附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:

图1为实施本申请的技术方案相关的一种典型的网络部署架构示意图;

图2为本申请的词表构建方法的典型实施例的流程示意图;

图3为图2中步骤S13的具体步骤所形成的流程示意图;

图4为本申请的词表构建方法的一种实施例中由其所添加的前置步骤所构成的流程示意图;

图5为本申请的词表构建方法的一种实施例中由其所添加的后续步骤所构成的流程示意图;

图6为本申请的词表构建方法的另一种实施例中由其所添加的后续步骤所构成的流程示意图;

图7为本申请的词表构建装置的典型实施例的原理框图;

图8为本申请的机器翻译方法的典型实施例的流程示意图;

图9为本申请的机器翻译装置的典型实施例的原理框图;

图10为本申请一个实施例的计算机设备的基本结构框图。

具体实施方式

下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。

本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解,这里所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,进行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他诸如个人计算机、平板电脑之类的通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(PersonalCommunications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global PositioningSystem,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。

本申请所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件,本质上是具备个人计算机等效能力的电子设备,为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯若依曼原理所揭示的必要构件的硬件装置,计算机程序存储于其存储器中,中央处理器将存储在外存中的程序调入内存中运行,执行程序中的指令,与输入输出设备交互,借此完成特定的功能。

需要指出的是,本申请所称的“服务器”这一概念,同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理,所述各服务器应是逻辑上的划分,在物理空间上,这些服务器既可以是互相独立但可通过接口调用的,也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通,而不应以此约束本申请的网络部署方式的实施方式。

请参阅图1,本申请相关技术方案实施时所需的硬件基础可按图中所示的架构进行部署。本申请所称服务器80部署在云端,作为一个业务服务器,其可以负责进一步连接起相关数据服务器以及其他提供相关支持的服务器等,以此构成逻辑上相关联的服务机群,来为相关的终端设备例如图中所示的智能手机81和个人计算机82或者第三方服务器(未图示)提供服务。所述的智能手机和个人计算机均可通过公知的网络接入方式接入互联网,与云端的服务器80建立数据通信链路,以便运行所述服务器所提供的服务相关的终端应用程序。

对于服务器而言,所述的应用程序通常会被构建为服务进程,开放相应的程序接口,供各种终端设备上运行的应用程序进行远程调用,本申请中适于运行于服务器的相关技术方案,便可以此种方式实现于服务器中。

本申请所称的应用程序,其通称意义是指运行于服务器或终端设备之类的电子设备的应用程序,这些应用程序采用编程的方式实现了本申请的相关技术方案,其程序代码可被以计算机可执行指令的形式保存于计算机能识别的非易失性存储介质中,并被中央处理器调入内存中运行,通过该应用程序在计算机的运行而构造出本申请的相关装置。

本领域技术人员对此应当知晓:本申请的各种方法,虽然基于相同的概念而进行描述而使其彼此间呈现共通性,但是,除非特别说明,否则这些方法都是可以独立执行的。同理,对于本申请所揭示的各个实施例而言,均基于同一发明构思而提出,因此,对于相同表述的概念,以及尽管概念表述不同但仅是为了方便而适当变换的概念,应被等同理解。

请参阅图2,本申请的一种词表构建方法,在其典型实施例中,其包括如下步骤:

步骤S11,对原语料进行切词,将切词所得词组构造为语料仓库,该语料仓库包含多个中文词组及非中文词组:

对所述原语料执行切词处理,从该原语料中获得多个所述中文词组及非中文词组,并将该些词组构造为所述语料仓库。

所述语料是指一定数量和规模的文本信息资源集合,语料规模可大可小,大至千万,甚至数亿句或更大,小至几百句;语料根据不同标准可以有很多分类,比如,语料可以是单语语料,也可以是多语种语料。本申请所指的原语料的类型一般为包含中文语种及其他语种的语料。

一般通过调用特定的分词器,对所述原语料执行切词处理,以从该原语料中获取所述中文词组及非中文词组;关于分词器的选择,一般选择面向于中文领域的LTP切词器、THULAC切词器、jieba切词器或KCWS切词器对所述原语料进行切词,以初步获得该原语料所包含的所有中文词组及非中文词组。

具体的,当所述原语料为“2020经典款多色连衣裙wish亚马逊速卖通独立站MP-600”,通过所述jieba切词器执行切词处理后,获取的中文词组为:'经典','款多色','连衣裙',','亚马逊','速卖通','独立','站'],非中文词组为:['2020','wish','MP','-','600']。需要注意,所述原语料的规模一般不仅只包含如上的文本信息,其规模至少为万句或更大,以使通过本申请所构建的词表适配于关于机器翻译的神经网络模型的大量训练,提升模型的翻译准确率。

完成对所述原语料进行切词处理后,将切词所获取的所有中文词组及非中文词组构造为所述语料仓库,以便后续步骤中,对该语料仓库中的各个非中文词组进行字符切分处理,具体的实施方式,请参考后续步骤,本步骤恕不赘述。

步骤S12,将所述语料仓库中的每个非中文词组以字符为单位切分替换为多个非中文词组:

根据所述原语料的切词结果,完成所述语料仓库的构造后,以字符为单位,切分该语料库中的每个非中文词组,例如,当所述语料仓库中存储的非中文词组为['2020','wish','MP','-','600']时,该些非中文词组将被切分为['2','0','2','0','w','i','s','h','M','P','-','6','0','0']。

完成所述非中文词组的单字符切分处理后,将切分获取的单字符的非中文词组添加至所述语料仓库中,并移除该语料仓库中所有原先的非中文词组,以将原先的非中文词组替换为所述的由单字符组成的非中文词组。

当机器翻译的翻译场景为电商平台时,所述语料仓库中的多大数非中文词组为无意义的非中文词组,例如,商品型号、货号、标签等,以字符为单位对该些非中文词组进行切分为多个非中文词组,以进行初步处理,以便后续进行词表压缩时,对该些单字符的非中文词组进行移除,以使针对所述机器翻译的神经网络模型使用所述词表进行训练时,可提高训练速度,减少训练工时,节省所述机器翻译的翻译成本。

步骤S13,根据所述语料仓库构造词表,所述词表储存所述语料仓库中各个词组及其所出现的词频之间的对应关系数据,各词组之间按其词频降序排序:

完成所述语料库中所有的所述非中文词组的切分处理后,将构造用于存储该语料仓库中的所有词组及其所对应的词频之间的对应关系数据,且该词表按照各个词组所对应的词频对该些词组进行降序排序。

通过统计各个词组在所述语料仓库中存在的个数,以确定出该些词组在语料仓库中所各自对应的所述词频,例如,当该语料仓库中存储的所有词组分别为['2','0','2','0','裤子','衬衫','裙子','衬衫','袜子','裤子','皮带','M','C','D','F','D','C','1','袜子']时,通过统计该些词组的所述词频,获得的各个词组及其词频的对应关系数据为['2':2,'0':2,'裤子':2,'衬衫':2,'裙子':1,'袜子':2,'皮带':1,'M':1,'C':2,'D':2,'F':1,'1':1]。

确定出所述语料仓库中所有词组的词频后,将构造存储该些词组及其所出现的词频之间的对应关系数据的词表,所述词表按照该些词组各自所对应的词频,对该些词组进行降序排序以进行存储,例如,当所述对应关系数据为['裤子':3,'F':1,'D':2,'衬衫':4]时,根据该数据所构造的词表中各个词组的存储排序为['衬衫':4,'裤子':3,'D':2,'F':1]。

具体的,关于根据所述语料仓库构造所述词表的具体实施方式,请参考图3,其具体实施步骤如下:

步骤S131,对语料仓库中的中文词组及非中文词组,以词组为单位进行分类汇总,汇总统计出各个词组在语料仓库中的频数,确定为各个词组的词频:

以词组为单位,实施所述语料仓库中存储的所有中文词组及非中文词组进行分类汇总,以汇总统计出该些词组在该语料仓库中的频数,确定出该些词组各自对应的所述词频。

步骤S132,将每个词组与其词频之间的对应关系数据唯一性存储于词表中:

将所述语料仓库中所有词组及各自对应的词频之间的对应关系数据唯一性存储至所述词表中,具体的,当语料仓库中的所有词组为['2','0','2','0','裤子','衬衫','裙子','衬衫','袜子','裤子','皮带','M','C','D','F','D','C','1','袜子']时,该些词组及各自对应的词频为的对应关系数据为['2':2,'0':2,'裤子':2,'衬衫':2,'裙子':1,'袜子':2,'皮带':1,'M':1,'C':2,'D':2,'F':1,'1':1],将该关系数据存储至所述词表中,以使该词表中存储的词组及其各自对应的词频以唯一性的形式形成所述对应关系数据。

步骤S133,根据所述词频的大小,将所述词表中的各个词组进行降序排序:

按照各个词组所对应的所述词频,将所述词表中该些词组进行降序排序,例如,当各个词组及对应的词频的对应关系数据为['2':2,'0':2,'裤子':2,'衬衫':2,'裙子':1,'袜子':2,'皮带':1,'M':1,'C':2,'D':2,'F':1,'1':1]时,所述词表中各个词组的存储排序为['裤子':2,'衬衫':2,'袜子':2,'2':2,'0':2,'C':2,'D':2,'裙子':1,'皮带':1,'M':1,'F':1,'1':1]。

一种实施例中,当所述词表中存在词频相同的词组时,中文词组在词表中的排序位置将高于非中文词组;词频相同的非中文词组,以数字构成的非中文词组在词表中的排序位置将低于其他非中文词组。本领域技术人员可根据实际应用场景,对词频相同的词组以随机或词组的语种类型等其他形式进行排序,恕不赘述。

本步骤统计出所述语料仓库中存储的所有词组的所述词频,并将该些词组与其各自对应的词频存储至所述词表中,且该词表中各个词组按照各自对应的词频进行降序排序,以便后续步骤中根据业务需求,对词表进行裁剪,有目的地压缩词表,可使机器翻译的神经网络模型使用该词表进行训练时,有效地降低其所花费的训练时长,提高神经网络模型的训练速度。

步骤S14,裁剪所述词表,将词频排序靠后的不满足预设条件的部分词组从词表中移除,以使所述词表适于训练机器翻译神经网络模型:

完成根据所述词表的构造后,将对该词表进行裁剪,通过将该词表存储的词组中排序靠后的不满足所述预设条件的部分词组进行移除实现裁剪,有针对性地压缩所述词表,以便机器翻译的神经网络模型使用该词表进行训练时,可有效地提升训练速度,使神经网络模型可快速地投放使用。

关于所述预设条件的设置,一般设置为预设的词频数值,当所述词表中存在词频低于所述词频数值的词组时,所述词表将移除该些词组;具体的,关于所述预设条件的设置,可选择下述所示的实施例中的其一进行设置:

一种实施例中,将词频低于预定数值的词组视为不满足预设条件而从词表中移除:

判断所述词表中是否存在词频低于一定数值的词组,若存在,则该些词组视作不满足所述预设条件的词组,进而将该些词组从词表中移除,以达到裁剪该词表中的部分词组、完成该词表的压缩处理的目的。

另一种实施例中,将词组总量超过预定数值后的词组视为不满足预设条件而从词表中移除:

确定所述词表存储的词组总量,并判断所述词组总量是否超过所述预定数值,若超过,则按照该词表存储的词组排序,将排序在所述预定数值后的部分词组视为不满足预设条件的词组,并将该些词组从词表中移除,以实现对该词表进行压缩。

再一种实施例中,将词组内存尺寸超过预定数值后所依附的词组视为不满足预设条件而从词表中移除:

监控所述词表的占用内存,当该词表的占用内存超过所述预定数值后,按照该词表中的词组排序,将超过预定数值所表示的内存尺寸后排序的词组视为不满足所述预设条件,并将该些词组从词表中移除,以对该词表进行压缩。

可以理解,本领域技术人员可选择上述的各种实施例中的一种实施方式,将其用于实施词表的裁剪处理,以压缩所述词表,使通过使用该词表进行训练的机器翻译神经网络模型,提升其训练及推理速度,提高神经网络模型的翻译准确率,进而节省神经网络模型的训练成本。

以上的典型实施例及其变化实施例充分揭示了本申请的词表构建方法的实施方案,但是,仍可通过对一些技术手段的变换和扩增而演绎出该方法的多种变化实施例,如下概要说明其他实施例:

一种实施例中,请参考图4,本申请的词表构建方法还包括如下前置步骤:

步骤S10,获取海量的原始语料进行数据预处理以形成所述的原语料,使该原语料移除了所述原始语料所包含的特定字符,形成规范文本:

通过从网络或本地获取海量的所述原始语料,并对该些原始语料进行所述数据预处理,移除该些原始语料中包含的多个所述特定字符,并通过转换字符类型,以将该些原始语料形成所述规范文本,构成所述原语料。

可以理解,从网络或本地所获取的海量的所述原始语料中一般不仅包含所述中文词组及非中文词组,其还包含多种多样的特定字符,例如,停用词、无效空格及分隔符等其他类型的所述特定字符,且所述原始语料所包含的中文字符的中文格式不一定满足所述词表所指定的中文格式,因此,需要对改些原始语料进行数据预处理,以移除原始语料中包含的多个所述特定字符,并将其包含的中文字符的中文格式转换为指定的格式,以形成规范文本,形成构造所述词表所需的所述原语料。

一种实施例中,请参考图5,本申请的词表构建方法还包括如下后续步骤:

步骤S15,调用中文字典,将其中所有中文字符作为中文词组添加至所述词表中:

为防止使用所述词表进行训练的机器翻译神经网络模型出现登录词无法识别的情况,完成对所述词表的裁剪处理后,将调用所述中文字典,将该字典中所包含的所有中文字符视为中文词组,添加至所述词表中。

所述中文字典一般是指GB18030中文字典,其包含量级两万的中文字符,可覆盖进行裁剪处理的词表所移除的中文字符。本领域技术人员可根据实际应用场景选择调用其他的类型的中文字典进行未登录词的覆盖操作,恕不赘述。

另一种实施例中,请参考图6,本申请的词表构建方法还包括如下后续步骤:

步骤S15’,对所述词表中储存的各个中文词组进行文本向量化,以便该词表被用于实施机器翻译神经网络模型训练:

完成所述词表的裁剪处理后,将该词表中包含的所有中文词组进行文本向量化处理;所述词表中存储的各个中文词组及其各种对应的所述词频,并根据词频进行降序排序,因此,所述文本向量化一般根据各个中文词组在词表中的排序位置及词频对其进行向量化处理,例如,当词表中存储的中文词组及其词频为['裤子':2,'衬衫':2,'袜子':2,'裙子':1,'皮带':1],则该些中文词组的文本向量化表示为[2,2,2,1,1]。本领域技术人员可根据实际业务场景选择相应的方式对中文词组进行文本向量化处理,恕不赘述。

进一步,可以通过将上述各实施例所揭示的方法中的各个步骤进行功能化,构造出本申请的一种词表构建装置,按照这一思路,请参阅图7,其中的一个典型实施例中,该装置包括:语料切词模块11、词组切分模块12、词表构造模块13及词表裁剪模块14。其中,语料切词模块11,用于对原语料进行切词,将切词所得词组构造为语料仓库,该语料仓库包含多个中文词组及非中文词组;词组切分模块12,用于将所述语料仓库中的每个非中文词组以字符为单位切分替换为多个非中文词组;词表构造模块13,用于根据所述语料仓库构造词表,所述词表储存所述语料仓库中各个词组及其所出现的词频之间的对应关系数据,各词组之间按其词频降序排序;词表裁剪模块14,用于裁剪所述词表,将词频排序靠后的不满足预设条件的部分词组从词表中移除,以使所述词表适于训练机器翻译神经网络模型。

一种实施例中,所述词表构造模块13包括:词频确定单元,用于对语料仓库中的中文词组及非中文词组,以词组为单位进行分类汇总,汇总统计出各个词组在语料仓库中的频数,确定为各个词组的词频;词表储存单元,用于将每个词组与其词频之间的对应关系数据唯一性存储于词表中;词组排序单元,用于根据所述词频的大小,将所述词表中的各个词组进行降序排序。

请参阅图8,本申请的一种机器翻译方法,在其典型实施例中,其包括如下步骤:

步骤S21,响应翻译指令,从该翻译指令中获取待翻译文本:

后端响应所述翻译指令,以通过解析该翻译指令,获取该翻译指令中包含的所述待翻译文本。

所述翻译指令一般由前端推送至后端中,前端通过在相应的网络页面或应用程序中触发翻译事件,以将其所指定的待翻译文本封装为所述翻译指令,并将该翻译指令推送至后端,以便后端响应该翻译指令,获取所述待翻译文本进行翻译处理。

所述的后端一般指服务器或终端设备本地的后台,前端一般指客户端或终端设备本地的前台,本领域技术人员可根据实际应用场景,选择前置及后端的部署架构,恕不赘述。

所述待翻译文本一般包含中文字符及非中文字符,前端通过触发所述翻译事件,指定所述待翻译文本进行翻译的目标语种,封装生成所述翻译指令,以便后端响应该翻译指令,确定前端所指定的目标语种,调用机器翻译神经网络模型,将所述待翻译文本翻译为所述目标语种的翻译文本。关于后端调用机器翻译神经网络模型的翻译处理的实施方式,请参考后续步骤,本步骤恕不赘述。

步骤S22,调用机器翻译神经网络模型对所述待翻译文本进行翻译,所述机器翻译神经网络模型预先采用如前文所述的词表构建方法所制备的词表训练至收敛状态,获得该待翻译文本相对应的翻译文本:

后端调用所述机器翻译神经网络模型,对所述待翻译文本进行翻译,以将该待翻译文本翻译为所述翻译指令指定的目标语种的翻译文本。

后端所调用的机器翻译神经网络模型,是通过采用本申请所述的词表构建方法所构造的词表进行训练至收敛状态的机器翻译神经网络模型;通过所述词表构建方法所构造的词表,通过实施满足业务需求的切词及裁剪处理,使词表储存的词组具有针对性,相比通过BPE或subword等切词方式进行压缩词表大小的方式,所述词表构建方法所构造的词表储存的词组可满足实际业务所需的词组覆盖率,提升神经网络模型的拟合效果,进而提高其翻译准确率,以满足翻译场景的翻译需求;有目的性地控制词表的大小,可减少其所占用的储存内存空间,有效地提升神经网络模型的训练速度,减少神经网络模型训练至收敛状态所花费的时间,同时较小的词表可提升神经网络模型的翻译速度,减少前端等待后端应答翻译的时间。

所述的机器翻译神经网络模型一般是指现有的Transformer模型等其他Seq2seq类型的模型,该些模型通过采用本申请所述的词表构建方法所构造的词表进行训练至收敛状态,相比采用非所述词表构建方法的词表,其不仅拥有更高效的翻译速率,且其翻译的文本质量也更具针对性,能满足特定业务的翻译场景需求。与此同理,本领域技术人员可以根据实际情况将本申请所制备的词表用于其他神经网络模型的训练,而不应以本申请未穷举神经网络模型而否定本申请所制备的词表的普遍适应性,因此,恕不再穷举所有能够将本词表适用于训练的已知的神经网络模型。

具体的,当所述机器翻译神经网络模型为用于服务电商领域的翻译业务时,该神经网络模型训练所使用的词表是针对电商领域所需的业务需求所构造的,通过本申请的词表构建方法所构造的词表,其储存的词组一般不包含商品型号、货号、尺码等无意愿的词组,有效地压缩词表的大小,提升神经网络模型的训练速度等同时,因所述词表储存的词组大部分为电商领域中使用率较高的词组,使使用该类词表训练的神经网络模型面对电商领域的翻译业务时,翻译准确率较高,防止翻译时出现漏翻或错翻的现象。

步骤S23,应答所述翻译指令而返回所述翻译文本:

后端完成所述待翻译文本的翻译后,将与该待翻译文本相对应的翻译文本推送至前端,以应答该前端所推送的翻译指令。

前端接收到所述翻译文本后,将该翻译文本可视化至图形用户界面中进行显示。

一种实施例中,前端接收到所述翻译文本后,将图形用户界面中的输出展示的所述待翻译文本替换为该翻译文本进行显示。

进一步,可以通过将上述各实施例所揭示的方法中的各个步骤进行功能化,构造出本申请的一种机器翻译装置,按照这一思路,请参阅图9,其中的一个典型实施例中,该装置包括:指令响应模块21、文本翻译模块22及指令应答模块23。其中,指令响应模块21,用于响应翻译指令,从该翻译指令中获取待翻译文本;文本翻译模块22,用于调用机器翻译神经网络模型对所述待翻译文本进行翻译,所述机器翻译神经网络模型预先采用如前文所述的词表构建方法所制备的词表训练至收敛状态,获得该待翻译文本相对应的翻译文本;指令应答模块23,用于应答所述翻译指令而返回所述翻译文本。

为解决上述技术问题,本申请实施例还提供一种计算机设备,用于运行根据所述词表构建方法或机器翻译方法所实现的计算机程序。具体请参阅图10,图10为本实施例计算机设备基本结构框图。

如图10所示,计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中,该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种词表构建方法或机器翻译方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种词表构建方法或机器翻译方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

本实施方式中处理器用于执行本发明的词表构建装置或机器翻译装置中的各个模块/子模块的具体功能,存储器存储有执行上述模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有收藏商品状态更新装置中执行所有模块/子模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有子模块的功能。

本申请还提供一种非易失性存储介质,所述的词表构建方法或机器翻译方法被编写成计算机程序,以计算机可读指令的形式存储于该存储介质中,计算机可读指令被一个或多个处理器执行时,意味着该程序在计算机中的运行,由此使得一个或多个处理器执行上述任一实施例词表构建方法或机器翻译方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。

综上所述,本申请通过技术改进构建了一种适用于特定领域的词表构建框架,该框架可根据翻译业务所服务的业务场景,构造相应的词表供机器翻译神经网络模型进行训练,将非中文词组进行单字符切分替换,以压缩词表的大小,降低词表占用的储存内存大小,且通过移除词频排序靠后部分无意义词组,将词表精简至业务需求范围,同时较小的词表可提高机器翻译神经网络模型的训练速度,提高其在翻译业务中的翻译速度。

应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本技术领域技术人员可以理解,本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号