首页> 中国专利> 短语语料获取方法及短语语料获取装置

短语语料获取方法及短语语料获取装置

摘要

本发明涉及语音合成技术领域,提供一种短语语料获取方法及短语语料获取装置。短语语料获取方法,包括:获取待处理长句语料。拆分待处理长句语料,得到至少一个子句语料。将子句语料的字数与预设句长阈值进行对比。若子句语料的字数小于或等于预设句长阈值,则保留子句语料作为短句语料。通过本公开提供的获取短语语料方法,将待处理长句语料拆分成独立的子句语料进行处理,有助于提高语料清洗句子利用率,减少待处理长句语料中有用语料的损失,进而节省人工校对的成本。

著录项

  • 公开/公告号CN110750980A

    专利类型发明专利

  • 公开/公告日2020-02-04

    原文格式PDF

  • 申请/专利权人 北京海天瑞声科技股份有限公司;

    申请/专利号CN201911352915.8

  • 申请日2019-12-25

  • 分类号

  • 代理机构北京钲霖知识产权代理有限公司;

  • 代理人李英艳

  • 地址 100083 北京市海淀区成府路28号优盛大厦D801

  • 入库时间 2023-12-17 06:30:15

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-05-05

    授权

    授权

  • 2020-02-28

    实质审查的生效 IPC(主分类):G06F40/211 申请日:20191225

    实质审查的生效

  • 2020-02-04

    公开

    公开

说明书

技术领域

本发明一般地涉及语音合成技术领域,特别是涉及一种短语语料获取方法及短语语料获取装置。

背景技术

相关技术中,语料清洗包括分句、句长过滤、文本去重等步骤。通过语料清洗,将原始语料集中的未经处理的指定语料处理成实际需要的文本。在语料清洗的过程中,分句后句子的长度往往会有范围限制,以保证清洗出的文本长度方差在可控范围内。

在实际应用中,由于一些语料自身长度偏长,如新闻、百科、法律类语料,在语料清洗过程中,约有40%-60%的句子由于句长过长被过滤掉。对于一些稀缺语料,如商务对话、话术类语料,在语料清洗过程中,根据句长过滤清洗出的语料所剩无几,导致自动清洗不能满足后期文本使用需求。

通过上述语料清洗方式,导致清洗后的语料利用率偏低,部分原始语料信息丢失,无法满足后期语料的使用需求。

发明内容

为了解决现有技术中存在的上述问题,本发明提供一种短语语料获取方法及短语语料获取装置。

第一方面,本发明实施例提供一种短语语料获取方法,包括:获取待处理长句语料。拆分待处理长句语料,得到至少一个子句语料。将子句语料的字数与预设句长阈值进行对比。若子句语料的字数小于或等于预设句长阈值,则保留子句语料作为短句语料。

在一实施例中,拆分待处理长句语料,得到至少一个子句语料,包括:通过序列标注模型,判断待处理长句语料是否存在独立子句。若待处理长句语料存在独立子句时,则将待处理长句语料根据标点进行拆分,得到子句语料。

在一实施例中,拆分待处理长句语料,得到至少一个子句语料,包括:通过依存句法分析,判断待处理长句语料是否存在并列的子句。若待处理长句语料存在并列的子句,则将待处理长句语料拆分成多个并列的子句语料。

在另一实施例中,通过依存句法分析,判断待处理长句语料是否存在并列关系的子句,包括:通过依存句法分析,得到待处理长句语料的核心词。基于依存句法分析,根据待处理长句语料是否含有与核心词具有并列关系的并列词,判断待处理长句语料是否存在并列的子句。根据并列关系,将待处理长句语料进行拆分,包括:若待处理长句语料存在含有并列词的子句,则将待处理长句语料拆分成含有核心词的子句语料,以及含有并列词的子句语料。

在一实施例中,拆分待处理长句语料,得到至少一个子句语料,还包括:若待处理长句语料不存在并列的子句,则将待处理长句语料进行成分提取。

在另一实施例中,将待处理长句语料进行成分提取,包括:基于依存句法分析,根据待处理长句语料的句子结构将待处理长句语料进行成分提取,得到子句语料。

在一实施例中,短语语料获取方法还包括:若子句语料的字数大于预设句长阈值,则:通过依存句法分析,判断子句语料是否存在并列的子句。

在一实施例中,短语语料获取方法还包括:将短句语料进行短语校验,保留通过短语校验的短句语料。

在另一实施例中,将短句语料进行短语校验,保留通过短语校验的短句语料,包括:通过语言训练模型,得到短句语料的困惑度。将困惑度与预设困惑阈值进行对比,保留困惑度小于预设困惑阈值的短句语料。

在又一实施例中,获取待处理长句语料,包括:获取待处理语料集,将待处理语料集中的待处理语料长度与预设语料句长阈值进行对比,其中,待处理语料集中包括至少一句待处理语料。若待处理语料的长度大于或等于预设语料句长阈值,则获取待处理语料,待处理语料为待处理长句语料。若待处理语料的长度小于预设语料句长范围,则将待处理语料进行短句校验,语料为待处理短句语料。

第二方面,本发明实施例提供一种短语语料获取装置,包括:获取模块,用于获取待处理长句语料,和当子句语料的字数小于或等于预设句长阈值时,保留子句语料作为短句语料。拆分模块,用于拆分待处理长句语料,得到至少一个子句语料。对比模块,用于将子句语料的字数与预设句长阈值进行对比。

在一实施例中,拆分模块采用下述方式拆分待处理长句语料,得到至少一个子句语料:通过序列标注模型,判断待处理长句语料是否存在独立子句。若待处理长句语料存在独立子句时,则将待处理长句语料根据标点进行拆分,得到子句语料。

在另一实施例中,拆分模块采用下述方式拆分待处理长句语料,得到至少一个子句语料:通过依存句法分析,判断待处理长句语料是否存在并列的子句。若待处理长句语料存在并列的子句,则将待处理长句语料拆分成多个并列的子句语料。

在一实施例中,拆分模块采用下述方式通过依存句法分析,判断待处理长句语料是否存在并列关系的子句:通过依存句法分析,得到待处理长句语料的核心词。基于依存句法分析,根据待处理长句语料是否含有与核心词具有并列关系的并列词,判断待处理长句语料是否存在并列的子句。拆分模块采用下述方式根据并列关系,将待处理长句语料进行拆分:若待处理长句语料存在含有并列词的子句,则将待处理长句语料拆分成含有核心词的子句语料,以及含有并列词的子句语料。

在一实施例中,拆分模块还采用下述方式拆分待处理长句语料,得到至少一个子句语料:若待处理长句语料不存在并列的子句,则将待处理长句语料进行成分提取。

在另一实施例中,拆分模块采用下述方式将待处理长句语料进行成分提取:基于依存句法分析,根据待处理长句语料的句子结构将待处理长句语料进行成分提取,得到子句语料。

在一实施例中,当子句语料的字数大于预设句长阈值时:拆分模块,还用于通过依存句法分析,判断子句语料是否存在并列的子句。

在一实施例中,短语语料获取装置还包括:校验模块,用于将短句语料进行短语校验,保留通过短语校验的短句语料。

在另一实施例中,校验模块采用下述方式将短句语料进行短语校验,保留通过短语校验的短句语料:通过语言训练模型,得到短句语料的困惑度。将困惑度与预设困惑阈值进行对比,保留困惑度小于预设困惑阈值的短句语料。

在又一实施例中,获取模块采用下述方式获取待处理长句语料:获取待处理语料集,将待处理语料集中的待处理语料长度与预设语料句长阈值进行对比,其中,待处理语料集中包括至少一句待处理语料。若待处理语料的长度大于或等于预设语料句长阈值,则获取待处理语料,待处理语料为待处理长句语料。若待处理语料的长度小于预设语料句长范围,则将语料进行短句校验,语料为待处理短句语料。

第三方面,本发明实施例提供一种电子设备,其中,电子设备包括:存储器,用于存储指令;以及处理器,用于调用存储器存储的指令执行短语语料获取方法。

第四方面,本发明实施例提供一种计算机可读存储介质,其中,计算机可读存储介质存储有计算机可执行指令,计算机可执行指令在由处理器执行时,执行短语语料获取方法。

本发明提供的一种短语语料获取方法及短语语料获取装置。通过将待处理长句语料拆分成各自独立的子句语料进行处理,有助于提高语料清洗句子利用率,减少待处理长句语料的信息损失,进而节省人工校对成本。

附图说明

通过参考附图阅读下文的详细描述,本发明实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:

图1示出了本发明实施例提供的一种短语语料获取方法的示意图;

图2示出了本发明实施例提供的另一种短语语料获取方法的示意图;

图3示出了本发明实施例提供的又一种短语语料获取方法的示意图;

图4示出了本发明实施例提供的又一种短语语料获取方法的示意图;

图5示出了本发明实施例提供的一种短语语料获取的工作流程图;

图6示出了本发明实施例提供的一种短语语料获取装置示意图;

图7示出了本发明实施例提供的一种电子设备示意图;

在附图中,相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。

需要注意,虽然本文中使用“第一”、“第二”等表述来描述本发明的实施方式的不同模块、步骤和数据等,但是“第一”、“第二”等表述仅是为了在不同的模块、步骤和数据等之间进行区分,而并不表示特定的顺序或者重要程度。实际上,“第一”、“第二”等表述完全可以互换使用。

本公开提供的短语语料获取方法,应用于将待处理语料,通过语料清洗,得到适用于语音合成数据库制作的语料库。在实际应用中,为保证语料库的质量,对清洗后的语料长度进行限定,以保证清洗后的语料长度方差处于可控范围内,便于语料库中的语料进行管理。

图1是根据一示例性实施例示出的一种短语语料获取方法的示意图。如图1所示,短语语料获取方法10,包括以下步骤S11至步骤S13。

在步骤S11中,获取待处理长句语料。

在本公开实施例中,待处理长句语料为指定的未处理的待处理长句语料。根据预设语料句长阈值,确定需获取的待处理长句语料的句长。通过本地语料或者云端中的数据库,得到待处理长句语料。待处理长句语料的内容可以包括:新闻、对话、百科、法律,在本公开中不进行限定。

在一实施场景中,根据预设语料句长阈值,将待处理语料集中的待处理语料进行分开获取。其中,待处理语料集中至少含有一句待处理语料。将句长大于或等于预设语料句长阈值的待处理语料,作为待处理长句语料。采用待处理长句语料清洗方式,将待处理长句语料进行语料清洗。将句长小于预设语料句长阈值的待处理语料,直接获取作为短句语料,或者采用短句语料清洗方式,将待处理短句语料进行语料清洗。将待处理语料根据句长进行分开处理,有助于节省语料清洗成本,加快语料清洗进程。同时,还有助于降低待处理语料集中的有用语料损失率,进而提高待处理语料的利用率。

在步骤S12中,拆分待处理长句语料,得到至少一个子句语料。

在本公开实施例中,将获取的待处理长句语料进行拆分,得到至少一个独立的子句语料。通过将待处理长句语料进行拆分,有助于将待处理长句语料中的有效信息进行最大化保留,提高待处理长句语料的利用率。

在一实施例中,根据标点符号,结合上下文语境,判断长句语料是否存在独立子句。当存在独立子句时,则将待处理长句语料进行拆分。在一实施场景中,预先去除待处理长句语料中的标点符号,获得无标点符号的待处理长句语料。通过序列标注模型,例如:Bi-LSTM-CRF模型(双向-长短期记忆网络-条件随机场),结合上下文语境和命名实体识别,预测无标点符号的待处理长句语料的标点符号位置,得到带有预测标点符号的待处理长句语料。通过动态规划算法,例如:LCS算法(Longest common subesquence,最长公共子序列算法),将待处理长句语料和带有预测标点符号的待处理长句语料通过对齐进行对比,根据对应位置的标点符号变化,判断待处理长句语料是否存在独立子句。若带有预测标点符号的待处理长句语料(不包含句末标点)中含有句末标志,而对应的原始待处理长句语料中为停顿标志,则判断待处理长句语料中存在独立子句,根据预测的句末标志,将待处理长句语料拆分成多个子句语料。若带有预测标点符号的待处理长句语料(不包含句末标点)中不含有句末标志,则判断待处理长句语料中不存在独立子句,句末标志例如:句号、疑问号或者感叹号。停顿标志例如:逗号或着分号。例如:待处理长句语料为:不好的感觉越来越强烈了,他睡前也跟我说第二天会很早起来去开会,就不叫醒我了。通过序列标注模型得到的带有预测标点符号的待处理长句语料为:不好的感觉越来越强烈了。他睡前也跟我说第二天会很早起来去开会,就不叫醒我了。通过对比,预测后的“越来越强烈了”结尾为句号,对应原始待处理长句语料的位置为逗号。因此将“不好的感觉越来越强烈了,他睡前也跟我说第二天会很早起来去开会,就不叫醒我了。”,拆分成“不好的感觉越来越强烈了。”和“他睡前也跟我说第二天会很早起来去开会,就不叫醒我了。”。通过标点符号,将待处理长句语料进行拆分,有助于快速缩短待处理长句的句长。将长句变为短句进行语料清洗,有助于提高语料清洗效率,降低语料清洗成本。在另一实时场景中,预设标点符号与对应标记符号对照表。将序列标注模型进行训练。将获取的带标点的训练语句集中的训练语句和去掉标点后的训练语句根据预设标点符号对照表进行标注,构建序列标注模型的训练集和测试集,训练Bi-LSTM-CRF模型。

在步骤S13中,将子句语料的字数与预设句长阈值进行对比。

在本公开实施例中,将经过拆分后的子句语料字数与预设长句阈值进行对比,进而控制获取的短句语料长度,以满足语料库的构建需求。

在步骤S14中,将字数小于或等于预设句长阈值的子句语料进行保留,作为短语语料。

在本公开实施例中,根据语料库的实际要求,将字数小于或等于预设句长阈值的子句语料进行保留,作为短句语料存入语料库,为后期的语音合成或其他应用提供大量符合标准的短句语料。

通过上述实施例,将待处理长句语料拆分成各自独立的子句语料进行处理,有助于提高待处理语料的利用率,提升语料清洗效率,进而节省人工校对成本。

图2是根据一示例性实施例示出的另一种短语语料获取方法的示意图。如图2所示,短语语料获取方法20,包括以下步骤S21至步骤S25。

在本公开实施例中,步骤S21、步骤S24和步骤S25分别与上述短语语料获取方法10中的步骤S11、步骤S13和步骤S14的实施方式相同,在此不再进行赘述。

在步骤S21中,获取待处理长句语料。

在步骤S22中,通过依存句法分析,判断待处理长句语料是否存在并列的子句。

在本公开实施例中,通过依存句法分析对待处理长句语料的内容成分进行分析,得到待处理长句语料中的核心词,判断核心词是否与存在核心词以外的子句产生并列关系。当存在并列子句时,则将待处理长句语料拆分成多个并列的子句语料。当不存在并列子句时,则将待处理长句语料根据句子成分,进行成分提取,保留待处理长句语料中的有效信息,使拆分后的子句语料依旧结构完整,不影响待处理长句语料中的有效内容进行保留。例如:待处理长句语料的内容为:“与其他比赛项目不同,女曲的这次热身赛完全封闭,没有观众,不让记者采访,没有赛事公报。”。如下表表1所示,通过依存句法分析,获取待处理长句语料的分词、词语位置、依存关系、词性等信息,进而判断待处理长句语料中的核心词。其中,依存关系词位置为0的词,为依存关系中的核心关系词,即为待处理长句语料的核心词。

分词词语位置依存关系词位置依存关系词性14状中结构p其他23定中关系r比赛项目31介宾关系nz不同411状中结构a54标点符号w女曲69定中关系n76右附加关系u这次89定中关系r热身赛911主谓关系l完全1011状中结构ad封闭110核心关系v1211标点符号w没有1311并列关系v观众1413动宾关系n1513标点符号w不让1617定中关系v记者1718主谓关系n采访1811并列关系vn1918标点符号w没有2011并列关系v赛事2122定中关系n公报2220动宾关系n2311标点符号w

表1

在另一实施例中,将获取的待处理长句语料,预先通过序列标注模型,判断待处理长句语料中是否含有独立子句。基于得到的独立子句,通过依存句法分析,将待处理长句语料进行拆分,有助于节省依存句法分析的分析时间,提升拆分速率。

在步骤S23中,若待处理长句语料存在并列的子句,则将待处理长句语料拆分成多个并列的子句语料。

在本公开实施例中,通过依存句法分析,确定待处理长句语料中含有与核心词存在并列关系的并列词,并分布于不同的子句中,子句之间以句号或者分号进行分割。获取并列词所在的子句的句首位置,将待处理长句语料进行拆分。将拆分后的未以句末标识符结尾的短句进行标点预测,确定结尾标识符,使拆分后的子句语料结构完整。例如:如上表表1所示,通过依存句法分析,确定词语位置为11的“封闭”为核心词,对应的并列词分别为词语位置为13的“没有”、词语位置为18的“采访”和词语位置为20的“没有”。根据并列词的子句位置,将“与其他比赛项目不同,女曲的这次热身赛完全封闭,没有观众,不让记者采访,没有赛事公报。”拆分成“与其他比赛项目不同,女曲的这次热身赛完全封闭。”、“没有观众。”、“不让记者采访。”和“没有赛事公报。”。

在一实施例中,为保证拆分后的子句语料依存关系完整,将子句语料句法结构补充。预先获取核心词的主句,即句法分析的主谓关系对应词。判断含有并列词的子句中是否已有主谓关系对应词。当不存在主谓关系对应词时,则依据汉语中“乘上省略”的特点,将含有核心词的子句中的主谓关系对应词添加至含有并列词的子句中。通过语言模型计算并列子句中不同位置的困惑度,确定添加主谓关系对应词的位置,困惑值的位置为适合添加主谓关系对应词的位置。主谓关系对应词添加完成后,通过语言模型,根据困惑值的大小,判断含有并列词的子句中的与并列词构成状语关系的连词和副词是否需要删除,以保证拆分后的子句语料句法结构正常,语意顺通,没有冗余的句子成分。

在步骤S24中,将子句语料的字数与预设句长阈值进行对比。

在步骤S25中,将字数小于或等于预设句长阈值的子句语料进行保留,作为短语语料。

通过上述实施例,根据依存句法分析,判断待处理长句语料的句法结构和句子中各词汇之间的依存关系,并确定子句之间的并列关系。基于并列关系,将待处理长句语料拆分成多个独立的子句语料,基于待处理长句语料的本身语句结构拆分,使拆分更具有准确性,有助于提高子句语料的结构完整性。

基于同一发明构思,本公开提出又一种短语语料获取方法。

图3是根据一示例性实施例示出的又一种短语语料获取方法的示意图。如图3所示,短语语料获取方法30,包括以下步骤S31至步骤S35。

在本公开实施例中,步骤S31、步骤S32、步骤S34和步骤S35分别与上述短语语料获取方法20中的步骤S21、步骤S22、步骤S24和步骤S25的实施方式相同,在此不再进行赘述。

在步骤S31中,获取待处理长句语料。

在步骤S32中,通过依存句法分析,判断待处理长句语料是否存在并列的子句。

在步骤S33中,若待处理长句语料不存在并列的子句,则将待处理长句语料进行成分提取。

在本公开实施例中,通过依存句法分析,确定待处理长句语料中不含有与核心词存在并列关系的并列词,表明待处理长句语料中不存在含有并列关系的子句。根据依存句法分析,对待处理长句语料进行成分提取,缩短待处理长句语料的句长,得到新的语料,即为待处理长句语料的子句语料。在一实施场景中,根据状语关系、名词性并列词、主谓对应关系和宾语,将待处理长句语料进行成分提取。根据依存句法的分析,若待处理长句语料中含有与核心词构成状语关系的子句,则将与核心词构成状语关系的子句进行删除。若待处理长句语料中含有名词性并列成分,则至少保留一个并列成分,将其余并列成分进行删除。当核心词的主谓关系对应词的定语超过预设定语字数阈值时,则删除定语。当核心词对应的宾语从句过长时,则只保留宾语从句。通过成分提取缩短待处理长句语料,最大化将待处理长句语料中有效信息进行保留,以提高待处理长句语料的利用率。

在步骤S34中,将子句语料的字数与预设句长阈值进行对比。

在步骤S35中,将字数小于或等于预设句长阈值的子句语料进行保留,作为短语语料。

通过上述实施例,通过依存关系分析,确定待处理长句语料的句子成分,并根据句子成分将待处理长句语料进行成分提取。使缩短待处理长句语料的同时,最大化的保留待处理长句语料中的有效信息,有助于提高待处理长句语料的利用率,减少信息损失。

在一实施例中,当待处理长句语料存在独立子句时,将待处理长句语料拆成多个子句语料。将得到的多个子句语料根据预设的预设句长阈值进行对比。若获取的子句语料的字数大于预设句长阈值,则使用依存句法分析将该子句语料进行分析,拆分成多个并列的子句语料或者通过成分提取缩短子句语料的字数长度。有助于最大化保留待处理长句语料中的有效信息,提高待处理长句语料的利用率。

图4是根据一示例性实施例示出的又一种短语语料获取方法的示意图。如图4所示,短语语料获取方法40,包括以下步骤S41至步骤S44。

在本公开实施例中,步骤S41至步骤S44分别与上述短语语料获取方法10中的步骤S11至S14的实施方式相同,在此不再进行赘述。

在步骤S41中,获取待处理长句语料。

在步骤S42中,拆分待处理长句语料,得到至少一个子句语料。

在步骤S43中,将子句语料的字数与预设句长阈值进行对比。

在步骤S44中,将字数小于或等于预设句长阈值的子句语料进行保留,作为短语语料。

在步骤S45中,将短句语料进行短语校验,保留通过短语校验的短句语料。

在本公开实施例中,将得到的短语语料通过语言模型进行短语校验,将通过校验的短语语料进行保留,以确保得到的短语语料是结构完整、语意通顺,且符合句长要求的新句子。有助于提高语料库的构建质量,节省人工校对时间。

在一实施例中,通过语言模型,得到关于短语语料的困惑度值。将困惑度值与预设困惑阈值进行对比,将困惑度值小于预设困惑阈值的短句语料进行保留,有助于保留优质的短语语料。在一实施场景中,预先分词后的训练语料输入至语言训练模型工具中,例如:SRILM模型工具,设置为5-gram语言模型,训练语言模型,用于对输入的训练语料根据困惑度进行质量评判。将训练后的语言模型对得到的短语语料进行困惑度打分,衡量短语语料的质量。

通过上述实施例,通过短语校验,将保留的短句语料进行二次筛选,有助于提高保留后的短语语料质量,节省人工校对时间,节约成本。

基于同一种发明构思,本公开提供的一种短语语料获取的工作流程示意图。

图5是根据一示例性实施例示出的又一种短语语料获取方法的示意图。如图5所示,短语语料获取方法50,包括以下步骤S51至步骤S57。

在步骤S51中,根据预设语料句长阈值,获取待处理长句语料。

在本公开实施例中,根据预设语料句长阈值,确定需获取的待处理长句语料的句长。将句长大于或等于预设语料句长阈值的待处理语料,作为待处理长句语料。

在步骤S52中,判断待处理长句语料中是否存在独立子句。

在本公开实施例中,通过序列标注模型判断待处理长句语料中是否含有独立子句。若存在独立子句时,则将待处理长句语料进行拆分,生成多个子句语料,通过执行步骤S55,将子句语料的字数与预设句长阈值进行对比。若不存在独立子句时,则执行步骤S53,判断待处理长句语料中是否含有并列子句。

在步骤S53中,判断待处理长句语料中是否含有并列子句。

在本公开实施例中,通过依存句法分析,对待处理长句语料进行分析,得到待处理长句语料的核心词。根据分析结果得到的待处理长句语料的句法结构和词汇之间的依存关系,判断核心词是否与核心词以外的子句产生并列关系。当存在并列关系时,则执行步骤S54a,将待处理长句语料拆分成多个并列的子句语料。当不存并列关系时,则执行步骤S54b,将待处理长句语料进行成分提取。

在步骤S54a中,将待处理长句语料拆分成多个并列的子句语料。

在本公开实施例中,通过依存句法分析,确定待处理长句语料中含有与核心词存在并列关系的并列词,并分布于不同的子句中。获取并列词所在的子句的句首位置,将待处理长句语料进行拆分,得到多个并列的子句语料。

在步骤S54b中,将待处理长句语料进行成分提取。

在本公开实施例中,通过依存句法分析,确定待处理长句语料中不含有与核心词存在并列关系的并列词,对待处理长句语料进行成分提取,缩短待处理长句语料的句长,得到新的语料,即为待处理长句语料的子句语料。

在步骤S55中,将子句语料的字数与预设句长阈值进行对比,保留字数小于或等于预设句长阈值的子句语料。

在本公开实施例中,将经过拆分后的子句语料字数与预设长句阈值进行对比,将字数小于或等于预设句长阈值的子句语料进行保留,进而控制获取的短句语料长度。将子句语料,作为短句语料。

在步骤S56中,将保留的子句语料进行短语校验。

在本公开实施例中,将得到的短语语料通过语言模型进行短语校验,将通过校验的短语语料进行保留,以确保得到的短语语料是结构完整、语意通顺,且符合句长要求的新句子。

在步骤S57中,获得短句语料。

在本公开实施例中,将通过短语校验的短语语料进行保留,得到符合需求的短句语料。

通过上述实施例,将待处理长句语料通过独立子句检测、依存句法分析进行拆分,拆分成独立的子句语料,并通过短语校验后,得到结构完整、语意通顺且符合句长要求的短句语料。有助于提高待处理长句语料的利用率,减少语料信息的损失,节约人工成本。

基于同一种发明构思,本公开提供的一种短语语料获取装置的示意图。

图6是根据一示例性实施例示出的一种个性语料获取装置的示意图。如图6所示,短语语料获取装置100,包括以下模块。

获取模块110,用于获取待处理长句语料,和当子句语料的字数小于或等于预设句长阈值时,保留子句语料作为短句语料。

拆分模块120,用于拆分待处理长句语料,得到至少一个子句语料。

对比模块130,用于将子句语料的字数与预设句长阈值进行对比。

在一实施例中,拆分模块120采用下述方式拆分待处理长句语料,得到至少一个子句语料:通过序列标注模型,判断待处理长句语料是否存在独立子句。若待处理长句语料存在独立子句时,则将待处理长句语料根据标点进行拆分,得到子句语料。

在另一实施例中,拆分模块120采用下述方式拆分待处理长句语料,得到至少一个子句语料:通过依存句法分析,判断待处理长句语料是否存在并列的子句。若待处理长句语料存在并列的子句,则将待处理长句语料拆分成多个并列的子句语料。

在一实施例中,拆分模块120采用下述方式通过依存句法分析,判断待处理长句语料是否存在并列关系的子句:通过依存句法分析,得到待处理长句语料的核心词。基于依存句法分析,根据待处理长句语料是否含有与核心词具有并列关系的并列词,判断待处理长句语料是否存在并列的子句。拆分模块120采用下述方式根据并列关系,将待处理长句语料进行拆分:若待处理长句语料存在含有并列词的子句,则将待处理长句语料拆分成含有核心词的子句语料,以及含有并列词的子句语料。

在一实施例中,拆分模块120还采用下述方式拆分待处理长句语料,得到至少一个子句语料:若待处理长句语料不存在并列的子句,则将待处理长句语料进行成分提取。

在另一实施例中,拆分模块120采用下述方式将待处理长句语料进行成分提取:基于依存句法分析,根据待处理长句语料的句子结构将待处理长句语料进行成分提取,得到子句语料。

在一实施例中,当子句语料的字数大于预设句长阈值时,拆分模块120,还用于通过依存句法分析,判断子句语料是否存在并列的子句。

在一实施例中,短语语料获取装置还包括:校验模块,用于将短句语料进行短语校验,保留通过短语校验的短句语料。

在另一实施例中,校验模块采用下述方式将短句语料进行短语校验,保留通过短语校验的短句语料:通过语言训练模型,得到短句语料的困惑度。将困惑度与预设困惑阈值进行对比,保留困惑度小于预设困惑阈值的短句语料。

在又一实施例中,获取模块110采用下述方式获取待处理长句语料:获取待处理语料集,将待处理语料集中的待处理语料长度与预设语料句长阈值进行对比,其中,待处理语料集中包括至少一句待处理语料。若待处理语料的长度大于或等于预设语料句长阈值,则获取待处理语料,待处理语料为待处理长句语料。若待处理语料的长度小于预设语料句长范围,则将语料进行短句校验,待处理语料为待处理短句语料。

装置中的各个模块所实现的功能与上文描述的方法中的步骤相对应,其具体实现和技术效果请参见上文对于方法步骤的描述,在此不再赘述。

如图7所示,本发明的一个实施方式提供了一种电子设备200。其中,该电子设备200包括存储器210、处理器220、输入/输出(Input/Output,I/O)接口230。其中,存储器210,用于存储指令。处理器220,用于调用存储器210存储的指令执行本发明实施例的用于短语语料获取方法。其中,处理器220分别与存储器210、I/O接口230连接,例如可通过总线系统和/或其他形式的连接机构(未示出)进行连接。存储器210可用于存储程序和数据,包括本发明实施例中涉及的用于短语语料获取的程序,处理器220通过运行存储在存储器210的程序从而执行电子设备200的各种功能应用以及数据处理。

本发明实施例中处理器220可以采用数字信号处理器(Digital SignalProcessing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现,处理器220可以是中央处理单元(Central Processing Unit,CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元中的一种或几种的组合。

本发明实施例中的存储器210可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(Random Access Memory,RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(Read-OnlyMemory,ROM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,HDD)或固态硬盘(Solid-State Drive,SSD)等。

本发明实施例中,I/O接口230可用于接收输入的指令(例如数字或字符信息,以及产生与电子设备200的用户设置以及功能控制有关的键信号输入等),也可向外部输出各种信息(例如,图像或声音等)。本发明实施例中I/O接口230可包括物理键盘、功能按键(比如音量控制按键、开关按键等)、鼠标、操作杆、轨迹球、麦克风、扬声器和触控面板等中的一个或多个。

在一些实施方式中,本发明提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,计算机可执行指令在由处理器执行时,执行上文所述的任何方法。

尽管在附图中以特定的顺序描述操作,但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作,或是要求执行全部所示的操作以得到期望的结果。在特定环境中,多任务和并行处理可能是有利的。

本发明的方法和装置能够利用标准编程技术来完成,利用基于规则的逻辑或者其他逻辑来实现各种方法步骤。还应当注意的是,此处以及权利要求书中使用的词语“装置”和“模块”意在包括使用一行或者多行软件代码的实现和/或硬件实现和/或用于接收输入的设备。

此处描述的任何步骤、操作或程序可以使用单独的或与其他设备组合的一个或多个硬件或软件模块来执行或实现。在一个实施方式中,软件模块使用包括包含计算机程序代码的计算机可读介质的计算机程序产品实现,其能够由计算机处理器执行用于执行任何或全部的所描述的步骤、操作或程序。

出于示例和描述的目的,已经给出了本发明实施的前述说明。前述说明并非是穷举性的也并非要将本发明限制到所公开的确切形式,根据上述教导还可能存在各种变形和修改,或者是可能从本发明的实践中得到各种变形和修改。选择和描述这些实施例是为了说明本发明的原理及其实际应用,以使得本领域的技术人员能够以适合于构思的特定用途来以各种实施方式和各种修改而利用本发明。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号