首页> 中国专利> 一种文本标签的确定方法及装置、计算机设备和存储介质

一种文本标签的确定方法及装置、计算机设备和存储介质

摘要

本申请公开了一种文本标签的确定方法及装置、计算机设备和存储介质,包括:获取目标文本以及待匹配标签,根据目标文本以及待匹配标签,获取目标文本的特征向量集合以及待匹配标签的特征向量集合,根据目标文本的特征向量集合以及待匹配标签的特征向量集合,获取相关性特征集合,相关性特征集合包括文本单元之间的相关性特征以及文本单元与属性标签之间的相关性特征,根据相关性特征集合获取目标文本分别属于每个属性标签的概率,根据目标文本分别属于每个属性标签的概率,确定目标文本所对应的目标标签。通过上述方法,由于所获取到的特征信息能够更准确地反映文本以及标签的信息,从而提升确定文本对应的标签的准确度。

著录项

  • 公开/公告号CN113821589A

    专利类型发明专利

  • 公开/公告日2021-12-21

    原文格式PDF

  • 申请/专利权人 腾讯科技(深圳)有限公司;

    申请/专利号CN202110651238.0

  • 发明设计人 张倩汶;闫昭;

    申请日2021-06-10

  • 分类号G06F16/33(20190101);G06F16/35(20190101);G06F16/36(20190101);G06F40/194(20200101);G06F40/279(20200101);G06F40/30(20200101);G06N20/00(20190101);

  • 代理机构44285 深圳市深佳知识产权代理事务所(普通合伙);

  • 代理人聂秀娜

  • 地址 518057 广东省深圳市南山区高新区科技中一路腾讯大厦35层

  • 入库时间 2023-06-19 13:46:35

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-10-11

    实质审查的生效 IPC(主分类):G06F16/33 专利申请号:2021106512380 申请日:20210610

    实质审查的生效

说明书

技术领域

本申请涉及人工智能领域中的自然语言处理领域,尤其涉及一种文本标签的确定方法及装置、计算机设备和存储介质。

背景技术

文本表示在模型性能中起着重要作用。对于早期模型来说,提取必要的手工制作的特征是至关重要的,特征可以由深度神经网络(deep neural networks,DNN)提取。文本中的每一个词能够由一个特定的向量来表示,通过词嵌入技术得到。而双向编码表征(bidirectional encoder representations from transformers,BERT)模型能够依靠注意力机制来绘制输入和输出之间的全局依赖关系,它是文本标签的确定任务发展的一个重要转折点。

目前,文本的多标签自动标注,能够通过多标记学习,即通过将样本特征化后进行多标签分类学习,这里的样本可以是文本、图像、或音频。通过生成上下文化的词向量,并提取所有词之间的依赖性为分类任务提供上下文信息,然而,仅利用上下文信息来生成文本表示,但忽略标签本身所传达的信息,所得到的分类标签可能与真实情况存在偏差,因此,如何更为准确对文本标签进行分类成为亟需解决的问题。

发明内容

本申请实施例提供了一种文本标签的确定方法及装置、计算机设备和存储介质,由于所获取的目标文本包括至少两个文本单元,且待匹配标签包括至少一个属性标签,通过获取文本单元之间的相关性特征以及文本单元与属性标签之间的相关性特征,能够在考虑文本之间所传达信息的基础上,进一步地考虑到标签与文本之间的相关性,由此增强提取特征的分辨能力,因此所获取到的特征信息能够更准确地反映文本以及标签的信息,从而提升确定文本对应的标签的准确度。

有鉴于此,本申请第一方面提供了一种文本标签的确定方法,包括:

获取目标文本以及待匹配标签,其中,目标文本包括至少两个文本单元,待匹配标签包括至少一个属性标签;

根据目标文本以及待匹配标签,获取目标文本的特征向量集合以及待匹配标签的特征向量集合;

根据目标文本的特征向量集合以及待匹配标签的特征向量集合,获取相关性特征集合,其中,相关性特征集合包括文本单元之间的相关性特征以及文本单元与属性标签之间的相关性特征;

根据相关性特征集合获取目标文本分别属于每个属性标签的概率;

根据目标文本分别属于每个属性标签的概率,确定目标文本所对应的目标标签,其中,目标标签包括至少一个属性标签。

本申请第二方面提供了一种文本标签的确定装置,包括:

获取模块,用于获取目标文本以及待匹配标签,其中,目标文本包括至少两个文本单元,待匹配标签包括至少一个属性标签;

获取模块,还用于根据目标文本以及待匹配标签,获取目标文本的特征向量集合以及待匹配标签的特征向量集合;

获取模块,还用于根据目标文本的特征向量集合以及待匹配标签的特征向量集合,获取相关性特征集合,其中,相关性特征集合包括文本单元之间的相关性特征以及文本单元与属性标签之间的相关性特征;

获取模块,还用于根据相关性特征集合获取目标文本分别属于每个属性标签的概率;

确定模块,用于根据目标文本分别属于每个属性标签的概率,确定目标文本所对应的目标标签,其中,目标标签包括至少一个属性标签。

在一个可能的实施方式中,待匹配标签包括至少两个属性标签;

相关性特征集合还包括属性标签之间的相关性特征。

在一个可能的实施方式中,获取模块,具体用于根据目标文本以及待匹配标签生成目标文本序列,其中,目标文本序列包括目标文本的文本序列以及待匹配标签的文本序列;

对目标文本序列进行编码处理,得到目标文本的特征向量集合以及待匹配标签的特征向量集合。

在一个可能的实施方式中,文本标签的确定装置还包括处理模块;

处理模块,用于对目标文本进行分词处理,得到目标文本的文本序列;

对待匹配标签进行分词处理,得到待匹配标签的文本序列;

对目标文本的文本序列以及待匹配标签的文本序列进行拼接处理,得到目标文本序列。

在一个可能的实施方式中,处理模块,具体用于对目标文本的文本序列以及待匹配标签的文本序列进行编码处理,得到每个文本单元所对应的特征向量以及每个属性标签所对应的特征向量;

根据每个文本单元所对应的特征向量生成目标文本的特征向量集合;

根据每个属性标签所对应的特征向量生成待匹配标签的特征向量集合。

在一个可能的实施方式中,获取模块,具体用于根据相关性特征集合获取注意力权重向量集合,其中,注意力权重向量集合包括至少两个注意力权重向量,注意力权重向量与文本单元一一对应,注意力权重向量表示文本单元在目标文本中与属性标签相关的权重;

根据目标文本以及注意力权重向量集合,获取文本特征向量集合;

根据文本特征向量集合与待匹配标签,获取目标文本分别属于每个属性标签的概率。

在一个可能的实施方式中,获取模块,具体用于对相关性特征集合进行卷积处理,获取注意力权重向量集合;

获取模块,具体用于对目标文本以及注意力权重向量集合进行处理,获取文本特征向量集合。

在一个可能的实施方式中,待匹配标签包括至少两个属性标签;

确定模块,具体用于将目标文本分别属于每个属性标签的概率大于第一分类阈值的至少一个概率确定为目标概率;

将目标概率对应的属性标签确定为目标文本所对应的目标标签。

在一个可能的实施方式中,待匹配标签为单个属性标签;

确定模块,具体用于当目标文本属于属性标签的概率大于第二分类阈值时,则将待匹配标签确定为目标文本所对应的目标标签。

在一个可能的实施方式中,获取模块,具体用于基于目标文本以及待匹配标签,通过分类模型的第一特征处理层获取目标文本的特征向量集合以及待匹配标签的特征向量集合;

获取模块,具体用于基于目标文本的特征向量集合以及待匹配标签的特征向量集合,通过分类模型的第二特征处理层获取相关性特征集合;

获取模块,具体用于基于相关性特征集合,通过分类模型的卷积层获取目标文本分别属于每个属性标签的概率;

确定模块,具体用于基于目标文本分别属于每个属性标签的概率,通过分类模型的全连接层确定目标文本所对应的目标标签。

在一个可能的实施方式中,文本标签的确定装置还包括训练模块;

获取模块,还用于获取目标文本样本集合,待匹配标签样本以及真实标签集合,其中,目标文本样本集合包括至少两个目标文本样本,目标文本样本包括至少两个文本单元,待匹配标签样本包括至少一个属性标签;

获取模块,还用于基于目标文本样本集合以及待匹配标签样本,通过待训练分类模型的第一特征处理层获取目标文本样本集合的特征向量集合以及待匹配标签样本的特征向量集合;

获取模块,还用于基于目标文本样本集合的特征向量集合以及待匹配标签样本的特征向量集合,通过待训练分类模型的第二特征处理层获取相关性特征样本集合,其中,相关性特征样本集合包括每个目标文本样本的文本单元之间的相关性特征以及每个目标文本样本的文本单元与每个待匹配标签样本的属性标签之间的相关性特征;

获取模块,还用于基于相关性特征样本集合,通过待训练分类模型的卷积层获取每个目标文本样本的文本单元分别属于每个属性标签的概率集合;

获取模块,还用于基于每个目标文本样本的文本单元分别属于每个属性标签的概率集合,通过待训练分类模型的全连接层获取目标文本样本集合所对应的预测标签集合,其中,预测标签集合包括多个预测标签,每个预测标签包括至少一个属性标签;

训练模块,用于基于预测标签集合以及真实标签集合,对待训练分类模型进行训练,得到分类模型。

在一个可能的实施方式中,训练模块,具体用于基于预测标签集合以及真实标签集合,根据目标损失函数更新待训练分类模型的模型参数,以得到分类模型。

本申请的第三方面提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面的方法。

从以上技术方案可以看出,本申请实施例具有以下优点:

本申请实施例中,提供了一种文本标签的确定方法,先获取目标文本以及待匹配标签,该目标文本包括至少两个文本单元,且待匹配标签包括至少一个属性标签,然后根据目标文本以及待匹配标签,获取目标文本的特征向量集合以及待匹配标签的特征向量集合,并且根据目标文本的特征向量集合以及待匹配标签的特征向量集合,获取相关性特征集合,该相关性特征集合包括文本单元之间的相关性特征以及文本单元与属性标签之间的相关性特征,进而根据相关性特征集合获取目标文本分别属于每个属性标签的概率,最后根据目标文本分别属于每个属性标签的概率,确定目标文本所对应的目标标签,该目标标签包括至少一个属性标签。采用上述方式,能够在考虑文本之间所传达信息的基础上,进一步地考虑到标签与文本之间的相关性,由此增强提取特征的分辨能力,因此所获取到的特征信息能够更准确地反映文本以及标签的信息,从而提升确定文本对应的标签的准确度。

附图说明

图1为本申请实施例中文本标签的确定系统的一个架构示意图;

图2为本申请实施例中文本标签的确定方法的一个应用流程示意图;

图3为本申请实施例中文本标签的确定方法一个实施例示意图;

图4为本申请实施例生成目标文本序列的一个实施例示意图;

图5为本申请实施例生成目标文本序列的另一实施例示意图;

图6为本申请实施例获取目标文本序列的特征向量集合的一个实施例示意图;

图7为本申请实施例获取注意力权重向量集合的一个实施例示意图;

图8为本申请实施例中分类模型的一个架构示意图;

图9为本申请实施例中文本标签的确定装置一个实施例示意图;

图10为本申请实施例中服务器一个实施例示意图;

图11为本申请实施例中终端设备一个实施例示意图。

具体实施方式

本申请实施例提供了一种文本标签的确定方法及装置、计算机设备和存储介质,由于所获取的目标文本包括至少两个文本单元,且待匹配标签包括至少一个属性标签,通过获取文本单元之间的相关性特征以及文本单元与属性标签之间的相关性特征,能够在考虑文本之间所传达信息的基础上,进一步地考虑到标签与文本之间的相关性,因此所获取到的特征信息能够更准确地反映文本以及标签的信息,从而提升确定文本对应的标签的准确度。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

文本表示在模型性能中起着重要作用,对文本的标签标注,能够通过标记学习,即通过将样本特征化后进行多标签分类学习。然而,仅利用上下文信息来生成文本表示,但忽略标签本身所传达的信息,所得到的分类标签可能与真实情况存在偏差,因此,如何更为准确对文本标签进行分类成为亟需解决的问题。基于此,本申请实施例提供了一种文本标签的确定方法,可以提升确定文本对应的标签的准确度。

为了便于理解,对本申请实施例涉及到的一些术语或概念进行解释。

一、多标签分类

多标签分类为一个文本样本的分类对应多个标签分类的结果。

二、双向编码表征模型(bidirectional encoder representations fromtransformers,BERT)

BERT是一种双向预训语言表示方法,主要包含pre-training和fine-tuning两个部分,请核心理念通过在大型文本语料库里预训练得到通用“语言理解”模型并将其运用到具体的自然语言处理(Nature Language processing,NLP)任务中。

进一步地,下面对本申请实施例的应用场景进行介绍,可以理解的,本申请实施例提供的文本标签的确定方法可以由终端设备来执行,也可以由服务器来执行。本申请提供的文本标签的确定方法应用于如图1所示的文本标签的确定系统,请参阅图1,图1为本申请实施例中文本标签的确定系统的一个架构示意图,如图1所示,文本标签的确定系统包括终端设备以及服务器。具体地,终端设备在确定目标文本以及待匹配标签之后,能够能够通过本申请实施例所提供的方法从待匹配标签所包括的多个属性标签中,确定目标文本所对应的目标标签(可以为一个或多个属性标签)。进一步地,终端设备还能够将目标文本所对应的目标标签保存于区块链上。或者,终端设备在获取到目标文本以及待匹配标签之后,可以选择将目标文本以及待匹配标签向服务器发送,服务器通过本申请实施例所提供的方法从待匹配标签所包括的多个属性标签中确定目标文本所对应的目标标签,然后将目标文本所对应的目标标签发送给终端设备。进一步地,服务器还能够将目标文本所对应的目标标签保存于区块链上。

本申请涉及的服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端、智能电视等,但不局限于此。且终端设备和服务器之间可以通过无线网络、有线网络或可移动存储介质进行通信。其中,上述的无线网络使用标准通信技术和/或协议。无线网络通常为因特网、但也可以是任何网络,包括但不限于蓝牙、局域网(Local Area Network,LAN)、城域网(Metropolitan Area Network,MAN)、广域网(Wide Area Network,WAN)、移动、专用网络或者虚拟专用网络的任何组合)。在一些实施例中,可以使用定制或专用数据通信技术取代或者补充上述数据通信技术。可移动存储介质可以为通用串行总线(Universal Serial Bus,USB)闪存盘、移动硬盘或其他可移动存储介质等。

虽然图1中仅示出了五个终端设备和一个服务器,但应当理解,图1中的示例仅用于理解本方案,具体终端设备和服务器的数量均应当结合实际情况灵活确定。

本申请实施例所提供的方法能应用到知识图谱(Knowledge Graph)的信息抽取中,下面对知识图谱进行介绍。知识图谱是一种揭示实体之间关系的语义网络,且知识图谱在逻辑结构上可分为模式层与数据层两个层次,数据层主要是由一系列的事实组成,而知识将以事实为单位进行存储。可以用,<实体1,关系,实体2>或者<实体、属性,属性值>这样的三元组来表达事实。

其次,大规模知识库的构建与应用需要多种智能信息处理技术的支持。通过知识抽取技术,可以从一些公开的半结构化、非结构化的数据中提取出实体、关系、属性等知识要素。通过知识融合,可消除实体、关系、属性等指称项与事实对象之间的歧义,形成高质量的知识库。知识推理则是在已有的知识库基础上进一步挖掘隐含的知识,从而丰富、扩展知识库。分布式的知识表示形成的综合向量对知识库的构建、推理、融合以及应用均具有重要的意义。知识抽取主要是面向开放的链接数据,通过自动化的技术抽取出可用的知识单元,知识单元主要包括实体(概念的外延)、关系以及属性3个知识要素,并以此为基础,形成一系列高质量的事实表达,为上层模式层的构建奠定基础。知识抽取主要包括实体抽取,关系抽取以及属性抽取。下面分别对实体抽取,关系抽取以及属性抽取进行介绍:

一、实体抽取

实体抽取也可以被称为命名实体识别(named entity recognition,NER),指的是从原始语料中自动识别出命名实体。由于实体是知识图谱中的最基本元素,其抽取的完整性、准确、召回率等将直接影响到知识库的质量。因此,实体抽取是知识抽取中最为基础与关键的一步。

二、关系抽取

关系抽取的目标是解决实体间语义链接的问题,早期的关系抽取主要是通过人工构造语义规则以及模板的方法识别实体关系。随后,实体间的关系模型逐渐替代了人工预定义的语法与规则。

三、属性抽取

属性抽取主要是针对实体而言的,通过属性可形成对实体的完整勾画。由于实体的属性可以看成是实体与属性值之间的一种名称性关系,因此可以将实体属性的抽取问题转换为关系抽取问题。

基于此,本申请实施例所提供的方法能够通过目标文本的属性标签进行确定,即完成前述介绍中的属性抽取,这是进行实体抽取任务的基础。为了便于理解,请参阅图2,图2为本申请实施例中文本标签的确定方法的一个应用流程示意图,如图2所示,具体地:

在步骤S1中,将目标文本以及待匹配标签输入。例如,目标文本为“刘小红的老婆是朱小二,他们的孩子是刘一一”,而待匹配标签包括“妻子”,“丈夫”,“子女”,“夫妻”“姐妹”,“兄弟”,“爷爷”,“奶奶”,“外公”以及“外婆”。

在步骤S2中,从待匹配标签中确定目标文本对应的目标标签。例如,基于步骤S1所示例的目标文本以及待匹配标签输入,可以确定目标文本对应的目标标签包括“妻子”,“丈夫”,以及“子女”。

在步骤S3中,从目标文本中获取实体信息,实体信息可以为人物、人名以及物品名称等。若实际应用需求为建立人名之间的社会关系图谱,那么实体为人名,且一个实体信息可以包括多个人名。若实际应用需求为建立物品之间的关系图谱,那么实体为物品名称,且一个实体信息可以包括多个物品名称,具体的实体信息需要根据实际应用需求确定。例如,基于步骤S1所示例的目标文本,可以从“刘小红的老婆是朱小二,他们的孩子是刘一一”中获取<刘小红,朱小二>,<朱小二,刘小红>,<刘小红,刘一一>,以及<朱小二,刘一一>的实体信息。

在步骤S4中,根据步骤S2所获取的目标文本对应的目标标签,以及步骤S3所获取的实体信息生成三元组。例如,基于步骤S2所示例的目标标签以及步骤S3所示例的实体信息,可以得到<刘小红,妻子,朱小二>,<朱小二,丈夫,刘小红>,<刘小红,子女,刘一一>,以及<朱小二,子女,刘一一>的三元组。

在步骤S5中,通过步骤S4所获取的三元组生成知识图谱。应理解,在生成知识图谱之后,能够将知识图谱保存于区块链上,以便于在后续需要应用到多个人名之间的社会关系或者其他关系时,从区块链上下载的所保存的知识图谱进行查询。

由于本申请实施例中,需要基于人工智能领域中NLP对目标文本以及待匹配标签进行文本处理以及语义理解等,因此在对本申请实施例提供的文本标签的确定方法开始介绍之前,先对人工智能领域的一些基础概念进行介绍。人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

随着人工智能技术研究和进步,人工智能技术在多种方向展开研究,NLP是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。其次,机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

结合上述介绍,本申请实施例提供的方案涉及人工智能的自然语言处理技术以及机器学习技术,下面对本申请中文本标签的确定方法进行介绍,请参阅图3,图3为本申请实施例中文本标签的确定方法一个实施例示意图,如图3所示,本申请实施例中文本标签的确定方法一个实施例包括:

101、获取目标文本以及待匹配标签,其中,目标文本包括至少两个文本单元,待匹配标签包括至少两个属性标签;

本实施例中,获取目标文本以及待匹配标签,该目标文本包括至少两个文本单元,待匹配标签包括至少两个属性标签。前述文本单元可以为中文字,例如,“我”以及“你”,或者,前述文本单元还可以为英文词汇,例如,“I”,“you”,“wife”以及“refrigerator”等。

其次,属性标签可以为社会关系,位置关系,颜色属性以及直接属性描述。且属性标签可以为单个或者多个,若为单个,即本申请实施例提供的为二分类,若为多个,即本申请实施例提供的为多标签标记。示例性地,若属性标签为社会关系,那么属性标签可以包括但不限于“妻子”,“丈夫”,“子女”,“夫妻”“姐妹”,“兄弟”,“爷爷”,“奶奶”,“外公”,“外婆”,“司机”,“秘书”,“上司”,“甲方”以及“乙方”等。若属性标签为颜色属性,那么属性标签可以包括但不限于“黑色”,“白色”,“蓝色”,“黄色”以及“绿色”等。

具体地,以需要确定的文本标签属于社会关系的属性标签作为示例,由于社会关系的属性标签能够被存储于区块链,基于此,若执行本申请实施例方法的装置部署于终端设备,此时终端设备将存储有社会关系的属性标签(即待匹配标签),该待匹配标签可以是从区块链下载的,或者是服务器向终端设备发送的,具体此处不做限定。若执行本申请实施例方法的装置部署于服务器,那么在终端设备在获取到目标文本之后,直接向服务器发送目标文本,服务器再通过目标文本以及本身存储的待匹配标签进行后续操作。具体此处不做限定。

示例性地,若目的是为了确定属于社会关系的属性标签,且目标文本为“刘小红的老婆是朱小二,他们的孩子是刘一一”,那么待匹配标签可以包括“妻子”,“丈夫”,“子女”,“夫妻”“姐妹”,“兄弟”,“爷爷”,“奶奶”,“外公”以及“外婆”。若目的是为了确定属于位置关联关系的属性标签,且目标文本为“电脑放在置物架上,而置物架放在桌子上”,那么待匹配标签可以包括“上面”,“下面”,“中间”,“里面”以及“外面”。应理解,前述示例仅用于理解本方案,具体目标文本以及待匹配标签需要根据具体应用场景和实际需求确定,因此不应理解为本申请的限定。

102、根据目标文本以及待匹配标签,获取目标文本的特征向量集合以及待匹配标签的特征向量集合;

本实施例中,根据步骤101所获取的目标文本以及待匹配标签,能够获取目标文本的特征向量集合以及待匹配标签的特征向量集合。具体地,能够根据目标文本以及待匹配标签生成目标文本的文本序列以及待匹配标签的文本序列,然后对目标文本的文本序列以及待匹配标签的文本序列进行编码处理,从而得到目标文本的特征向量集合以及待匹配标签的特征向量集合。

可以理解的是,由于属性标签的语义信息是在调整中不断丰富的,若属性标签在字典里不存在定义即需要重新学习,因此可以通过一个属性标签一个编码位的方式进行编码处理,即在属性标签集成时使用单标记粒度编码。但若属性标签在字典本身自带的语义信息,那么可以对自带的语义信息的属性标签,可以通过一个属性标签多个编码位的方式进行编码处理,例如,属性标签为“子女”,那么其中“子”是一个编码位,而“女”是另一个编码位。由此能够进一步地丰富属性标签所包括的语义信息。

103、根据目标文本的特征向量集合以及待匹配标签的特征向量集合,获取相关性特征集合,其中,相关性特征集合包括文本单元之间的相关性特征以及文本单元与属性标签之间的相关性特征;

本实施例中,根据步骤102所获取的目标文本的特征向量集合以及待匹配标签的特征向量集合,获取相关性特征集合,该相关性特征集合包括文本单元之间的相关性特征以及文本单元与属性标签之间的相关性特征。

具体地,对目标文本的文本序列以及待匹配标签的文本序列进行编码处理后,目标文本中的每个文本单元均能输出对应的特征向量,此时每个文本单元对应的特征向量即构成一个目标文本的特征向量矩阵(即目标文本的特征向量集合),同理可知,待匹配标签的每个属性标签均能输出对应的特征向量,此时每个属性标签对应的特征向量即构成一个待匹配标签的特征向量矩阵(即待匹配标签的特征向量集合)。基于此,将目标文本的特征向量矩阵乘以待匹配标签的特征向量矩阵,由此能够得到相似度矩阵(即相关性特征集合),此时相似度矩阵中能够包括每个文本单元之间的相关性特征以及文本单元与属性标签之间的相关性特征。

104、根据相关性特征集合获取目标文本分别属于每个属性标签的概率;

本实施例中,根据步骤103得到的相关性特征集合,获取目标文本分别属于每个属性标签的概率。具体地,若待匹配标签为单个属性标签,那么此时获取到的概率为“1”或者“0”。其次,若待匹配标签为多个属性标签,且包括属性标签A,属性标签B以及属性标签C,那么能够获取到的目标文本属于属性标签A的概率A,目标文本属于属性标签B的概率B以及目标文本属于属性标签C的概率C。并且对概率A,概率B以及概率C进行归一化处理后,归一化处理后得到的概率A,归一化处理后得到的概率B以及归一化处理后得到的概率C之和为1。

105、根据目标文本分别属于每个属性标签的概率,确定目标文本所对应的目标标签,其中,目标标签包括至少一个属性标签。

本实施例中,根据目标文本分别属于每个属性标签的概率,确定目标文本所对应的目标标签,该目标标签包括至少一个属性标签。由于本申请实施例所提供的文本标签的确定方法能应用到知识图谱的信息抽取中,通过步骤105确定目标文本所对应的目标标签,能够使得在知识图谱的实体信息顺利进行。示例性地,若目标文本为“刘小红的老婆是朱小二,他们的孩子是刘一一”,且待匹配标签包括“妻子”,“丈夫”,“子女”,“夫妻”“姐妹”以及“兄弟”,那么能够确定目标文本所对应的目标标签为“妻子”,“丈夫”,“子女”以及“夫妻”。例如,若目标文本为“电脑放在置物架上”,且待匹配标签包括“上面”,“下面”,“中间”以及“里面”以及“外面”,那么能够确定目标文本所对应的目标标签为“上面”以及“下面”。

应理解,目标标签所包括的属性标签的数量应小于或等于待匹配标签所包括的属性标签的数量,例如,若待匹配标签所包括的属性标签的数量为10,那么目标标签所包括的属性标签的数量可以为0至10任一,若待匹配标签所包括的属性标签的数量为1,那么目标标签所包括的属性标签的数量可以为0或1,在目标标签所包括的属性标签的数量为0的情况下,则说明目标文本无法被标注上任一标签。

具体地,若待匹配标签为单个属性标签,即所获取到的概率为“1”或者“0”,概率为“1”则能够确定目标文本属于该属性标签,即单个属性标签的情况下,所获取到的概率为“1”时,能够直接将该属性标签确定为目标标签,反之,则不属于,即此次无法确定目标文本的标签。其次,若待匹配标签为多个属性标签,那么需要在待匹配标签所包括的多个属性标签中确定目标标签。

本申请实施例中,提供了一种文本标签的确定方法,先获取目标文本以及待匹配标签,该目标文本包括至少两个文本单元,且待匹配标签包括至少一个属性标签,然后根据目标文本以及待匹配标签,获取目标文本的特征向量集合以及待匹配标签的特征向量集合,并且根据目标文本的特征向量集合以及待匹配标签的特征向量集合,获取相关性特征集合,该相关性特征集合包括文本单元之间的相关性特征以及文本单元与属性标签之间的相关性特征,进而根据相关性特征集合获取目标文本分别属于每个属性标签的概率,最后根据目标文本分别属于每个属性标签的概率,确定目标文本所对应的目标标签,该目标标签包括至少一个属性标签。采用上述方式,能够在考虑文本之间所传达信息的基础上,进一步地考虑到标签与文本之间的相关性,由此增强提取特征的分辨能力,因此所获取到的特征信息能够更准确地反映文本以及标签的信息,从而提升确定文本对应的标签的准确度。

可选地,在上述图3对应的实施例的基础上,本申请实施例提供的文本标签的确定方法一个可选实施例中,待匹配标签包括至少两个属性标签;

相关性特征集合还包括属性标签之间的相关性特征。

本实施例中,由于待匹配标签能够包括一个或多个属性标签,在待匹配标签包括至少两个属性标签的情况下,相关性特征集合还包括属性标签之间的相关性特征。

具体地,基于图3实施例中所介绍的步骤102,对目标文本的文本序列以及待匹配标签的文本序列进行编码处理后,目标文本中的每个文本单元均能输出对应的特征向量,此时每个文本单元对应的特征向量即构成一个目标文本的特征向量矩阵(即目标文本的特征向量集合),同理可知,待匹配标签的每个属性标签均能输出对应的特征向量,此时每个属性标签对应的特征向量即构成一个待匹配标签的特征向量矩阵(即待匹配标签的特征向量集合)。基于此,将目标文本的特征向量矩阵乘以待匹配标签的特征向量矩阵,由此能够得到相似度矩阵(即相关性特征集合),而相似度矩阵中不仅可以包括每个文本单元之间的相关性特征以及文本单元与属性标签之间的相关性特征,还可以包括属性标签之间的相关性特征。

本申请实施例中,提供了另一种文本标签的确定方法,采用上述方式,能够在考虑文本之间所传达信息以及标签与文本之间的相关性的基础上,再进一步地标签与标签之间的所传达信息,因此能够提取潜在的相互依赖特征,使得后续获取到的特征信息能够为准确地反映文本以及标签所反馈的信息,进一步地提升确定标签的准确度。

可选地,在上述图3对应的实施例的基础上,本申请实施例提供的文本标签的确定方法一个可选实施例中,根据目标文本以及待匹配标签,获取目标文本的特征向量集合以及待匹配标签的特征向量集合,具体包括:

根据目标文本以及待匹配标签生成目标文本序列,其中,目标文本序列包括目标文本的文本序列以及待匹配标签的文本序列;

对目标文本序列进行编码处理,得到目标文本的特征向量集合以及待匹配标签的特征向量集合。

本实施例中,能够根据目标文本以及待匹配标签生成目标文本序列,该目标文本序列包括目标文本的文本序列以及待匹配标签的文本序列。可以理解的是,本实施例不对目标文本的文本序列以及待匹配标签的文本序列在目标文本序列中的顺序进行限定。

具体地,通过BERT作为进行编码的基础编码器,由于BERT的基本架构是一个多层双向自注意力变换器,那么对于分类任务,需要将一个特殊的令牌[CLS]放到目标文本的开头,并将令牌[CLS]所输出的特征向量设计成对应于最终的目标文本表示。本方案中目标文本的文本序列以及待匹配标签的文本序列被统一打包成目标文本序列,并由一个特殊的令牌[SEP]将目标文本的文本序列以及待匹配标签的文本序列隔开。为了便于理解,请参阅图4,图4为本申请实施例生成目标文本序列的一个实施例示意图,如图4所示,[CLS]放在目标文本序列包括目标文本的文本序列的开头,并且目标文本的文本序列的开头与待匹配标签的文本序列之间通过[SEP]隔开,且最后也放入[SEP],由此得到的为目标文本序列。

进一步地,再对目标文本序列进行编码处理,得到目标文本的特征向量集合以及待匹配标签的特征向量集合。具体地,通过将目标文本中的每个文本单元以及待匹配标签中的每个属性标签的对应位置输出作为对应的特征向量,这个特征向量是基于全局对目标文本中的每个文本单元以及待匹配标签中的每个属性标签进行混合编码得到的,这样使得各文本单元的特征向量以及各属性标签的特征向量能够充分学习到文本单元与文本单元之间的相关性特征,文本单元与属性标签之间的相关性特征,以及属性标签与属性标签之间的相关性特征。

基于此,经过混合编码后,目标文本的每个文本单元均能输出对应的特征向量,每个文本单元对应的特征向量即构成一个目标文本的特征向量矩阵H

应理解,前述示例基于BERT模型作为进行编码的基础编码器进行介绍,在实际应用中,可以通过生成式的预训练(generative pre-training,GPT)模型作为进行编码的基础编码器,GPT相较于循环神经网络可以捕捉到更长范围的信息,且计算速度比循环神经网络更快,易于并行化。或者还可以通过深度情景化词表征(embeddings from languagemodels,ELMo)模型等其他大规模语言模型,此处不进行穷举以及详细介绍。

本申请实施例中,提供了一种特征向量集合的获取方法,采用上述方式,能够由于特征信息能够更为准确的反映目标文本序列所包括的目标文本的文本序列以及待匹配标签的文本序列之间的关联关系,由此提升特征向量所能反应特征的准确度,即提升后续获取概率的准确度,从而提升标签确定的准确度。

可选地,在上述图3对应的实施例的基础上,本申请实施例提供的文本标签的确定方法一个可选实施例中,根据目标文本以及待匹配标签生成目标文本序列,具体包括:

对目标文本进行分词处理,得到目标文本的文本序列;

对待匹配标签进行分词处理,得到待匹配标签的文本序列;

对目标文本的文本序列以及待匹配标签的文本序列进行拼接处理,得到目标文本序列。

本实施例中,对目标文本进行分词处理,得到目标文本的文本序列,再对待匹配标签进行分词处理,得到待匹配标签的文本序列,基于此,最后对目标文本的文本序列以及待匹配标签的文本序列进行拼接处理,以得到得到目标文本序列。可以理解的是,本实施例不对目标文本的文本序列以及待匹配标签的文本序列在目标文本序列中的顺序进行限定。

具体地,分词是自然语言处理的基础,分词准确度直接决定了后续的词性标注、句法分析、词向量以及文本分析的质量。英文语句通常能够使用空格将单词进行分隔,除了某些特定词,如“how many”以及“New York”等特殊情况,大部分情况下不需要考虑分词问题。但中文不同,天然缺少分隔符,需要读者自行分词和断句。因此在进行中文自然语言处理时,需要先进行分词处理。

目前,在中文自然语言处理时,分词可能出现的歧义包含组合型歧义,交集型歧义以及真歧义,因此不同的切分结果会有不同的含义。为了便于理解,首先,先介绍组合型歧义,分词粒度不同导致的不同切分结果。比如“中华人民共和国”,粗粒度的分词结果为“中华人民共和国”,细粒度的分词结果为“中华/人民/共和国”,此时进行分词需要根据实际应用场景来选择粗粒度还是细粒度。另外,有时候汉字串AB中,AB,A以及B可以同时成词,这个时候也容易产生组合型歧义,例如,“他/将/来/网商银行”,“他/将来/想/应聘/网商银行”,此时需要通过整句话进行分词处理。

其次,再介绍交集型歧义,不同切分结果共用相同的字,前后组合的不同导致不同的切分结果。例如,“商务处女干事”,可以划分为“商务处/女干事”,也可以划分为“商务/处女/干事”,此时也需要通过整句话,甚至结合上下文进行分词处理。而真歧义为本身语法或语义没有问题,即使人工切分也会产生歧义。比如“下雨天留客天天留人不留”,可以划分为“下雨天/留客天/天留/人不留”,也可以划分为“下雨天/留客天/天留人不/留”。此时通过整句话还没法准确切分,只能通过上下文语境来进行切分。如果是不想留客,则切分为前一个。否则切分为后一个。可以理解的是,前述示例仅用于对分词进行理解,所示例的分词结果均不应理解为本方案的限定。

进一步地,当前的分词算法主要分为两类,一种为基于词典的规则匹配方法,基于词典的分词算法就是字符串匹配。将待匹配的字符串基于一定的算法策略,和一个足够大的词典进行字符串匹配,如果匹配命中,则可以分词。根据不同的匹配策略,又分为正向最大匹配法,逆向最大匹配法,双向匹配分词,全切分路径选择等,具体此处不进行穷举。另一种为基于统计的机器学习方法,基于统计的分词算法就是一个序列标注问题。通过将语句中的字,按照他们在词中的位置进行标注。这类算法基于机器学习或者深度学习,主要包括但不限于隐马尔科夫模型(hidden markov model,HMM),条件随机场(conditional randomfields,CRF),支持向量机(support vector machine,SVM)以及深度学习等。

基于此,由于文本单元可以为中文字,本实施例中对目标文本进行分词处理,需要将每个目标文本中每个字作为文本单元进行分割。例如,目标文本为“刘小红的老婆是朱小二”,那么进行分词处理后得到的目标文本的文本序列为[刘],[小],[红],[的],[老],[婆],[是],[朱],[小]以及[二]。其次,由于属性标签的语义信息是在调整中不断丰富的,因此在属性标签可以以词作为文本单元进行分割,也可以将每个字作为文本单元进行分割息。例如,待匹配标签包括“妻子”,“丈夫”,“子女”,若以词进行分割,进行分词处理后得到的目标文本的文本序列为[妻子],[丈夫]以及[子女],若以字进行分割,进行分词处理后得到的目标文本的文本序列为[妻],[子],[丈],[夫],[子]以及[女]。

为了便于理解,基于图4所示出的目标文本序列示例,以目标文本为“刘小红的老婆是朱小二,他们的女儿是刘一一”,且待匹配标签包括“妻子”,“丈夫”,“子女”,“姐妹”以及“兄弟”作为示例进行说明,请参阅图5,图5为本申请实施例生成目标文本序列的另一实施例示意图,若对目标文本进行分词处理后得到以下所示出的目标文本的文本序列:[刘],[小],[红],[的],[老],[婆],[是],[朱],[小],[二],[他],[们],[的],[女],[儿],[是],[刘],[一],[一],目标文本中每一个文本单元均对应图4中的一个[X],因此可以得到图5中(A)所示出的目标文本的文本序列。同理可知,若以词作为文本单元进行分割,待匹配标签中每一个属性标签均对应图4中的一个[Y],因此可以得到图5中(B)所示出的待匹配标签的文本序列。由于不对目标文本的文本序列以及待匹配标签的文本序列在目标文本序列中的顺序进行限定,因此通过拼接处理可以得到图5中(C)所示出的目标文本序列,或,图5中(D)所示出的目标文本序列。前述示例均用于理解本方案,而不应理解为本方案的限定。

本申请实施例中,提供了一种通过拼接处理生成目标文本序列的方法,采用上述方式,通过分词处理能够结合上下文以及语义与每个文本进行更为准确的切分,使得每个文本序列能够更为准确的反映对应文本的语义,并将不同的文本序列进行拼接,能够提升获取后续性特征信息的准确度,由于不限定各文本序列的拼接顺序,由此还能够提升本方案的灵活度。

可选地,在上述图3对应的实施例的基础上,本申请实施例提供的文本标签的确定方法一个可选实施例中,对目标文本序列进行编码处理,得到目标文本的特征向量集合以及待匹配标签的特征向量集合,具体包括:

对目标文本的文本序列以及待匹配标签的文本序列进行编码处理,得到每个文本单元所对应的特征向量以及每个属性标签所对应的特征向量;

根据每个文本单元所对应的特征向量生成目标文本的特征向量集合;

根据每个属性标签所对应的特征向量生成待匹配标签的特征向量集合。

本实施例中,用过对目标文本的文本序列以及待匹配标签的文本序列进行编码处理,得到每个文本单元所对应的特征向量以及每个属性标签所对应的特征向量,然后根据每个文本单元所对应的特征向量生成目标文本的特征向量集合,并且根据每个属性标签所对应的特征向量生成待匹配标签的特征向量集合,既能够得到目标文本序列的特征向量集合。具体地,每个文本单元所对应的特征向量以及每个属性标签所对应的特征向量是基于全局对目标文本的文本序列以及待匹配标签的文本序列进行混合编码得到的,这样使得各文本单元的特征向量以及各属性标签的特征向量能够充分学习到文本单元与文本单元之间的相关性特征,文本单元与属性标签之间的相关性特征,以及属性标签与属性标签之间的相关性特征。

为了便于理解,基于图5所示出的目标文本序列示例进行说明,请参阅图6,图6为本申请实施例获取目标文本序列的特征向量集合的一个实施例示意图,如图6所示,[X

进一地,根据每个文本单元所对应的特征向量[T

本申请实施例中,提供了一种目标文本序列的特征向量集合的获取方法,采用上述方式,由于是基于全局对目标文本的文本序列以及待匹配标签的文本序列进行编码,使得各文本单元的特征向量以及各属性标签的特征向量能够充分学习到文本单元和/或属性标签的相关性特征,因此所获取到的目标文本序列的特征向量集合能够考虑到多个文本单元和/或属性标签之间的更多相关信息,由此提升特征向量集合的准确度以及可靠性。

可选地,在上述图3对应的实施例的基础上,本申请实施例提供的文本标签的确定方法一个可选实施例中,根据相关性特征集合获取目标文本分别属于每个属性标签的概率,具体包括:

根据相关性特征集合获取注意力权重向量集合,其中,注意力权重向量集合包括至少两个注意力权重向量,注意力权重向量与文本单元一一对应,注意力权重向量表示文本单元在目标文本中与属性标签相关的权重;

根据目标文本以及注意力权重向量集合,获取文本特征向量集合;

根据文本特征向量集合与待匹配标签,获取目标文本分别属于每个属性标签的概率。

本实施例中,先根据相关性特征集合获取注意力权重向量集合,该注意力权重向量集合包括至少两个注意力权重向量,注意力权重向量与文本单元一一对应,注意力权重向量表示文本单元在目标文本中与属性标签相关的权重,然后根据目标文本以及注意力权重向量集合,获取文本特征向量集合,再根据文本特征向量集合与待匹配标签,获取目标文本分别属于每个属性标签的概率。

具体地,本方案中测量目标文本的文本单元和待匹配标签的属性表情之间相关性的方法是将目标文本的特征向量矩阵Hx乘以待匹配标签的特征向量矩阵Hy,即通过前述实施例所描述的得到相似度矩阵(即相关性特征集合),这里用G指示相关性特征集合,且该相关性特征集合的维度表示为M*L,M指示目标文本的文本序列的长度,L指示待匹配标签的文本序列的长度。然后根据目标文本以及注意力权重向量集合,获取文本特征向量集合

进一步地,本申请实施例中选择标准的神经网络全连接层对文本特征向量集合进行处理,进而能够预测与目标文本的相关标记有哪些,即可以获取目标文本分别属于每个属性标签的概率。具体通过公式(1)获取目标文本分别属于每个属性标签的概率:

其中,p为目标文本分别属于每个属性标签的概率,

为了便于理解,基于图6所示出的目标文本序列的特征向量集合示例进行说明,请参阅图7,图7为本申请实施例获取注意力权重向量集合的一个实施例示意图,如图7所示,首先基于全局对目标文本的文本序列以及待匹配标签的文本序列进行编码,得到目标文本的特征向量集合以及待匹配标签的特征向量集合,基于此,具体通过目标文本的特征向量集乘以待匹配标签的特征向量集合,能够得到相关性特征集合A1,由于对目标文本的文本序列的长度为M,且待匹配标签的文本序列的长度为L,显而易见的可以得到相关性特征集合A1的维度为M*L。进一步地,通过卷积窗口强化相关性特征集合中的局部信息后,对卷积后的相关性特征集合A1进行降维处理,即可以得到注意力权重向量集合A2,此时注意力权重向量集合A2的长度为L。进一步地,将目标文本的每个文本单元乘以注意力权重向量集合,即能够获取文本特征向量集合A3,最后根据文本特征向量集合A3与待匹配标签,通过所介绍的方式输出目标文本分别属于每个属性标签的概率。

根据文本特征向量集合与待匹配标签,获取目标文本分别属于每个属性标签的概率

可选地,在上述图3对应的实施例的基础上,本申请实施例提供的文本标签的确定方法一个可选实施例中,根据相关性特征集合获取注意力权重向量集合,具体包括:

对相关性特征集合进行卷积处理,获取注意力权重向量集合;

根据目标文本以及注意力权重向量集合,获取文本特征向量集合,具体包括:

对目标文本以及注意力权重向量集合进行处理,获取文本特征向量集合。

本实施例中,对相关性特征集合进行卷积处理,获取注意力权重向量集合,即通过卷积窗口对相关性特征集合进行卷积处理,以强化相关性特征集合中的局部信息后,再对卷积后的相关性特征集合进行最大池化(max-pooling)降维,即取维度中最大的值为该维度的代表,将获得的向量归一化后即可获得权重注意力向量集合

进一步地,还需要对目标文本以及注意力权重向量集合进行处理,获取文本特征向量集合。即利用注意力向量集合

本申请实施例中,提供了另一种文本标签的确定方法,采用上述方式,能够通过卷积窗口强化相关性特征集合中的局部信息,由此能够卷积过程的所学习利用到的信息,从而提升注意力权重向量集合的准确度以及可靠性,其次,由于在卷积处理后还进行了降维处理,因此降低注意力权重向量集合占用的数据资源,提升对注意力权重向量集合进行处理的效率。再次,由于文本特征向量集合能够学习到注意力集合与每个文本单元的相关信息,因此将更相关的文本单元赋予更高的权重,由此使得文本特征向量集合能够更为准确的指示文本单元之间的关系,以及与待匹配标签的相关性,从而使得后续获取的概率能够更为接近真实概率,以提升本方案中文本标签的确定的准确的。

可选地,在上述图3对应的实施例的基础上,本申请实施例提供的文本标签的确定方法一个可选实施例中,待匹配标签包括至少两个属性标签;

根据目标文本分别属于每个属性标签的概率,确定目标文本所对应的目标标签,具体包括:

将目标文本分别属于每个属性标签的概率大于第一分类阈值的至少一个概率确定为目标概率;

将目标概率对应的属性标签确定为目标文本所对应的目标标签。

本实施例中,待匹配标签包括至少两个属性标签。基于此,将目标文本分别属于每个属性标签的概率大于第一分类阈值的至少一个概率确定为目标概率,并且将目标概率对应的属性标签确定为目标文本所对应包括至少两个属性标签的目标标签。应理解,由于大于第一分类阈值既可以为被确定为目标概率,即可能存在目标文本所对应的目标标签包括多个的情况,此处不做限定。且第一分类阈值可以为60%,50%或者65%等,具体第一分类阈值需要根据多次数据以及实验结果的实际情况灵活确定,在此不做限定。

示例性地,再次以目标文本为“刘小红的老婆是朱小二,他们的女儿是刘一一”,且待匹配标签包括“妻子”,“丈夫”,“子女”,“姐妹”以及“兄弟”,且第一分类概率为60%作为示例说明,若目标文本属于“妻子”的概率为80%,属于“丈夫”的概率为85%,属于“子女”的概率为75%,属于“姐妹”的概率为15%,属于“兄弟”的概率为20%,由于80%,85%以及75%均大于第一分类概率(60%),因此可以将80%,85%以及75%均确定为目标概率。进一步地,80%对应的属性标签为“妻子”,85%对应的属性标签为“丈夫”,以及75%对应的属性标签为“子女”,因此可以将“妻子”,“丈夫”以及“子女”确定为目标文本所对应的目标标签。

可选地,在上述图3对应的实施例的基础上,本申请实施例提供的文本标签的确定方法一个可选实施例中,待匹配标签为单个属性标签;

根据目标文本分别属于每个属性标签的概率,确定目标文本所对应的目标标签,具体包括:

当目标文本属于属性标签的概率大于第二分类阈值时,则将待匹配标签确定为目标文本所对应的目标标签。

本实施例中,待匹配标签为单个属性标签。基于此,当目标文本属于属性标签的概率大于第二分类阈值时,则将待匹配标签确定为目标文本所对应的目标标签。应理解,待匹配标签为单个属性标签,即目标文本属于属性标签的概率为可以为“1”或者“0”,因此第二分类阈值可以为无限接近于0,但大于0,无限接近于1,但小于1的数值,例如,0.0001,0.0002以及0.9999等,具体第二分类阈值需要根据多次数据以及实验结果的实际情况灵活确定,在此不做限定。若目标文本属于属性标签的概率小于第二分类阈值(即目标文本属于属性标签的概率为“0”),那么此时将不确定目标文本所对应的目标标签,若大于第二分类阈值(即目标文本属于属性标签的概率为“1”),目标标签一定为单个,此时待匹配标签为目标标签。

示例性地,再次以目标文本为“刘小红的老婆是朱小二,他们的女儿是刘一一”,且待匹配标签包括“妻子”,且第二分类概率为0.0001作为示例说明,若得到目标文本属于“妻子”的概率为“1”,那么可以待匹配标签确定为目标文本所对应的目标标签。其次,以目标文本为“刘小红的老婆是朱小二,他们的女儿是刘一一”,且待匹配标签包括“兄弟”,且第二分类概率为0.0001作为示例说明,若得到目标文本属于“兄弟”的概率为“0”,那么此时将不确定目标文本所对应的目标标签。

本申请实施例中,提供了另一种文本标签的确定方法,采用上述方式,在待匹配标签为多个属性标签或单个属性标签时,能够通过不同的方式确定目标文本的标签,由此提升本方案的可行性以及灵活度。

可选地,在上述图3对应的实施例的基础上,本申请实施例提供的文本标签的确定方法一个可选实施例中,根据目标文本以及待匹配标签,获取目标文本的特征向量集合以及待匹配标签的特征向量集合,具体包括:

基于目标文本以及待匹配标签,通过分类模型的第一特征处理层获取目标文本的特征向量集合以及待匹配标签的特征向量集合;

根据目标文本的特征向量集合以及待匹配标签的特征向量集合,获取相关性特征集合,具体包括:

基于目标文本的特征向量集合以及待匹配标签的特征向量集合,通过分类模型的第二特征处理层获取相关性特征集合;

根据相关性特征集合获取目标文本分别属于每个属性标签的概率,具体包括:

基于相关性特征集合,通过分类模型的卷积层获取目标文本分别属于每个属性标签的概率;

根据目标文本分别属于每个属性标签的概率,确定目标文本所对应的目标标签,具体包括:

基于目标文本分别属于每个属性标签的概率,通过分类模型的全连接层确定目标文本所对应的目标标签。

本实施例中,先基于目标文本以及待匹配标签,通过分类模型的第一特征处理层获取目标文本的特征向量集合以及待匹配标签的特征向量集合,再基于目标文本的特征向量集合以及待匹配标签的特征向量集合,通过分类模型的第二特征处理层获取相关性特征集合,进而基于相关性特征集合,通过分类模型的卷积层获取目标文本分别属于每个属性标签的概率,最后基于目标文本分别属于每个属性标签的概率,通过分类模型的全连接层确定目标文本所对应的目标标签。

为了便于理解,下面对分类模型的具体架构进行介绍,请参阅图8,图8为本申请实施例中分类模型的一个架构示意图,如图8所示,在分类模型的第一特征处理层中,先分别对目标文本以及待匹配标签进行分词处理,得到目标文本的文本序列,目标问题文本的文本序列以及待匹配文本的文本序列,对目标问题文本的文本序列以及待匹配标签的文本序列进行拼接处理得到目标文本序列,然后通过前述实施例介绍的类似方法对目标文本的文本序列以及待匹配标签的文本序列进行编码处理,得到每个文本单元所对应的特征向量以及每个属性标签所对应的特征向量,再生成目标文本的特征向量集合以及待匹配标签的特征向量集合。基于此,分类模型的第一特征处理层向第二特征处理层输出目标文本的特征向量集合以及待匹配标签的特征向量集合,分类模型的第二特征处理层根据目标文本的特征向量集合以及待匹配标签的特征向量集合,获取相关性特征集合。

进一步地,分类模型的第二特征处理层向卷积层输出相关性特征集合,分类模型的卷积层对相关性特征集合进行卷积处理,获取注意力权重向量集合,并对目标文本以及注意力权重向量集合进行处理,获取文本特征向量集合,由此能够根据文本特征向量集合与待匹配标签,获取目标文本分别属于每个属性标签的概率。最后分类模型的卷积层向全连接层输出目标文本分别属于每个属性标签的概率,全连接层能够根据目标文本分别属于每个属性标签的概率,确定目标文本所对应的目标标签,

由于本申请实施例能够通过BERT作为进行编码的基础编码器,下面详细介绍如何通过BERT获取目标文本的特征向量集合以及待匹配标签的特征向量集合。在得到目标文本序列之后,能够对目标文本序列进行词嵌入处理(Word Embeddings)得到词向量集合,即对目标文本的文本序列以及待匹配标签的文本序列进行词嵌入处理,得到目标文本的词向量集合以及待匹配标签的词向量集合,再分别通过K个(K为大于1的整数)堆栈层获取目标文本的特征向量集合以及待匹配标签的特征向量集合。词嵌入处理就是指将一个词语(word)转换为一个词向量(Word Vectors)表示,而进行词嵌入处理可以为机器学习中的独热(one-hot)编码方式,或者是基于神经网络的词嵌入技术。

具体地,针对于目标文本的词向量集合中的每个词向量,基于第i个特征向量,通过第i个堆栈层输出第(i+1)个特征向量,直至得到第K个特征向量,该i为大于或等于1,且小于K的整数,然后根据目标文本的词向量集合中的每个词向量的第K个特征向量,得到目标文本的特征向量集合。同理,可通过类似方式得到待匹配标签的特征向量集合。在此不再赘述。

本申请实施例中,提供了另一种文本标签的确定方法,采用上述方式,能够通过分类模型中的各特征处理层,卷积层以及全连接层输出目标文本所对应的目标标签,通过特征处理层能够更大限度的获取目标文本以及待匹配标签所包括的语义信息,而卷积层能够更为准确的确定每个文本单元在目标文本中的语音信息与待匹配标签的相关性,由此输出准确度较高的概率,由此通过全连接层所输出的目标标签能够更够接近真实标签,在提升本方案的可行性的基础上,进一步地提升文本标签确定的准确度。

可选地,在上述图3对应的实施例的基础上,本申请实施例提供的文本标签的确定方法一个可选实施例中,文本标签的确定方法还包括:

获取目标文本样本集合,待匹配标签样本以及真实标签集合,其中,目标文本样本集合包括至少两个目标文本样本,目标文本样本包括至少两个文本单元,待匹配标签样本包括至少一个属性标签;

基于目标文本样本集合以及待匹配标签样本,通过待训练分类模型的第一特征处理层获取目标文本样本集合的特征向量集合以及待匹配标签样本的特征向量集合;

基于目标文本样本集合的特征向量集合以及待匹配标签样本的特征向量集合,通过待训练分类模型的第二特征处理层获取相关性特征样本集合,其中,相关性特征样本集合包括每个目标文本样本的文本单元之间的相关性特征以及每个目标文本样本的文本单元与每个待匹配标签样本的属性标签之间的相关性特征;

基于相关性特征样本集合,通过待训练分类模型的卷积层获取每个目标文本样本的文本单元分别属于每个属性标签的概率集合;

基于每个目标文本样本的文本单元分别属于每个属性标签的概率集合,通过待训练分类模型的全连接层获取目标文本样本集合所对应的预测标签集合,其中,预测标签集合包括多个预测标签,每个预测标签包括至少一个属性标签;

基于预测标签集合以及真实标签集合,对待训练分类模型进行训练,得到分类模型。

本实施例中,首先获取已经过标注的真实标签集合,然后基于真实标签集合与所得到的预测标签集合对待训练分类模型的模型进行更新。具体地,需要将目标文本样本集合以及待匹配标签样本作为待训练分类模型的第一特征处理层的输入,由此输出目标文本样本集合的特征向量集合以及待匹配标签样本的特征向量集合。进而将目标文本样本集合的特征向量集合以及待匹配标签样本的特征向量集合作为待训练分类模型的第二特征处理层的输入,由此输出获取相关性特征样本集合,再将相关性特征样本集合作为待训练分类模型的卷积层的输入,由此输出每个目标文本样本的文本单元分别属于每个属性标签的概率集合,最后将所得到的概率集合作为待训练分类模型的全连接层的输入,即可输出目标文本样本集合所对应的预测标签集合。

可选地,在上述图3对应的实施例的基础上,本申请实施例提供的文本标签的确定方法一个可选实施例中,基于预测标签集合以及真实标签集合,对待训练分类模型进行训练,得到分类模型,具体包括:

基于预测标签集合以及真实标签集合,根据目标损失函数更新待训练分类模型的模型参数,以得到分类模型。

本实施例中,基于预测标签集合以及真实标签集合,根据目标损失函数更新待训练分类模型的模型参数,以得到分类模型。具体地,此时可以根据预测标签集合以及与之对应的真实标签集合之间的差异确定目标损失函数的损失值,根据目标损失函数的损失值判断目标损失函数是否达到收敛条件,若未达到收敛条件,则利用目标损失函数的损失值更新待训练分类模型的模型参数。在待训练分类模型每得到目标文本样本集合中每个目标文本样本所对应的预测标签后,确定目标损失函数的损失值,直至目标损失函数达到收敛条件,则根据最后一次对模型参数进行更新后获得的模型参数生成分类模型。

由于当需要预测目标文本可能的属性标签有哪些时,优化目标能够使得对目标文本进行错误的可能性最小化,本申请实施例中以用交叉熵损失函数衡量目标文本的预测标签集合和目标文本真实标签集合之间的差异损失作为示例,即本实施例中目标损失函数为下面所示例的公式(2):

loss=∑-[y

其中,p

其次,目标损失函数的收敛条件可以为目标损失函数的值小于或等于第一预设阈值,作为示例,例如第一预设阈值的取值可以为0.005、0.01、0.02或其它趋近于0的数值。也可以为目标损失函数的相邻两次的值的差值小于或等于第二预设阈值,第二阈值的取值可以与阈值的取值相同或不同,作为示例,例如第二预设阈值的取值可以为0.005、0.01、0.02或其它趋近于0的数值等,还可以采用其它收敛条件等,此处不做限定。

应理解,在实际应用中,目标损失函数还可以为均方差损失函数、排序损失(ranking loss)函数以及焦点损失(focal loss)函数等,具体此处不做限定。

本申请实施例中,提供了一种对待训练分类模型进行训练的,采用上述方式,本申请实施例中,提供了一种模型训练的方法,采用上述方式,能够基于待匹配标签样本以及真实标签集合,对待训练分类模型进行训练,得到分类模型,保证所得到分类模型的可靠性。其次,在目标损失函数达到收敛时停止对待训练分类模型的模型参数进行更新,即完成对待训练分类模型训练,从而得到能够用于文本标签确定的文本匹配模型,使得前述实施例所介绍的文本标签的确定方法能够基于模型实现,进一步地提升了本方案的可靠性以及可行性。

下面对本申请中的文本标签的确定装置进行详细描述,请参阅图9,图9为本申请实施例中文本标签的确定装置一个实施例示意图,如图所示,文本标签的确定装置200包括:

获取模块201,用于获取目标文本以及待匹配标签,其中,目标文本包括至少两个文本单元,待匹配标签包括至少一个属性标签;

获取模块201,还用于根据目标文本以及待匹配标签,获取目标文本的特征向量集合以及待匹配标签的特征向量集合;

获取模块201,还用于根据目标文本的特征向量集合以及待匹配标签的特征向量集合,获取相关性特征集合,其中,相关性特征集合包括文本单元之间的相关性特征以及文本单元与属性标签之间的相关性特征;

获取模块201,还用于根据相关性特征集合获取目标文本分别属于每个属性标签的概率;

确定模块202,用于根据目标文本分别属于每个属性标签的概率,确定目标文本所对应的目标标签,其中,目标标签包括至少一个属性标签。

可选地,在上述图9所对应的实施例的基础上,本申请实施例提供的文本标签的确定装置200的另一实施例中,待匹配标签包括至少两个属性标签;

相关性特征集合还包括属性标签之间的相关性特征。

可选地,在上述图9所对应的实施例的基础上,本申请实施例提供的文本标签的确定装置200的另一实施例中,获取模块201,具体用于根据目标文本以及待匹配标签生成目标文本序列,其中,目标文本序列包括目标文本的文本序列以及待匹配标签的文本序列;

对目标文本序列进行编码处理,得到目标文本的特征向量集合以及待匹配标签的特征向量集合。

可选地,在上述图9所对应的实施例的基础上,本申请实施例提供的文本标签的确定装置200的另一实施例中,文本标签的确定装置200还包括处理模块203;

处理模块203,用于对目标文本进行分词处理,得到目标文本的文本序列;

对待匹配标签进行分词处理,得到待匹配标签的文本序列;

对目标文本的文本序列以及待匹配标签的文本序列进行拼接处理,得到目标文本序列。

可选地,在上述图9所对应的实施例的基础上,本申请实施例提供的文本标签的确定装置200的另一实施例中,处理模块203,具体用于对目标文本的文本序列以及待匹配标签的文本序列进行编码处理,得到每个文本单元所对应的特征向量以及每个属性标签所对应的特征向量;

根据每个文本单元所对应的特征向量生成目标文本的特征向量集合;

根据每个属性标签所对应的特征向量生成待匹配标签的特征向量集合。

可选地,在上述图9所对应的实施例的基础上,本申请实施例提供的文本标签的确定装置200的另一实施例中,获取模块201,具体用于根据相关性特征集合获取注意力权重向量集合,其中,注意力权重向量集合包括至少两个注意力权重向量,注意力权重向量与文本单元一一对应,注意力权重向量表示文本单元在目标文本中与属性标签相关的权重;

根据目标文本以及注意力权重向量集合,获取文本特征向量集合;

根据文本特征向量集合与待匹配标签,获取目标文本分别属于每个属性标签的概率。

可选地,在上述图9所对应的实施例的基础上,本申请实施例提供的文本标签的确定装置200的另一实施例中,获取模块201,具体用于对相关性特征集合进行卷积处理,获取注意力权重向量集合;

获取模块201,具体用于对目标文本以及注意力权重向量集合进行处理,获取文本特征向量集合。

可选地,在上述图9所对应的实施例的基础上,本申请实施例提供的文本标签的确定装置200的另一实施例中,待匹配标签包括至少两个属性标签;

确定模块202,具体用于将目标文本分别属于每个属性标签的概率大于第一分类阈值的至少一个概率确定为目标概率;

将目标概率对应的属性标签确定为目标文本所对应的目标标签。

可选地,在上述图9所对应的实施例的基础上,本申请实施例提供的文本标签的确定装置200的另一实施例中,待匹配标签为单个属性标签;

确定模块202,具体用于当目标文本属于属性标签的概率大于第二分类阈值时,则将待匹配标签确定为目标文本所对应的目标标签;

将目标概率对应的属性标签确定为目标文本所对应的目标标签。

可选地,在上述图9所对应的实施例的基础上,本申请实施例提供的文本标签的确定装置200的另一实施例中,获取模块201,具体用于基于目标文本以及待匹配标签,通过分类模型的第一特征处理层获取目标文本的特征向量集合以及待匹配标签的特征向量集合;

获取模块201,具体用于基于目标文本的特征向量集合以及待匹配标签的特征向量集合,通过分类模型的第二特征处理层获取相关性特征集合;

获取模块201,具体用于基于相关性特征集合,通过分类模型的卷积层获取目标文本分别属于每个属性标签的概率;

确定模块201,具体用于基于目标文本分别属于每个属性标签的概率,通过分类模型的全连接层确定目标文本所对应的目标标签。

可选地,在上述图9所对应的实施例的基础上,本申请实施例提供的文本标签的确定装置200的另一实施例中,文本标签的确定装置200还包括训练模块204;

获取模块201,还用于获取目标文本样本集合,待匹配标签样本以及真实标签集合,其中,目标文本样本集合包括至少两个目标文本样本,目标文本样本包括至少两个文本单元,待匹配标签样本包括至少一个属性标签;

获取模块201,还用于基于目标文本样本集合以及待匹配标签样本,通过待训练分类模型的第一特征处理层获取目标文本样本集合的特征向量集合以及待匹配标签样本的特征向量集合;

获取模块201,还用于基于目标文本样本集合的特征向量集合以及待匹配标签样本的特征向量集合,通过待训练分类模型的第二特征处理层获取相关性特征样本集合,其中,相关性特征样本集合包括每个目标文本样本的文本单元之间的相关性特征以及每个目标文本样本的文本单元与每个待匹配标签样本的属性标签之间的相关性特征;

获取模块201,还用于基于相关性特征样本集合,通过待训练分类模型的卷积层获取每个目标文本样本的文本单元分别属于每个属性标签的概率集合;

获取模块201,还用于基于每个目标文本样本的文本单元分别属于每个属性标签的概率集合,通过待训练分类模型的全连接层获取目标文本样本集合所对应的预测标签集合,其中,预测标签集合包括多个预测标签,每个预测标签包括至少一个属性标签;

训练模块204,用于基于预测标签集合以及真实标签集合,对待训练分类模型进行训练,得到分类模型。

可选地,在上述图9所对应的实施例的基础上,本申请实施例提供的文本标签的确定装置200的另一实施例中,训练模块204,具体用于基于预测标签集合以及真实标签集合,根据目标损失函数更新待训练分类模型的模型参数,以得到分类模型。

本申请实施例还提供了另一种文本标签的确定装置,文本标签的确定装置都可以部署于服务器,也可以部署于终端设备,本申请中以文本标签的确定装置部署于服务器为例进行说明,请参阅图10,图10为本申请实施例中服务器一个实施例示意图,如图所示,该服务器1000可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)1022(例如,一个或一个以上处理器)和存储器1032,一个或一个以上存储应用程序1042或数据1044的存储介质1030(例如一个或一个以上海量存储设备)。其中,存储器1032和存储介质1030可以是短暂存储或持久存储。存储在存储介质1030的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1022可以设置为与存储介质1030通信,在服务器1000上执行存储介质1030中的一系列指令操作。

服务器1000还可以包括一个或一个以上电源1026,一个或一个以上有线或无线网络接口1050,一个或一个以上输入输出接口1058,和/或,一个或一个以上操作系统1041,例如Windows Server

上述实施例中由服务器所执行的步骤可以基于该图10所示的服务器结构。

该服务器所包括的CPU 1022用于执行如图3所示实施例以及图3对应的各个实施例。

本申请还提供了一种终端设备,用于执行图3所示实施例以及图3对应的各个实施例中文本标签的确定装置执行的步骤。如图11所示,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。以终端设备为手机为例进行说明:

图11示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图11,手机包括:射频(Radio Frequency,RF)电路1110、存储器1120、输入单元1130、显示单元1140、传感器1150、音频电路1160、无线保真(wireless fidelity,WiFi)模块1170、处理器1180、以及电源1190等部件。本领域技术人员可以理解,图11中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

下面结合图11对手机的各个构成部件进行具体的介绍:

RF电路1110可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1180处理;另外,将设计上行的数据发送给基站。通常,RF电路1110包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier,LNA)、双工器等。此外,RF电路1110还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication,GSM)、通用分组无线服务(General Packet RadioService,GPRS)、码分多址(Code Division Multiple Access,CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution,LTE)、电子邮件、短消息服务(Short Messaging Service,SMS)等。

存储器1120可用于存储软件程序以及模块,处理器1180通过运行存储在存储器1120的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器1120可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1130可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元1130可包括触控面板1131以及其他输入设备1132。触控面板1131,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1131上或在触控面板1131附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1131可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1180,并能接收处理器1180发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1131。除了触控面板1131,输入单元1130还可以包括其他输入设备1132。具体地,其他输入设备1132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1140可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1140可包括显示面板1141,可选的,可以采用液晶显示器(LiquidCrystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板1141。进一步的,触控面板1131可覆盖显示面板1141,当触控面板1131检测到在其上或附近的触摸操作后,传送给处理器1180以确定触摸事件的类型,随后处理器1180根据触摸事件的类型在显示面板1141上提供相应的视觉输出。虽然在图11中,触控面板1131与显示面板1141是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板1131与显示面板1141集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1150,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1141的亮度,接近传感器可在手机移动到耳边时,关闭显示面板1141和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,此处不做赘述。

音频电路1160、扬声器1161,传声器1162可提供用户与手机之间的音频接口。音频电路1160可将接收到的音频数据转换后的电信号,传输到扬声器1161,由扬声器1161转换为声音信号输出;另一方面,传声器1162将收集的声音信号转换为电信号,由音频电路1160接收后转换为音频数据,再将音频数据输出处理器1180处理后,经RF电路1110以发送给比如另一手机,或者将音频数据输出至存储器1120以便进一步处理。

WiFi属于短距离无线传输技术,手机通过WiFi模块1170可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图11示出了WiFi模块1170,但是可以理解的是,其并不属于手机的必须构成。

处理器1180是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1120内的软件程序和/或模块,以及调用存储在存储器1120内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器1180可包括一个或多个处理单元;优选的,处理器1180可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1180中。

手机还包括给各个部件供电的电源1190(比如电池),优选的,电源可以通过电源管理系统与处理器1180逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出,手机还可以包括摄像头、蓝牙模块等,此处不做赘述。

在本申请实施例中,该终端所包括的处理器1180用于执行如图3所示实施例以及图3对应的各个实施例。

本申请实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行如前述图3所示实施例描述的方法以及图3对应的各个描述的方法中文本标签的确定装置所执行的步骤。

本申请实施例中还提供一种包括程序的计算机程序产品,当其在计算机上运行时,使得计算机执行如前述图3所示实施例描述的方法中文本标签的确定装置所执行的步骤。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号