首页> 中国专利> 基于跨域特征提取的联合网络中文地址标注方法、系统、设备及存储介质

基于跨域特征提取的联合网络中文地址标注方法、系统、设备及存储介质

摘要

本发明公开了一种基于跨域特征提取的联合网络中文地址标注方法、系统、设备及存储介质。利用对抗网络的思想来联合训练中文命名实体识别NER和中文分词CWS数据,从CWS数据集中提取任务共享词边界信息,并防止CWS实体边界信息给中文NER任务带来影响,同时增加更多的通用信息,在少量标注的样本的情况下,提高模型在中文地址序列标注任务中的效果;本发明提出的基于跨域特征提取的联合网络中文地址标注方法可在少量标注样本的情况下,从不同领域的数据集中学习并提取到不同领域之间的共享特征,同时将我们提出的跨域模型融合到中文地址序列标注模型中形成联合网络模型,来提高中文地址标注任务的预测精度。

著录项

  • 公开/公告号CN116542240A

    专利类型发明专利

  • 公开/公告日2023-08-04

    原文格式PDF

  • 申请/专利号CN202310504333.7

  • 申请日2023-05-05

  • 分类号G06F40/221(2020.01);G06F40/295(2020.01);G06N3/0499(2023.01);G06N3/0442(2023.01);G06N3/0464(2023.01);G06N3/08(2023.01);G06F18/213(2023.01);

  • 代理机构杭州求是专利事务所有限公司 33200;

  • 代理人刘静

  • 地址 310012 浙江省杭州市西湖区西斗门路3号天堂软件园D幢17层ABCD座

  • 入库时间 2024-01-17 01:23:17

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-08-22

    实质审查的生效 IPC(主分类):G06F40/221 专利申请号:2023105043337 申请日:20230505

    实质审查的生效

说明书

技术领域

本发明涉及中文自然语言处理领域,尤其涉及一种基于跨域特征提取的联合网络中文地址标注方法、系统、设备及存储介质。

背景技术

由于中文地址领域序列数据的结构化特性,其标注数据的规模相对有限。这一点限制了提出模型的效能。另外,地址序列标注任务是较细的token级别,标注人员首先按实体边界标准把地址序列划分成地址token,然后再对每一个地址token进行打标,所以标注成本相对于普通的文本分类任务也更为高昂,这一点也使得获取更大规模和更高质量的标注数据集越发困难。如何缓解当前数据集规模较小所带来的问题也是研究所关注的一个点。

在中文地址领域中,虽然有通用的全国标准行政区划地址库,但是缺乏对标准地址库之外的庞大地址数据库以及各种复杂组合地址数据库的标注准则。与此同时,缺乏通用的地址域领域词典来划分实体边界,这影响了一些复合实体的识别。且现实世界的地址数据中包含各种复合实体以及各种实体的简称:其中有些小区和兴趣点等名称混淆度极高,需要通过搜索引擎或者是相关的地址数据库来查询。同时存在某些实体表达不同的语义现象。例如,山西这个简称,在全国的标准行政区划地址库里既可以表示山西省也可以表示山西区。中文地址串中实体间的先后顺序和实体几乎100%的覆盖率这两个特性使得现有通用语料库模型和方法无法有效应用于地址领域。

但是通用领域内的数据集量级很大,需要利用这部分数据信息。中文NER任务和中文分词任务之间有很多相似之处,称之为任务共享信息。所以本发明提出一种改进跨域特征提取模型。利用对抗网络的思想来联合训练中文NER和CWS数据,旨在从CWS数据集中提取任务共享词边界信息,并防止CWS实体边界信息给中文NER任务带来影响,同时增加更多的通用信息,提高模型在中文地址序列标注任务中的效果。

发明内容

本发明目的在于针对现有技术的不足,提出一种基于跨域特征提取的联合网络中文地址标注方法及装置,在少量标注样本的情况下,在少量标注样本的情况下,从不同领域的数据集中学习并提取到不同领域之间的共享特征,同时将本发明提出的跨域模型融合到中文地址序列标注模型中形成联合网络模型,来提高中文地址标注任务的预测精度。

本发明的目的是通过以下技术方案来实现的:第一方面,一种基于跨域特征提取的联合网络中文地址标注方法,该方法包括以下步骤:

(1)私有特征提取层:仅用于从中文地址标注数据集中提取NER任务特征信息进行编码;

(2)共享特征提取层:基于Common Bi-LSTM提取来自中文地址特征信息,同时与中文分词数据训练得到的CWS Bi-LSTM中的编码信息融合输出到任务判别器中,进行任务判断;

(3)任务判别层:根据CNN提取的文本特征来判断共享特征提取层输出的文本信息来自哪个任务,进行对抗训练;

(4)基于中文地址序列提取特征信息,输入到对抗训练后得到的Common Bi-LSTM进行编码,并与私有特征提取层的编码输出融合后经过CRF输出中文地址标注结果。

进一步地,所述提取NER任务特征信息为,将中文地址文本经过BERT模型,得到中文地址序列,作为私有特征提取层和共享特征提取层中Common Bi-LSTM的输入。

进一步地,私有特征提取层基于private Bi-LSTM实现编码,输出特征为

其中,

进一步地,private Bi-LSTM和Common Bi-LSTM的隐藏状态表示如下:

其中,θ

其中,

进一步地,private Bi-LSTM、Common Bi-LSTM和CWS Bi-LSTM的模型结构相同,模型参数不同,由不同的训练数据确定各自的参数。

第二方面,本发明还提供了一种基于跨域特征提取的联合网络中文地址标注系统,该系统包括私有特征提取模块、共享特征提取模块、任务判别模块和中文地址标注模块;

所述私有特征提取模块用于从中文地址标注数据集中提取NER任务特征信息进行编码;

所述共享特征提取模块用于基于Common Bi-LSTM提取来自中文地址特征信息,同时与中文分词数据训练得到的CWS Bi-LSTM中的编码信息融合输出到任务判别模块中,进行任务判断;

所述任务判别模块用于根据CNN提取的文本特征来判断共享特征提取模块输出的文本信息来自哪个任务,进行对抗训练;

所述中文地址标注模块用于基于中文地址序列提取特征信息,输入到对抗训练后得到的Common Bi-LSTM进行编码,并与私有特征提取模块的编码输出融合后经过CRF输出中文地址标注结果。

第三方面,一种基于跨域特征提取的联合网络中文地址标注设备,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现所述的一种基于跨域特征提取的联合网络中文地址标注方法。

第四方面,一种计算机可读存储介质,其上存储有程序,所述程序被处理器执行时,实现所述的一种基于跨域特征提取的联合网络中文地址标注方法。

本发明的有益效果:本发明提出一种改进跨域特征提取模型。利用对抗网络的思想来联合训练中文NER和CWS数据,从CWS数据集中提取任务共享词边界信息,防止CWS实体边界信息给中文NER任务带来影响;同时增加更多的通用信息,提高模型在中文地址序列标注任务中的效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。

图1为跨域通用特征提取模型结构示意图;

图2为中文地址序列标注训练数据示意图。

图3是本发明一种基于跨域特征提取的联合网络中文地址标注设备的结构图。

具体实施方式

以下结合附图对本发明具体实施方式作进一步详细说明。

如图1所示,本发明提供了一种基于跨域特征提取的联合网络中文地址标注方法,包括对抗训练这一跨域通用特征提取部分和域内模型部分。在传统RNN中,其计算模块是可循环调用的,梯度信息通过累乘进行传递的,在长文本下极易发生梯度消失或者梯度爆炸的现象,特别是激活函数的存在使得每一步的梯度极易处于(0,1)之间而发生梯度消失功能,为了解决此现象,LSTM被提出,它被广泛用于自然语言处理任务中。单向的LSTM模型只能获取单向文本信息。但是对于序列标注任务,有效实体和上下文之间存在很强烈的依赖关系,局部上下文信息尤为重要。为了能获取上下文的信息,本发明提出改进跨域特证提取模型,采用Bi-LSTM模型提取特征,既可以使用当前时刻之前的信息,也可以使用当前时刻之后的信息,并且可以充分融合上下文信息。利用对抗网络的思想来联合训练中文命名实体识别(Named Entity Recognition,NER)和中文分词(Chinese word segmentation,CWS)数据,从CWS数据集中提取任务共享词边界信息,并防止CWS实体边界信息给中文NER任务带来影响,同时增加更多的通用信息,在少量标注的样本的情况下,提高模型在中文地址序列标注任务中的效果。

本发明提出的改进跨域通用特证提取模型包括三部分:私有特征提取层、共享特征提取层和任务判别层。如图1左侧虚线部分所示。1.私有特征提取仅从中文地址标注数据集中提取特征信息进行编码,然后经过CRF输出标注结果。2.共享特征层提取来自中文地址特征信息,使用预训练BERT模型的输出作为中文地址序列数据和中文分词数据CWS数据的词向量,同时与CWS Bi-LSTM的编码信息融合输出到任务判别器中,进行任务判断。3.任务判别器根据CNN提取的文本特征来判断文本来之哪个任务。训练完成后可以通过共享Bi-LSTM提取到CWS和中文地址数据集之间的共享边界信息来进一步提高地址序列标注的精度。最后基于中文地址序列提取特征信息,输入到对抗训练后得到的Common Bi-LSTM进行编码,并与私有特征提取层的编码输出融合后经过CRF输出中文地址标注结果。

本发明通过遍历输入中文地址序列[x

其中,

私有Bi-LSTM层仅用于提取中文地址标注NER任务的特征,而通用的Bi-LSTM得到域内特征和CWS任务的跨域特征用于序列任务判别器,来学习共享词语的边界信息。形式上,对于数据集中的任何句子,共享和私有的Bi-LSTM的隐藏状态表示如下:

其中,θ

Bi-LSTM只考虑句子的长距离范围内输入的上下文信息,但没有考虑标签之间语义关系。条件随机场可以通过学习标签之间的邻居关系来保证标签有效。本发明使用标准CRF层获取最终的序列标注。定义预测分数:

其中,W

其中,Y

本发明所使用的中文地址标注数据是来自和银行合作的一个项目中真实场景的数据。为了能充分利用CWS的数据信息,一方面,本发明从网络上收集中文NER通用数据集,如MSRA和微博数据集中抽取一些和地址相关的数据;另一方面,由于将中文地址序列分词的代价较小,本发明从网上爬取大量的中文地址分词数据,将分词数据加入到本发明的实验数据中。

为了构建对抗网络,中文命名实体识别的地址数据同时输入到共享的Bi-LSTM和私有的Bi-LSTM中。共享Bi-LSTM的作用是学习任务共享信息,并为任务判别器提供特征;而私有Bi-LSTM仅用于提取中文地址序列标注任务的特征。图1任务判别层的损失函数是负对数似然函数,如下所示:

本发明通过梯度反转(gradient reversal layer,GRL)来实现训练任务判别器的特征提取模块这部分损失函数。GRL的作用是将传递给共享Bi-LSTM层的误差乘以一个负数(-λ),使得GRL前后网络的训练目标相反,通过这种方式让共享特征提取层仅提取到中文分词和中文地址数据集之间的共享边界信息。最终任务判别器无法从输入的文本特征中区分任务数据集类型,达到一种动态平衡状态,从共享特征提取器获取通用特征来进行下游任务。

实施例:通过举例对上述基于跨域特征提取的联合网络中文地址标注方法进行进一步的说明。

在中文地址序列标注的实际应用中,本发明使用上述所提出的方法和现有的较先进的方法进行实验对比,具体如下:

本发明使用有标签的数据约10万条,具体的数据形式如图2:包括地址token序列和对应的标签序列。本发明采用训练集、验证集和测试集的比例为8∶1∶1。

另外,本发明做了一组对照实验。选取了比较先进的基准模型,在其中加入了改进跨域通用特征提取模块,和未加入基准模型进行效果对比。

为了分析对抗训练这部分能否提取到不同领域之间的通用特征,本发明选取了不同领域内的中文NER和CWS组成的测试集,本发明会根据对抗训练模块模型预测的结果来证明其有效性。本发明希望改进跨域通用特征提取模型的任务判别器无法根据卷积神经网络提取的最终特征判断句子是否跨域,所以本发明选取了平均交叉熵Avg-CE)为评价指标,最终希望模型预测出的概率要接近0.5,所以选择了[0.5,0.5]作为真标签(True Label)来对其做交叉熵。

本发明采用基于Tensorflow深度学习框架实现。采用预训练的BERT词向量初始化模型结构中的字符词向量,字符词向量的维度为768,词典的大小为21k。在训练过程中会对这部分字符词向量进行更新。对于梯度反转中的λ,本发明经验性地将其设置为-1。在Private Bi-LSTM编码器输出后进入CRF模块前,使用了Dropout,Dropout的几率设置为0.5。所有的Bi-LSTM的隐状态维度分别设为768。对于对抗训练部分的CNN参数,将in_channels设置为768维,out_channels设置为256维,kernel_size设置为3。本发明采用两块RTX-Titan图形处理器(GPU)进行训练。具体的实验结果如下表所示:

可以看到,引入了本发明提出的跨域通用特征提取的联合网络模型的BERT+CRF模型的P-accuracy和Macro-F1这两项指标比未引入提出的模块的所有基准模型要高。在人工制作的数据集上,本发明的Avg-CE指标比未加入前要更低,证明了本发明模型在中文地址序列标注场景下的有效性以及一定的泛化性。

另一方面,本发明还提供了一种基于跨域特征提取的联合网络中文地址标注系统,该系统包括私有特征提取模块、共享特征提取模块、任务判别模块和中文地址标注模块;

所述私有特征提取模块用于从中文地址标注数据集中提取NER任务特征信息进行编码;

所述共享特征提取模块用于基于Common Bi-LSTM提取来自中文地址特征信息,同时与中文分词数据训练得到的CWS Bi-LSTM中的编码信息融合输出到任务判别模块中,进行任务判断;

所述任务判别模块用于根据CNN提取的文本特征来判断共享特征提取模块输出的文本信息来自哪个任务,进行对抗训练;

所述中文地址标注模块用于基于中文地址序列提取特征信息,输入到对抗训练后得到的Common Bi-LSTM进行编码,并与私有特征提取模块的编码输出融合后经过CRF输出中文地址标注结果。

与前述一种基于跨域特征提取的联合网络中文地址标注方法的实施例相对应,本发明还提供了一种基于跨域特征提取的联合网络中文地址标注设备的实施例。

参见图3,本发明实施例提供的一种基于跨域特征提取的联合网络中文地址标注设备,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,用于实现上述实施例中的一种基于跨域特征提取的联合网络中文地址标注方法。

本发明提供的一种基于跨域特征提取的联合网络中文地址标注设备的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。设备实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的设备,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图3所示,为本发明提供的一种基于跨域特征提取的联合网络中文地址标注设备所在任意具备数据处理能力的设备的一种硬件结构图,除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中设备所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。

上述设备中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。

对于设备实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的设备实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的一种基于跨域特征提取的联合网络中文地址标注方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。

上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号