首页> 中国专利> 基于BERT和Word2Vec向量融合的中文实体识别方法

基于BERT和Word2Vec向量融合的中文实体识别方法

摘要

本发明公开了一种基于BERT和Word2Vec向量融合的中文实体识别方法。该方法整体分为三个阶段,首先将海量文本预处理,之后输入到BERT和Word2Vec模型训练,获得预训练BERT模型和静态词向量表;接着将待识别文本与词向量表进行匹配获取每个字符的候选词向量,通过设计的两种融合策略对每个字的候选词向量融合,之后与BERT输出的字向量拼接;最后将拼接的字向量输入Bi‑LSTM‑CRF进行实体识别模型的训练。本发明构建的基于BERT和Word2Vec向量融合的中文实体识别方法,通过词向量融合拼接的方式间接引入了词语的边界信息,且利用BERT获取具体语境下的字向量,充分表征了字的多义性。

著录项

  • 公开/公告号CN112632997A

    专利类型发明专利

  • 公开/公告日2021-04-09

    原文格式PDF

  • 申请/专利权人 河北工程大学;

    申请/专利号CN202011462808.3

  • 发明设计人 张有强;

    申请日2020-12-14

  • 分类号G06F40/295(20200101);G06F40/30(20200101);

  • 代理机构35252 厦门一创联智知识产权代理事务所(普通合伙);

  • 代理人李燕丽

  • 地址 056000 河北省邯郸市经济技术开发区太极路19号

  • 入库时间 2023-06-19 10:32:14

说明书

技术领域

本发明属于命名实体识别领域,具体涉及一种基于BERT和Word2Vec 向量融合的中文实体识别方法。

背景技术

命名实体识别是一项识别文本中指定类型的实体成分并对其进行分类的 任务,常见的实体类型包括:人名、地名、机构名等。在网络数据日益剧增 的今天,命名实体识别为数据挖掘提供了强有力的支持,同时它也是信息检 索、问答系统、知识图谱等任务的重要组成部分。常用的命名实体识别方法 主要分为以下三类:基于规则和词典的方法、基于统计机器学习的方法和基 于深度学习的方法。

基于规则和词典的方法,需要依靠语言学专家手工设计规则模板,选取 能够描述预定义类型的实体特征,包括:统计信息、关键字、指示词、位置 词以及标点符号等,结合领域内的词典,通过规则模板与字符串匹配的方式 进行实体识别。

基于统计机器学习的方法,把命名实体识别当作序列标注任务处理,该 类方法不需要拥有深厚语言学知识的专家来挑选和设计特征,普通研究人员 就可以挑选出能有效反映该类实体特性的特征集合,包括:单词特征、上下 文特征、词性特征以及语义特征等。通常采用人工标注的语料训练模型,常 用的机器学习模型包括:隐马尔可夫模型、最大熵模型、支持向量机、条件 随机场等。

基于深度学习的方法,能够进行端到端的模型训练,避免了人工挑选和 设计特征的问题。随着人工神经网络在词嵌入技术中的应用,使用大量未标 注语料进行无监督预训练,可以获得更贴近词语表达含义的低维稠密的原生 词向量,常用的词向量训练模型包括:Word2Vec、Glove等。在特征提取上 常用的深度学习模型有卷积神经网络、循环神经网络等,其中双向长短时记 忆(Bidirectional Long Short Term Memory,Bi-LSTM)网络是最经典,也是效 果较好的一个模型,而标签解码一般采用条件随机场(ConditionalRandom Fields,CRF)模型。

基于预训练语言模型的方法,使用海量文本对语言模型进行无监督预训 练,常用的预训练语言模型是BERT(Bidirectional Encoder Representations fromTransformers),利用获得的预训练模型在实体识别数据集上通过微调参 数的方式进行实体识别。

但上述技术在下列缺陷:

基于规则和词典的方法具有较强的领域性,且有限的规则无法覆盖所有 的语言现象,缺乏鲁棒性和可移植性;

基于统计机器学习的方法,需要人工进行特征的挑选和组合,且人类语 言的使用通常具有很大的随意性,仅仅使用基于统计的方法会使状态搜索空 间非常庞大,导致实体识别效果不好;

基于深度学习的方法,采用Word2Vec等模型训练获得固定的静态词向 量来表示词语的语义含义,无法解决一词多义的问题,且分词错误会导致误 差传播,影响实体识别效果;

基于BERT预训练语言模型微调的方法,通常模型参数量巨大,训练和 预测都要花费很长的时间,且在训练和部署方面对硬件设施的要求较高。

发明内容

本发明的目的是为了解决现有技术存在的上述所列问题,提供了一种基 于BERT和Word2Vec向量融合的中文实体识别方案,在保证实体识别效果 的前提下提高模型训练和预测的效率。

为实现上述目的,本发明采用的技术方案为:使用BERT模型获取包含 上下文信息的动态字向量,使用Word2Vec模型获取静态词向量,之后通过 两种词向量融合策略对候选词向量进行融合,最后将字向量和融合后的词向 量拼接作为后续模型的输入向量,且使用了经典的Bi-LSTM-CRF模型进行 特征编码和标签的解码。

基于BERT和Word2Vec进行向量融合的中文实体识别方法,具体包括 以下步骤:

步骤1,获取海量中文文本语料,利用Python中的jieba模块对文本进 行分词,训练Word2Vec模型,获取静态词向量表;

步骤2,对BERT模型进行预训练,把中文文本构造成BERT模型需要 的输入格式,具体分为以下几步:

2.1对于原始语料,通过换行来分割句子,通过空行来分割上下文;

2.2构建BERT下一句预测预训练任务需要的样本,其中正样本表示的是 输入的两个句子是存在上下文关系的连续的两个句子;负样本表示的是不存 在语义关系的随机选择的两个句子;

2.3对于超过设定的最大长度的句子,随机选择从句首或句尾进行截断;

2.4将待输入的两个句子用[SEP]标签连接,并且在整个句首添加[CLS] 标签,整个句尾添加[SEP]标签,若句子长度不够,用[PAD]标签进行填充;

2.5构建BERT遮蔽语言模型预训练任务需要的样本,随机选择句子中 15%的字符进行遮蔽,对于选中的字符80%的时间用[MASK]代替,10%的时 间用随机选择的一个字符代替,10%的时间保持原字符不变;

步骤3,根据上述两个预训练任务训练BERT模型,训练目标分别是预 测当前输入的句子对是否是存在上下文关系的句子和预测被遮蔽掉字符的原 始内容,最终获得预训练好的BERT模型;

步骤4,中文命名实体识别数据集的获取、预处理以及标注,具体标注 方式一般采用BIO标注法,其中B表示实体开始字符,I表示实体中间和结 尾字符,O表示非实体字符;

步骤5,对步骤4得到的数据集进行预处理,给每一个句子的句首添加 [CLS]标签,句尾添加[SEP]标签,将处理好的句子输入步骤3获得的预训练 BERT模型,最终获得BERT模型输出句子中每一个字符的字向量;

步骤6,对步骤4得到的数据集中的每一个句子,通过与词汇表进行匹 配获取该句子包含的所有候选词语,查询步骤1获得的静态词向量表,获得 每一个候选词语的词向量,将句子中每个字对应的候选词语的词向量通过两 种向量融合策略进行融合,来表示每个字在词汇层面的语义含义,具体包含 以下两种词向量融合策略:

6.1词向量融合策略一:对句子中每个字的候选词向量进行求和取均值, 以“广州市长隆公园”句子为例,“广”字包含“广州”和“广州市”两个 候选词语,首先查询词向量表获得两个词语的词向量,然后对两个词向量求 和取均值作为“广”字的词向量表示部分。

6.2词向量融合策略二:对句子中每个字的候选词向量以词频作为权重进 行加权求和,同样以上述例子为例,首先统计“广州”和“广州市”在数据 集中出现的总次数,然后将两个词出现的次数分别除以两个词的总次数作为 两个词向量的权重,最后将权重和词向量相乘并求和作为“广”字的词向量 表示部分,其余字符同理,当某个字不存在匹配词语时,用[None]的词向量 表示该字的词向量部分,维度同其他词向量维度一样。

步骤7,将步骤6得到的每个字的词向量与步骤5得到的每个字的字向 量进行拼接,获得每个字符的最终字向量;

步骤8,将步骤7得到的字向量输入Bi-LSTM-CRF模型进行训练预测, 得到实体识别结果。

本发明的有益效果是:

1.本发明针对传统词向量特征表达能力不强,提出使用预训练BERT模 型获取包含上下文信息的动态字向量,增强字的语义含义,解决一词多义的 问题;

2.为了解决在传统词向量使用过程中存在的分词错误问题,更好的引入 词语以及实体边界信息,提出了词向量融合的策略,且引入了词频信息来给 可能性更大的词向量赋予更高的权重,减少错误分词带来的影响。

3.通过词向量与字向量拼接的方式,实现字与词的融合,丰富了初始向 量的特征表示,提高了实体识别的精度和召回率;

4.本发明在输入向量的表示上进行改进,而没有涉及到特征编码模型结 构的改进,因此也可以适用于其他特征编码模型,而不仅仅局限于Bi-LSTM 模型,具有很强的灵活性;

5.为了减少模型训练时间,没有对预训练模型微调,而是采用特征抽取 的方式获取字向量,大大减少了模型训练的参数,提高了模型训练效率。

附图说明

图1为本发明的基于BERT和Word2vec向量融合的中文实体识别流程示意 图;

图2为本发明实施例的基于BERT和Word2Vec向量融合的中文实体识别模 型整体结构示意图;

图3为本发明实施例的BERT预训练语言模型结构示意图;

图4为本发明实施例的Word2vec中的Skip-gram模型结构示意图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明 白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此 处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

如图1所示,本发明基于BERT和Word2vec向量融合的中文实体识别 方法,具体包括以下步骤:

步骤1,获取Word2vec模型的训练语料并进行预处理;

步骤2,根据步骤1预处理后的训练语料训练Word2vec中的Skip-gram 模型,如图4所示,通过输入中心词来预测指定大小窗口内的上下文的词, 训练完成获得的映射层的权重矩阵就是词向量表:W∈R

步骤3,通过查询步骤2训练获得的静态词向量表来获取每个词对应的 词向量:

步骤4,根据步骤1预处理后的训练语料自己预训练BERT语言模型, 也可直接下载其它已经预训练好的中文BERT模型。

步骤5,将实体识别数据集输入到BERT模型获取包含具体语境的字向 量,

步骤6,输入句子与预先训练好的词汇表进行匹配,获取每个字符的候 选词向量e

其中,e

策略二为词频加权求和,其计算如下:

其中,z(w)表示每个词语的词频,词频通过统计每个词在训练集和测试 集上出现的频率获得,其他参数同上。

将融合的词向量与BERT输出的字向量进行拼接,获得每个字符的最终 向量表示,

步骤7,将句子中每一个字的字向量输入到LSTM模型中,学习句子中 较长距离的前后依赖关系,LSTM通过输入门、遗忘门、输出门控制和保持 信息的传递,其参数化表示如下所示:

i

f

o

h

其中,σ是Sigmoid激活函数,tanh表示tanh激活函数,

步骤8,如图2所示,Bi-LSTM包含前向传递和反向传递两个过程,能 够编码双向语言信息,对于输入的句子向量序列S={e

反向传递过程为:

其中,

步骤9,最后对前向和反向LSTM的输出进行拼接获得t时刻的隐藏状 态h

步骤10,CRF层在Bi-LSTM输出的基础上考虑了标签之间的转移信息, 能够获得全局最优标签序列,计算过程如下:

其中,s表示评估得分,W是标签间的转移矩阵,P表示对应标签的得 分。根据评估得分计算序列x到标签y的概率为:

步骤11,训练损失函数为:

至此,具体实施例流程结束。

步骤12,本发明训练基于BERT和Word2Vec向量融合的Bi-LSTM-CRF 模型参数时,将已标注好的文本和标签作为输入,然后采用梯度下降法或其 他优化方法训练该模型,训练中只更新Bi-LSTM层和CRF层的参数,BERT 模型参数保持不变,当模型产生的损失值满足设定要求或达到最大迭代次数 时,则终止该模型的训练。

上述说明示出并描述了本发明的优选实施例,如前所述,应当理解本发 明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用 于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上 述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变 化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号