首页> 中国专利> 基于多元标注策略的结构化信息抽取方法和装置

基于多元标注策略的结构化信息抽取方法和装置

摘要

本申请提出一种基于多元标注策略的结构化信息抽取方法和装置,该方法包括:爬取学者的主页,并对主页进行清洗处理和分句处理;通过正则表达式匹配句子并将句子中不同格式的日期统一格式;通过预设的短文本分类模型筛选出包含学者履历的文本;基于多元标注策略对文本进行多标签序列标注,并将获得的标签数据集分割为训练集、验证集、测试集。基于训练集中的数据训练BERT‑Bi‑LSTM‑CRF模型;通过训练完成的模型预测多标签序列标注的结果,并评测预测效果。本申请将结构化信息的抽取任务视作多标签序列标注任务,并结合深度学习网络模型对学者履历等信息进行结构化抽取,将就读院校、专业、学位等信息与时间线一一对应,得到准确且结构化的数据。

著录项

  • 公开/公告号CN113836891A

    专利类型发明专利

  • 公开/公告日2021-12-24

    原文格式PDF

  • 申请/专利权人 北京智谱华章科技有限公司;

    申请/专利号CN202111016304.3

  • 发明设计人 王路路;陈嘉琳;刘佳;张鹏;

    申请日2021-08-31

  • 分类号G06F40/211(20200101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构11201 北京清亦华知识产权代理事务所(普通合伙);

  • 代理人罗岚

  • 地址 100084 北京市海淀区中关村东路1号院6号楼6层603A

  • 入库时间 2023-06-19 13:49:36

说明书

技术领域

本申请涉及信息抽取领域,尤其涉及一种基于多元标注策略的结构化信息抽取方法和装置。

背景技术

目前,全球有数亿位专家学者,而这些专家学者数据大多以异构非结构化形式在互联网呈现,这些数据蕴含着大量的有价值数据,如基本信息(邮箱、职称、工作单位等)、教育经历(就读院校、学历等)、工作履历(工作单位、职称等)。由于数据来源不一,非结构化存储,难以直接构建出一个学者的多精度人才语义画像,从而满足各种不同场景和数据维度下的智能人才分析需求。因此,如何从海量零散且非结构化的数据中,自动、准确、快速地将有价值的信息抽取出来,梳理专家学者的相关教育或工作经历,已然成为学术界和工业界关注的热点问题。

相关技术中,对教育或工作经历抽取主要采用基于规则/正则的文本匹配方法或者使用基于传统的序列标注方法,但是这些研究未考虑将时间线和经历信息进行一一对应,如以教育经历为例,未将就读院校、专业、学位、起止时间等信息做一一对应,对于实际应用场景无法满足需求。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此,本申请的第一个目的在于提出一种基于多元标注策略的结构化信息抽取方法,该方法先爬取学者的主页,并对主页进行清洗处理和分句处理;通过正则表达式匹配并转化句子中不同格式的日期;通过预设的短文本分类模型筛选出表示学者的履历的文本;基于多元标注策略对文本进行多标签序列标注,以获得标签数据集,并将标签数据集分割为训练集、验证集、测试集;基于训练集中的数据训练BERT-Bi-LSTM-CRF模型;通过训练完成的模型预测多标签序列标注的结果。该方法结合多元标注策略和深度学习网络模型对学者履历信息进行抽取,解决了学者履历结构化的问题,并能将学者的就读院校、专业、学位等信息与起止时间做一一对应,得到准确且结构化的数据,满足了实际场景的应用需求。

本申请的第二个目的在于提出一种基于多元标注策略的结构化信息抽取装置。

本申请的第三个目的在于提出一种非临时性计算机可读存储介质。

为达上述目的,本申请的第一方面实施例提出了一种基于多元标注策略的结构化信息抽取方法,包括以下步骤:

爬取学者的主页,并对所述主页进行清洗处理和分句处理;

通过正则表达式匹配每个句子,以获取所述主页中不同格式的日期,并将每个所述日期的格式转化为预设的日期格式;

通过预设的短文本分类模型对所述每个句子进行分类,筛选出包含所述学者履历的文本;

基于多元标注策略对所述文本进行序列标注,以获得标签数据集,并将所述标签数据集按预设比例分割为训练集、验证集和测试集;

基于所述训练集中的数据训练基于转换器的双向编码表征-双向长短记忆网络-条件随机场BERT-Bi-LSTM-CRF模型;

通过训练完成的所述BERT-Bi-LSTM-CRF模型预测多标签序列标注的结果,并评测所述BERT-Bi-LSTM-CRF模型的预测效果。

可选地,在本申请的一个实施例中对所述主页进行清洗处理,包括:将所述主页的页面语言转换为轻量级标记语言Markdown;将所述主页中的非ASCII字符转换为统一码Unicode字符,并删除非法字符;对所述主页中的每个字符的字体和大小写进行转换;对所述主页进行分句处理,包括:通过预设的工具包将主页中的内容划分为多个句子。

可选地,在本申请的一个实施例中,所述短文本分类模型包括向量表示层、卷积层、最大池化层和全连接层,所述通过预设的短文本分类模型对所述每个句子进行分类,包括:将所述每个句子中的每个字映射成预设维度的向量;通过不同的卷积核尺寸分别对所述每个句子进行卷积处理,以获得多个一维列向量;在每个所述一维列向量中取最大值,并拼接每个所述最大值,以获得池化后的向量;通过softmax函数对所述池化后的向量进行分类,确定所述每个句子所属的类别。

可选地,在本申请的一个实施例中,所述基于多元标注策略对所述文本进行序列标注,包括:通过BIO序列标注对文本中的每个字进行位置部分标注;对所述文本中的每个字进行实体类型部分标注;为每一段经历设置编号,并对所述文本中的每个字进行经历阶段部分标注。

可选地,在本申请的一个实施例中,所述基于所述训练集中的数据训练基于转换器的双向编码表征-双向长短记忆网络-条件随机场BERT-Bi-LSTM-CRF模型,包括:将训练集中的每个句子转换为字级别序列,并将每个所述字级别序列输入至BERT模型,生成基于上下文信息的第一尺寸的向量;将所述第一尺寸的向量输入至双向长短记忆网络Bi-LSTM中进行特征提取,输出第二尺寸的向量;将所述第二尺寸的向量经过全连接层后输入至条件随机场CRF模型进行解码,基于所述CRF模型输出的所述字级别序列对应的标签序列的分数进行模型训练,并计算目标标注序列。

可选地,在本申请的一个实施例中,所述CRF模型通过以下公式计算所述与字级别序列对应的标签序列的分数:

其中,X表示所述字级别序列,y表示所述CRF模型对所述字级别序列进行预测后的标签序列,P

可选地,在本申请的一个实施例中,在获取所述与字级别序列对应的标签序列的分数后,通过最大对数似然函数定义损失函数,利用梯度下降法训练所述BERT-Bi-LSTM-CRF模型,所述最大对数似然函数表示如下:

其中,p(y|X)表示每个标签序列为正确的标签序列的概率值,Y

其中,y

可选地,在本申请的一个实施例中,所述评测BERT-Bi-LSTM-CRF模型的预测效果,包括:

计算所述微调后的BERT-Bi-LSTM-CRF模型预测的结果的精准率、召回率和综合评价值;

根据所述精准率、所述召回率和所述综合评价值评测所述微调后的生成式训练模型;其中,通过以下公式计算所述精准率、所述召回率和所述综合评价值:

其中,

其中,P为精准率,R为召回率,F1为综合评价值,m为抽取的记录数,n为标注的记录数,k为标注数据中记录i的元素个数。

为达上述目的,本申请的第二方面实施例提出了本发明基于多元标注策略的结构化信息抽取装置,包括以下模块:

主页生成模块,用于获取学者的主页,并对所述主页进行清洗处理和分句处理;

日期生成模块,用于通过正则表达式匹配每个句子,以获取所述主页中不同格式的日期,并将每个所述日期的格式转化为预设的日期格式;

语句分类模块,用于通过预设的短文本分类模型对所述每个句子进行分类,筛选出表示所述学者履历的文本;

多元标注模块,用于通过基于多元标注策略对所述文本进行序列标注,以获得标签数据集,并将所述标签数据集按预设比例分割为训练集、验证集和测试集;

模型训练模块,用于通过基于所述训练集中的数据训练基于转换器的双向编码表征-双向长短记忆网络-条件随机场BERT-Bi-LSTM-CRF模型;

预测模块,用于通过训练完成的所述BERT-Bi-LSTM-CRF模型预测多标签序列标注的结果,并评测所述BERT-Bi-LSTM-CRF模型的预测效果。

可选地,在本申请的一个实施例中,所述的主页生成模块,具体用于:将所述主页的页面语言转换为轻量级标记语言Markdown;将所述主页中的非ASCII字符转换为统一码Unicode字符,并删除非法字符;对所述主页中的每个字符的字体和大小写进行转换;所述对所述主页进行分句处理,包括:通过预设的工具包将主页中的内容划分为多个句子。

可选地,在本申请的一个实施例中,所述的语句分类模块,具体用于:将所述每个句子中的每个字映射成预设维度的向量;通过不同的卷积核尺寸分别对所述每个句子进行卷积处理,以获得多个一维列向量;在每个所述一维列向量中取最大值,并拼接每个所述最大值,以获得池化后的向量;通过softmax函数对所述池化后的向量进行分类,确定所述每个句子所属的类别。

可选地,在本申请的一个实施例中,所述的多元标注模块,具体用于:通过BIO序列标注对文本中的每个字进行位置部分标注;对所述文本中的每个字进行实体类型部分标注;为每一段经历设置编号,并对所述文本中的每个字进行经历阶段部分标注。

可选地,在本申请的一个实施例中,所述的模型训练模块,具体用于:将训练集中的每个句子转换为字级别序列,并将每个所述字级别序列输入至BERT模型,生成基于上下文信息的第一尺寸的向量;将所述第一尺寸的向量输入至双向长短记忆网络Bi-LSTM中进行特征提取,输出第二尺寸的向量;将所述第二尺寸的向量经过全连接层后输入至条件随机场CRF模型进行解码,基于所述CRF模型输出的所述字级别序列对应的标签序列的分数进行模型训练,并计算目标标注序列。

可选地,在本申请的一个实施例中,所述CRF模型通过以下公式计算与所述字级别序列对应的标签序列的分数:

其中,X表示所述字级别序列,y表示所述CRF模型对字级别序列进行预测后的标签序列,P

可选地,在本申请的一个实施例中,模型训练模块具体用于:在获取所述字级别序列对应的标签序列的分数后,通过最大对数似然函数定义损失函数,利用梯度下降法训练所述BERT-Bi-LSTM-CRF模型,所述最大对数似然函数表示如下:

其中,p(y|X)表示每个标签序列为正确的标签序列的概率值,Y

其中,y

可选地,在本申请的一个实施例中,所述的预测模块,具体用于:

计算所述训练后的BERT-Bi-LSTM-CRF模型预测的结果的精准率、召回率和综合评价值;

根据所述精准率、所述召回率和所述综合评价值评测所述微调后的生成式训练模型;其中,通过以下公式计算所述精准率、所述召回率和所述综合评价值:

其中,

其中,P为精准率,R为召回率,F1为综合评价值,m为抽取的记录数,n为标注的记录数,k为标注数据中记录i的元素个数。

本申请的实施例提供的技术方案至少带来以下有益效果:该方法先爬取学者的主页,并对主页进行清洗处理和分句处理;通过正则表达式匹配并转化句子中不同格式的日期;通过预设的短文本分类模型筛选出表示学者的教育或工作经历的文本;基于多元标注策略对文本进行序列标注,以获得标签数据集,并将标签数据集分割为训练集、验证集、测试集;基于训练集中的数据训练基于转换器的双向编码表征-双向长短记忆网络-条件随机场BERT-Bi-LSTM-CRF模型;通过训练完成的模型预测多标签序列标注的结果。该方法结合多元标注策略和深度学习网络模型对学者的履历信息进行结构化抽取,不仅可以抽取学者的基本信息,而且解决了学者的教育或工作的经历等履历信息与时间线不匹配的问题,将学者的就读院校、专业、学位等信息与起止时间做一一对应,得到准确且结构化的数据,满足了实际场景的应用需求。

为了实现上述实施例,本申请第三方面实施例还提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中的基于多元标注策略的结构化信息抽取方法和装置。

本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:

图1是本申请实施例提出的一种基于基于多元标注策略的结构化信息抽取方法的流程示意图;

图2是本申请实施例提出的一种TextCNN网络的结构示意图;

图3是本申请实施例提出的一种基于BERT-Bi-LSTM-CRF的结构化信息抽取模型的结构示意图;

图4是本申请实施例提出的一种BERT的结构示意图;

图5是本申请实施例提出的一种LSTM的结构示意图;

图6是本申请实施例提出的一种具体的基于多元标注策略的结构化信息抽取方法的流程示意图;

图7是本申请实施例提出的一种基于多元标注策略的结构化信息抽取装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。

下面参考附图描述本发明实施例所提出的一种基于多元标注策略的结构化信息抽取方法的方法和装置。

图1为本申请实施例提出的一种基于基于多元标注策略的结构化信息抽取方法的流程图,如图1所示,该方法包括以下步骤:

步骤101,爬取学者的主页,并对主页进行清洗处理和分句处理。

其中,学者的主页是包括学者的各种基本信息,比如,性别、出生年月、研究方向、单位、职称、职位、工作经历、教育背景等,以及学者的研究成果等信息的页面。在本申请实施例中,可以通过相关的爬取代码或者爬取工具等爬取方法来得到学者的主页。

在本申请的一个实施例中,对主页进行清洗处理,包括:将主页的页面语言转换为轻量级标记语言Markdown;将主页中的非ASCII字符转换为统一码Unicode字符,并删除非法字符;对主页中的每个字符的字体和大小写进行转换。对主页进行分句处理,包括:通过预设的工具包将主页中的内容划分为多个句子。

具体而言,在获取学者的主页后,将获取到的主页进行清洗处理,在本申请的一个实施例中,清理的步骤可以是先将主页的页面语言转换为轻量级标记语言Markdown,由于爬取得到的主页是html格式的,为了便于后续的操作,利用html2text工具包将html文件中的各种无用的标签去掉,形成只包含有实际内容的纯文本页面。然后,进行字符的处理,将主页文本中的非ASCII字符转换为统一码Unicode字符,并删除非法字符。再对主页文本中的每个字符的字体进行由繁体转简体、全半角转换,统一字体格式和字体大小等字体处理。最后是对主页进行分句处理,可以通过预设的Pyltp工具的SentenceSpliter包等分句工具包将主页中的文本划分为多个句子。

步骤102,通过正则表达式匹配每个句子,以获取主页中不同格式的日期,并将每个日期的格式转化为预设的日期格式。

可以理解为,学者的主页中可能包含不同格式的表述日期的句子,为了便于后续将学者待标注的教育或工作经历等信息与日期一一对应,需要先统一日期的格式。

具体实施时,在本申请的一个实施例中,可以先通过预设的正则表达式与分句后的每个句子进行匹配,通过正则表达式描述的字符串匹配模式确定各个句子中是否具有日期,并从各句中取出日期,再通过正则表达式替换句子中的年份和月份等日期为预设的格式。

作为一种示例,具体的正则表达式如下:

(\s{0,2}[12]\d{3})?[年./-]?(\d{1,2})?[月]?(\s{0,2}[-至–—~-~_,\t]{1,2}\s{0,2})?([12]\d{3})[年./-]?(\d{1,2})?[月]?"。

通过该正则表达式将从各分句提取的年份和月份统一转换为YYYY年或者YYYY年-MM月的格式。

步骤103,通过预设的短文本分类模型对每个句子进行分类,筛选出包含学者履历的文本。

其中,学者的履历信息即为待进行序列标注的信息,可以是学者的出生日期、职称、就职单位、教育经历、工作经历等可以通过结构化的方式表示的信息。本申请在进行多元标注以抽取出学者的结构化信息前,先确定包含学者的履历信息文本。

在本申请的一个实施例中,可以先基于文本卷积神经网络TextCNN构建短文本分类模型。如图2所示,本申请预设的短文本分类模型包括向量表示层、卷积层、最大池化层和全连接层,通过该短文本分类模型对每个句子进行分类,过滤出表示履历信息的文本,具体步骤如下:

首先,为方便后续的处理,通过向量表示层,将自然语言数值化,即将每个句子中的每个字映射成预设维度的向量,在本申请的一个实施例中,通过word2vec将每个字映射成100维的向量。然后,在卷积层中通过不同的卷积核尺寸kernel_size分别对每个句子进行卷积处理,通过卷积处理将句子转换为一维向量,以获得多个一维列向量。在最大池化层从每个一维向量中取出最大值,并将每个最大值拼接,以获得池化后的向量。最后在全连接层中通过softmax函数对池化后的向量进行分类,输出5个维度,分别为基本信息、教育经历、工作履历、项目信息、其他,这五个类别,以此来确定每个句子所属的类别。另外,为了防止该模型过拟合,本申请还在模型中引入L2正则化处理和丢弃(dropout)处理,进行权重衰退和随机使一些TextCNN当前层的神经单元失效。

步骤104,基于多元标注策略对文本进行序列标注,以获得标签数据集,并将标签数据集按预设比例分割为训练集、验证集、测试集。

需要说明的是,由于一句文本中可能存在一个学者的多段经历,导致有些字段在多段经历中共用,因此,本申请在对分类后的句子进行序列标注时,采用了多元标注法,作为其中一种示例,本申请采用了三元标注法,即通过三元标注策略对句子中的每个字进行标识,使句子中的每个字对应一个唯一的标记,以便与其他经历中的相同的字符进行区分,便于获取经历信息的对应关系。

在本申请一个实施例中,基于多元标注策略对文本进行多标签序列标注,包括:通过BIO序列标注对文本中的每个字进行位置部分标注;对文本中的每个字进行实体类型部分标注;为每一段经历设置编号,并对文本中的每个字进行经历阶段部分标注。

具体而言,本申请实施例中的多元标注策略由以下三个部分组成:

位置部分:采用传统的BIO序列标注方法对每个字在一个实体的位置信息进行编码,其中B代表该词属于一个实体的开始,I代表该词是实体的非开始位置,即中间位置,O表示该词不属于实体的任意部分,该处的实体即学者的学习或工作经历等待标注的信息中的实体类型,比如,工作单位或学校等。

实体类型部分:将每个字与实体的类型信息联系起来,实体的类型信息包括:“Univ”、“Deg”、“Major”等,分别表示就读学校、学位、专业。

经历阶段部分:先为学者每一段经历设置编号,比如,1,2,…,等,1代表第一段经历,2代表第二段经历,以此类推。此外,为了能够抽取与时间线无关的信息,丰富信息抽取的结果,本申请还设置了编号为0的经历阶段标志,比如,该段经历中的信息包括出生日期等。

由此,本申请设置了多元标注策略,根据每段经历对每个字的标记(token)给出其对应的所有标签,实现了对文本进行序列标注,然后联合标注后得到的每个标签,生成标签数据集。

可选地,在本申请的一个实施例中,将设置了多元标注策略的数据集按照7:1.5:1.5的比例进行分割生成训练集、验证集和测试集,便于后续训练模型和验证模型的预测效果等。

步骤105,基于训练集中的数据训练基于转换器的双向编码表征-双向长短记忆网络-条件随机场BERT-Bi-LSTM-CRF模型。

需要说明的是,通过上述BIO标注机制对文本进行语料标注后,获得各个标签并不是相互独立的,无法根据这些标签将文本中的学者的工作或教育经历等信息对应起来。因此,在获得标签数据集后,本申请通过BERT-Bi-LSTM-CRF模型处理各个标签之间的关系。

其中,本申请预先构建了基于转换器的双向编码表征(Bidirectional EncoderRepresentations from Transformers,简称BERT)-双向长短记忆网络(Bi-LSTM)-条件随机场(CRF)模型,即BERT-Bi-LSTM-CRF模型,通过使该模型进行序列标注,计算最优的标注序列,即通过该模型确定每个字对应的标签数据集中的最匹配的标签,对该模型进行训练。在训练完成后,通过该模型输出待标记的字序列对应的最优的标签序列,即预测多标签序列标注的结果,可以得到学者每段经历进行一一对应的结构化数据,实现对学者履历信息进行结构化抽取。

在本申请的一个实施例中,BERT-Bi-LSTM-CRF模型的结构如图3所示,通过该模型进行序列标注时,包括以下步骤:

先将训练集中的每个句子转换为字级别序列,根据字级别序列利用词片段分类器wordPiece tokenizer得到token_id,并将每个字级别序列的token_id输入至BERT模型,生成基于上下文信息的第一尺寸的向量,第一尺寸是batch_size*max_seq_len*emb_size。

然后,将BERT模型输出的序列,即各个第一尺寸的向量输入至双向长短记忆网络Bi-LSTM中进行特征提取,输出第二尺寸的向量batch_size*max_seq_len*(2*hidden_size)。

再将第二尺寸的向量经过全连接层后输入至条件随机场CRF模型进行解码,其中,在通过全连接层后,第二尺寸的向量的尺寸变换成batch_size*out_feature,而CRF模型是一种条件概率模型,能有效地处理标记间的相互约束关系,有效地解决序列标记问题,因此,本申请基于CRF模型输出的与字级别序列对应的标签序列的分数进行模型训练,并计算目标标注序列。

为了更加清楚的描述本申请的BERT-Bi-LSTM-CRF模型训练过程,先对BERT-Bi-LSTM-CRF模型中各个组成部分进行介绍。如图4所示,Bert模型的处理过程为:对于任意序列,首先以字为单位得到文本序列,然后对序列的部分字进行Mask,再为序列的开头添加一个特殊标记[CLS],句子间用标记[SEP]分隔.此时序列的每个字的输出Embedding由3部分组成:Token Embedding、Segment Embedding和Position Embedding。然后,将序列向量输入到BERT中进行特征提取,最后得到含有丰富语义特征的序列向量。

对于BERT而言,其关键部分是Transformer结构的encoder部分,transformer使用了多头注意力机制,其用不同的初始化链接多个注意力层。多头注意力表示如下:

Multihead(Q,K,V)=Concat(head

其中,

其中,Q,K,V是分别表示query、key、value的向量矩阵,d

在本申请实施例中个,将BERT的输出用作Bi-LSTM模型的输入,以进一步提取上下文信息。如图5所示,LSTM是RNN的一种变种,是一种具有长短期机器的RNN。它的网络结果由输入门、遗忘门和输出门构成,能够在更长的序列中有更好的表现,克服了RNN存在的梯度消失和梯度爆炸问题。LSTM的形式化表示如下:

f

i

o

h

其中x

在本申请实施例中,假定对于输入序列X(即字级别序列),通过Bi-LSTM和全连接层得到的out_feature是n*k的矩阵P,其中,n表示输入序列的长度,k表示标签集合的大小,对于CRF,输入P

其中,X表示字级别序列,y表示CRF模型对字级别序列进行预测后的标签序列,P

进一步的,在获取字级别序列对应的标签序列的分数后,通过最大对数似然函数定义损失函数,即将损失函数定义为-log(p(y|X)),利用梯度下降法训练BERT-Bi-LSTM-CRF模型,其中,最大对数似然函数表示如下:

其中,p(y|X)表示每个标签序列为正确的标签序列的概率值,Y

更进一步的,通过以下公式计算目标标注序列:

其中,y

由此,通过最大似然函数训练模型,调整模型的参数,由最大似然函数得出条件概率最大的输出序列后,模型训练完成。

步骤106,通过训练完成的BERT-Bi-LSTM-CRF模型预测多标签序列标注的结果,并评测BERT-Bi-LSTM-CRF模型的预测效果。

在本申请的一个实施例中,将序列标注的结果输入至训练完成的BERT-Bi-LSTM-CRF模型中进行预测,预测序列标注的结果,具体实现方式如步骤105所述,此处不再赘述,从而实现每段经历进行一一对应。然后再评测BERT-Bi-LSTM-CRF模型的预测效果。

具体评测模型的预测效果时,作为一种可能的实现方式,先计算微调后的BERT-Bi-LSTM-CRF模型生成的答案的精准率、召回率和综合评价值;再根据精准率、召回率和综合评价值评测微调后的BERT-Bi-LSTM-CRF模型。其中,通过以下公式计算精准率、召回率和综合评价值:

其中,

其中,P为精准率,R为召回率,F1为综合评价值,m为抽取的记录数,n为标注的记录数,k为标注数据中记录i的元素个数。

在计算出精准率、召回率和综合评价值后,可将计算的数值与预设的评估阈值进行比较,其中,评估阈值可以是预设的模型的信息抽取效果符合要求时的最低阈值,通过比较判断计算出的上述数值是否大于评估阈值,以评估模型的效果是否符合要求。

综上所述,本申请实施例的基于多元标注策略的结构化信息抽取方法,该方法先爬取学者的主页,并对主页进行清洗处理和分句处理;通过正则表达式匹配并转化句子中不同格式的日期;通过预设的短文本分类模型筛选出包含学者履历信息的文本;基于多元标注策略对文本进行多标签序列标注,以获得标签数据集,并将标签数据集分割为训练集、验证集、测试集。基于训练集中的数据训练基于转换器的双向编码表征-双向长短记忆网络-条件随机场BERT-Bi-LSTM-CRF模型;通过训练完成的模型预测多标签序列标注的结果。该方法结合多元标注策略和深度学习网络模型对学者的履历信息进行结构化抽取,不仅可以抽取学者的基本信息,而且解决了学者教育或工作的经历与时间线不匹配的问题,将学者的就读院校、专业、学位等信息与起止时间做一一对应,得到准确且结构化的数据,满足了实际场景的应用需求。

为了更加清楚的说明基于多元标注策略的结构化信息抽取方法的具体实现过程,下面结合图6,以一个具体的实施例进行详细描述:

在本实施例中,第一步,先爬取专家学者的主页,利用html2text工具包获取纯文本的页面,对其进行清洗、分句,生成包含个人简介的数据集,包括非ASCII字符转换为Unicode字符,删除非法字符,繁体转简体、全半角转换等预处理工作,然后采用Pyltp工具的SentenceSpliter包对文本进行分句。

第二步,利用正则表达式匹配分句得到的文本中各种日期格式,汇总各种日期格式制定日期覆盖率高的正则表达式,提取其中的年、月等信息,然后将其转换为转化为统一的YYYY年或者YYYY年-MM月的时间格式。

第三步,采用基于TextCNN(包括向量表示层、卷积层、最大池化层和全连接层)构建短文本分类模型以过滤出包含学者履历信息的文本,比如,过滤出包含学者的教育或工作经历的文本,在向量表示层通过word2vec将筛选出的文本中的每个字映射成100维的向量,然后利用卷积层使用不同尺寸的kernel_size提取句子中的信息,接下来采用最大池化层对卷积后得到的若干个一维向量取最大值,然后拼接在一块,作为本层的输出值,最终在全连接层采用softmax进行分类,输入是池化后的向量,输出维度是3,表示教育、工作和其他这三个类别,并且为了防止过拟合,引入一个L2正则和dropout。

第四步,采用多元标注策略对文本中的数据进行标注,以生成数据集,即设置多元标签层,根据每段经历对每个token给出其所有标签,然后将这些标签层进行合并,最终按照7:1.5:1.5的比例进行分割,生成训练集、验证集和测试集。

第五步,训练基于BERT-Bi-LSTM-CRF结构化信息抽取模型,具体实施时,可以采用BERT-Bi-LSTM-CRF模型进行序列标注,输入的是wordPiece tokenizer得到的tokenid,进入Bert预训练模型抽取丰富的文本特征得到batch_size*max_seq_len*emb_size的输出向量,利用Bi-LSTM提取实体识别所需的特征,得到batch_size*max_seq_len*(2*hidden_size)的向量,经过全连接层后最终进入CRF层进行解码,计算最优的标注序列。

第六步,预测多标签序列标注的结果,转化数据格式为结构化的数据,实现每段经历进行一一对应,预测各段经历的结果进行评测。

为了实现上述实施例,本申请还提出了一种基于多元标注策略的结构化信息抽取装置。

图7为本申请实施例所提出的一种基于多元标注策略的结构化信息抽取装置的结构示意图。

如图7所示,该基于多元标注策略的结构化信息抽取装置包括主页生成模块100、日期生成模块200、语句分类模块300、多元标注模块400、模型训练模块500、预测模块600。

其中,主页生成模块100,用于获取学者的主页,并对主页进行清洗处理和分句处理。

日期生成模块200,用于通过正则表达式匹配每个句子,以获取主页中不同格式的日期,并将每个日期的格式转化为预设的日期格式。

语句分类模块300,用于通过预设的短文本分类模型对每个句子进行分类,筛选出表示学者的教育或工作经历的文本。

多元标注模块400,用于通过基于多元标注策略对文本进行多标签序列标注,以获得标签数据集,并将标签数据集按预设比例分割为训练集、验证集、测试集。

模型训练模块500,用于通过基于训练集中的数据训练基于转换器的双向编码表征-双向长短记忆网络-条件随机场BERT-Bi-LSTM-CRF模型。

预测模块600,用于通过训练完成的BERT-Bi-LSTM-CRF模型预测多标签序列标注的结果,并评测BERT-Bi-LSTM-CRF模型的预测效果。

可选地,在本申请的一个实施例中,主页生成模块100,具体用于:将主页的页面语言转换为轻量级标记语言Markdown;将主页中的非ASCII字符转换为统一码Unicode字符,并删除非法字符;对主页中的每个字符的字体和大小写进行转换;对主页进行分句处理,包括:通过预设的工具包将主页中的内容划分为多个句子。

可选地,在本申请的一个实施例中,语句分类模块300,具体用于:将每个句子中的每个字映射成预设维度的向量;通过不同的卷积核尺寸分别对每个句子进行卷积处理,以获得多个一维列向量;在每个一维列向量中取最大值,并拼接每个最大值,以获得池化后的向量;通过softmax函数对池化后的向量进行分类,确定每个句子所属的类别。

可选地,在本申请的一个实施例中,多元标注模块400,具体用于:通过BIO序列标注对文本中的每个字进行位置部分标注;对文本中的每个字进行实体类型部分标注;为每一段经历设置编号,并对文本中的每个字进行经历阶段部分标注。

可选地,在本申请的一个实施例中,模型训练模块500,具体用于:将训练集中的每个句子转换为字级别序列,并将每个字级别序列输入至BERT模型,生成基于上下文信息的第一尺寸的向量;将第一尺寸的向量输入至双向长短记忆网络Bi-LSTM中进行特征提取,输出第二尺寸的向量;将第二尺寸的向量经过全连接层后输入至条件随机场CRF模型进行解码,基于CRF模型输出的与字级别序列对应的标签序列的分数进行模型训练,并计算目标标注序列。

需要说明的是,在本申请的一个实施例中,CRF模型通过以下公式计算字级别序列对应的标签序列的分数:

其中,X表示字级别序列,y表示CRF模型对字级别序列进行预测后的标签序列,P

需要说明的是,模型训练模块500具体用于,在获取与字级别序列对应的标签序列的分数后,通过最大对数似然函数定义损失函数,利用梯度下降法训练BERT-Bi-LSTM-CRF模型,最大对数似然函数表示如下:

其中,p(y|X)表示每个标签序列为正确的标签序列的概率值,Y

其中,y

可选地,在本申请的一个实施例中,预测模块600,具体用于:计算微调后的训练模型生成的答案的精准率、召回率和综合评价值;根据精准率、召回率和综合评价值评测微调后的生成式训练模型;其中,通过以下公式计算精准率、召回率和综合评价值:

其中,

其中,P为精准率,R为召回率,F1为综合评价值,m为抽取的记录数,n为标注的记录数,k为标注数据中记录i的元素个数。

综上所述,本申请实施例的基于多元标注策略的结构化信息抽取装置,先爬取学者的主页,并对主页进行清洗处理和分句处理;通过正则表达式匹配并转化句子中不同格式的日期;通过预设的短文本分类模型筛选出表示学者的教育或工作经历的文本;基于多元标注策略对文本进行多标签序列标注,以获得标签数据集,并将标签数据集分割为训练集、验证集、测试集。基于训练集中的数据训练基于转换器的双向编码表征-双向长短记忆网络-条件随机场BERT-Bi-LSTM-CRF模型;通过训练完成的模型预测多标签序列标注的结果。该装置结合多元标注策略和深度学习网络模型对学者履历信息进行结构化抽取,不仅可以抽取学者的基本信息,而且解决了学者教育或工作的经历与时间线不匹配的问题,将学者的就读院校、专业、学位等信息与起止时间做一一对应,得到准确且结构化的数据,满足了实际场景的应用需求。

为了实现上述实施例,本发明还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本申请上述实施例所述的一种基于多元标注策略的结构化信息抽取方法。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,若在多个实施例或示例中采用了对上述术语的示意性表述,不代表这些实施例或示例是相同的。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。

应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。

此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号