首页> 中国专利> 网页简历页面的信息抽取方法和装置

网页简历页面的信息抽取方法和装置

摘要

本发明涉及一种网页简历页面的信息抽取方法、装置、计算机设备和存储介质,上述网页简历页面的信息抽取方法通过从网页简历页面提取简历文本信息,对各个简历文本信息进行中文分词,得到各个简历文本信息分别对应的一组单元词,设置用于描述个人简历的多个三元组,根据各组单元词确定各个简历文本信息的一组特征值向量,分别在各组特征值向量中提取各个三元组的内容,根据各个三元组的内容确定简历信息,以实现所需简历信息的准确提取,可以提高简历信息的抽取效率。

著录项

  • 公开/公告号CN112948536A

    专利类型发明专利

  • 公开/公告日2021-06-11

    原文格式PDF

  • 申请/专利权人 袭明科技(广东)有限公司;

    申请/专利号CN202011237959.9

  • 发明设计人 徐震宇;马军峰;张雅婷;蔡如昕;

    申请日2020-11-09

  • 分类号G06F16/33(20190101);G06F40/126(20200101);G06F40/211(20200101);G06F40/216(20200101);G06F40/242(20200101);G06F40/295(20200101);G06N3/04(20060101);G06N3/08(20060101);G06Q10/10(20120101);

  • 代理机构44456 广州市专注鱼专利代理有限公司;

  • 代理人凌霄汉

  • 地址 523808 广东省东莞市松山湖园区科汇路1号1栋1901室

  • 入库时间 2023-06-19 11:22:42

说明书

技术领域

本申请涉及信号处理技术领域,特别是涉及一种网页简历页面的信息抽取方法、装置、计算机设备和存储介质。

背景技术

在相关招聘网页平台,简历往往以网页界面的形式存在,从大量简历网页界面抽取所需信息是获取简历信息的一个重要途径。传统的方法往往是将简历网页界面的数据通过人工录入或者是简单的字符串匹配算法进行少量的信息提取,信息提取的速度较慢,效率不高,对很多人名的识别效果也不佳,导致信息抽取效果低下。而且由于是对简历网页数据的信息抽取,所以在命名体识别及关系构建上尤为关键。

从自然语言文本中获取结构化知识的研究,最早开始于20世纪60年代中期,这被看作是信息抽取技术的初始研究。从20世纪80年代末开始,信息抽取研究蓬勃开展起来,这主要得益于消息理解会议(MUC,Message Understanding Conference)的召开。正是MUC系列会议使信息抽取成为了自然语言处理领域的一个重要分支,并一直推动这一领域研究的发展。从1987年到1998年,MUC会议共举行了七届,他由美国国防高级研究计划委员会资助。MUC的显著特点不是该会议本身,而是发布了对信息抽取系统的评测,估计世界各国的研究人员参与其中。近些年,信息抽取技术的研究依然很活跃。在研究方面,主要侧重利用机器学习技术增加信息抽取系统的可移植能力、探索深层语义理解技术、篇章分析技术、多语言文本处理能力、WEB信息抽取以及对时间信息的处理等等。目前,除了信息抽取技术的应用需求外,正在推动该技术进一步发展的动力主要来自于美国国家标准技术研究所(NIST)组织的自动内容抽取(ACE)评测会议。这项评测从2000年开始启动,旨在开发自动内容抽取技术以支持对三种不同来源的语言文本自动处理,这些文本分别属于普通文本、由语言识别ASR得到的文本,由光学字符识别OCR得到的文本,研究主要内容是自动抽取新闻预料中出现的实体、关系、事件等内容。与MUC相比,ACE会议不针对某个具体的领域或场景,采用基于漏报和误报的一套评价体系,还对系统跨文档处理能力进行评测。这一新的评测会议把信息抽取技术研究引向新的高度。

信息抽取的具体实现方法可以分为两类:基于规则的方法和基于统计的方法。基于规则的方法有一定局限性,如人工编织规则的过程较复杂、通过机器学习得到的规则效率偏低,系统移植性差等。基于统计的方法可以一定程度上弥补基于规则的缺陷,然而传统的信息抽取方案仍然存在抽取效率低的问题。

发明内容

基于此,有必要针对上述技术问题,提供一种能够提高简历信息抽取效率的网页简历页面的信息抽取方法、装置、计算机设备和存储介质。

一种网页简历页面的信息抽取方法,所述方法包括:

从网页简历页面提取简历文本信息,对各个简历文本信息进行中文分词,得到各个简历文本信息分别对应的一组单元词;

设置用于描述个人简历的多个三元组;所述三元组用于描述目标特征的主实体、客实体、以及主实体和客实体之间的关系;

根据各组单元词确定各个简历文本信息的一组特征值向量;

分别在各组特征值向量中提取各个三元组的内容,根据各个三元组的内容确定简历信息。

在一个实施例中,所述对各个简历文本信息进行中文分词包括

识别各个简历文本信息的命名体,得到各个简历文本信息分别对应的一组命名体;

采用jieba分词器根据各组命名体对各个简历文本信息进行中文分词,得到各个简历文本信息分别对应的一组单元词;

在一个实施例中,所述识别各个简历文本信息的命名体包括:

采用bert提取词向量提取各个简历文本信息分别对应的一组词;

采用BiLSTM网络识别各组词中各个词之间的关系;

采用CRF概率模型根据各组词中各个词之间的关系确定各组词的各个命名体。

在一个实施例中,所述采用jieba分词器根据各组命名体对各个简历文本信息进行中文分词,得到各个简历文本信息分别对应的一组单元词包括:

根据各组命名体生成各个trie树,并将每个单元词的出现次数转换为词频率,得到各个trie树中各个词的词频率;

根据各个trie树和各个trie树中各个词的词频率生成有向无环图,读取有向无环图的各个词,依次得到各个简历文本信息分别对应的一组单元词。

在一个实施例中,所述根据各组单元词确定各个简历文本信息的一组特征值向量包括:

将各组单元词输入Embedding层,得到各组单元词对应的字向量序列;

将各个字向量序列通过一个预先训练的Word2vec模型来提取对应的词向量序列,将词向量序列经过矩阵变换到与字向量序列一样的维度,并将变化后的词向量序列与字向量序列相加,得到特征值向量。

在一个实施例中,所述分别在各组特征值向量中提取各个三元组的内容包括:

根据特征值向量预测主实体的内容,将主实体的内容传入预先训练的三元组内容提取模型预测主实体的内容对应的客实体内容以及实体关系内容。

具体地,所述三元组内容提取模型的训练过程包括:

构建训练集和测试集;所述训练集包括多个训练样本,所述测试集包括多个测试样本,所述训练样本和测试样本均包括多个预先标志的三元组;

采用word2vec模型分别获取各个训练样本的词向量,得到各组训练向量,采用word2vec模型分别获取各个测试样本的词向量,得到各组测试向量;

将各组训练向量和各组训练向量对应的标注信息输入DGCNN网络进行训练,得到初始提取模型;

将各组测试向量输入初始提取模型,在所述初始提取模型针对各组测试向量提取得到的测试三元组与各组测试向量对应的标注信息一致时,根据初始提取模型当前的模型参数确定三元组内容提取模型。

一种网页简历页面的信息抽取装置,所述装置包括:

第一提取模块,用于从网页简历页面提取简历文本信息,对各个简历文本信息进行中文分词,得到各个简历文本信息分别对应的一组单元词;

设置模块,用于设置用于描述个人简历的多个三元组;所述三元组用于描述目标特征的主实体、客实体、以及主实体和客实体之间的关系;

确定模块,用于根据各组单元词确定各个简历文本信息的一组特征值向量;

第二提取模块,用于分别在各组特征值向量中提取各个三元组的内容,根据各个三元组的内容确定简历信息。

一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一实施例所述的网页简历页面的信息抽取方法。

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实施例所述的网页简历页面的信息抽取方法。

上述网页简历页面的信息抽取方法、装置、计算机设备和存储介质,通过从网页简历页面提取简历文本信息,对各个简历文本信息进行中文分词,得到各个简历文本信息分别对应的一组单元词,设置用于描述个人简历的多个三元组,根据各组单元词确定各个简历文本信息的一组特征值向量,分别在各组特征值向量中提取各个三元组的内容,根据各个三元组的内容确定简历信息,以实现所需简历信息的准确提取,可以提高简历信息的抽取效率。

附图说明

通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,并且相同或对应的标号表示相同或对应的部分,其中:

图1是一个实施例中网页简历页面的信息抽取方法的流程示意图;

图2是一个实施例中bert提取词向量的模型示意图;

图3是一个实施例中LSTM总体框架示意图;

图4是一个实施例中BILSTM的句子编码过程示意图;

图5是一个实施例的三元组内容提取模型示意图;

图6是一个实施例的DGCNN模型示意图;

图7为一个实施例中网页简历页面的信息抽取装置的结构框图;

图8为一个实施例中计算机设备的内部结构图。

具体实施方式

下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。

下面结合附图来详细描述本公开的具体实施方式。

在一个实施例中,如图1所示,提供了一种网页简历页面的信息抽取方法,包括以下步骤:

S10,从网页简历页面提取简历文本信息,对各个简历文本信息进行中文分词,得到各个简历文本信息分别对应的一组单元词。

S20,设置用于描述个人简历的多个三元组;所述三元组用于描述目标特征的主实体、客实体、以及主实体和客实体之间的关系。

上述三元组用于描述目标特征的主实体、客实体、以及主实体和客实体之间的关系,所设置的三元组用于描述个人简历的不同目标(如个人简历介绍的个人)特征,即一个三元组用于描述个人简历的一个特征,比如第一个三元组描述简历所介绍用户的出生地,第二个三元组描述简历所介绍用户的政治面貌,第三个三元组描述简历所介绍用户的工作经历等等。

S30,根据各组单元词确定各个简历文本信息的一组特征值向量。

S40,分别在各组特征值向量中提取各个三元组的内容,根据各个三元组的内容确定简历信息。

具体地,要对简历文本信息包括的简历数据信息做结构化提取,可以先把o(主实体和客实体之间的关系)、p(主实体和客实体之间的关系)的预测合并为一步,总的步骤只需要两步:先预测s(主实体),然后传入s来预测该s所对应的o及p。理论上,相关模型(三元组内容提取模型)只能抽取单一一个三元组,而为了处理可能由多个s、多个o甚至多个p的情况,全部使用“半指针-半标注”结构,并且在关系分类的时候可以使用sigmoid而不是softmax激活。经过这样的设计后,三元组内容提取模型可以非常简单高效地解码。

上述网页简历页面的信息抽取方法,通过从网页简历页面提取简历文本信息,对各个简历文本信息进行中文分词,得到各个简历文本信息分别对应的一组单元词,设置用于描述个人简历的多个三元组,根据各组单元词确定各个简历文本信息的一组特征值向量,分别在各组特征值向量中提取各个三元组的内容,根据各个三元组的内容确定简历信息,以实现所需简历信息的准确提取,可以提高简历信息的抽取效率。

在一个实施例中,所述对各个简历文本信息进行中文分词包括

识别各个简历文本信息的命名体,得到各个简历文本信息分别对应的一组命名体;

采用jieba分词器根据各组命名体对各个简历文本信息进行中文分词,得到各个简历文本信息分别对应的一组单元词;

具体地,简历文本信息中往往包含人名,地名,相关特征表述等内容。如何在这些信息中识别这些内容成为关键。上述步骤可以采用bert+BILSTM+CRF的命名体识别方法。bert是谷歌开源的语言模型,在2018年底在NLP领域横扫了11项任务的最优结果,将其在中文命名实体识别中Fine-tune必然成为趋势。它主要是使用bert模型替换了原来网络的word2vec部分,从而构成Embedding层,同样使用双向LSTM层以及最后的CRF层来完成相应序列预测。对比其他的传统命名体识别方法,采用该技术的文本的命名体识别方法,能够更为准确且快速的识别出人名,地名等网页简历信息中的关键信息。在得到各个简历文本信息分别对应的一组命名体后,要进行相应中文分词才能更好的分析这些内容,上述步骤可以采用开源工具jieba分词结合上一步的命名体实体来进行分词。

在一个示例中,所述识别各个简历文本信息的命名体包括:

采用bert提取词向量提取各个简历文本信息分别对应的一组词;

采用BiLSTM网络识别各组词中各个词之间的关系;

采用CRF概率模型根据各组词中各个词之间的关系确定各组词的各个命名体。

具体地,上述bert提取词向量是基于Transformer的双向语言模型。同样,BERT采用Fine-Tuning,Approaches”预训练模式,分两个阶段:第一阶段采用双层双向Transformer模型通过MLM和NSP两种策略进行预训练;第二阶段采用Fine-Tuning的模式应用到下游任务。其中Transformer,这一特征提取器,由Nx个完全一样的layer组成,每个layer有2个sub-layer,分别是:Multi-Head,Self-Attention机制、Position-Wise全连接前向神经网络。对于每个sub-layer,都添加了2个操作:残差连接Residual,Connection和归一化Normalization,用公式来表示sub-layer的输出结果就是LayerNorm(x+Sublayer(x))。对于语言模型,为了模型能够更加准确地判断,需要对输入的文本提取出关键且重要的信息。对输入文本的每个单词赋予不同的权重,携带关键重要信息的单词偏向性地赋予更高的权重。抽象来说,即是:对于输入Input,有相应的向量query和key-value对,通过计算query和key关系的function,赋予每个value不同的权重,最终得到一个正确的向量输出Output。在Transformer编码器里,应用了两个Attention单元:Scaled,Dot-Product,Attention和Multi-Head,Attention。其中Self-Attention机制是在该单元实现的。对于输入Input,通过线性变换得到Q、K、V,然后将Q和K通过Dot-Product相乘计算,得到输入Input中词与词之间的依赖关系,再通过尺度变换Scale、掩码Mask和Softmax操作,得到Self-Attention矩阵,最后跟V进行Dot-Product相乘计算。Multi-Head,Attention通过h个不同线性变换,将d_model维的Q、K、V分别映射成d_k、d_k、d_v维,并行应用Self-Attention机制,得到h个d_v维的输出,进行拼接计算Concat、线性变换Linear操作。在一个示例中bert提取词向量对应的模型可以参考图2所示。

具体地,BiLSTM是Bi-directional Long,Short-Term,Memory的缩写,是由前向LSTM与后向LSTM组合而成。LSTM(长短期神经网络),属于RNN(循环神经网络)的一种。参考图3所示,LSTM模型是由t时刻的输入词X

具体地,CRF(conditional,random,fields,条件随机域场)是一种判别式概率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。条件随机场是条件概率分布模型,P(Y|X)表示的是给定一组输入随机变量X的条件下另一组输出随机变量,Y的马尔可夫随机场,也就是说,CRF的特点是假设输出随机变量构成马尔可夫随机场。条件随机场可被看作是最大熵马尔可夫模型在标注问题上的推广。如同马尔可夫随机场,条件随机场为具有无向的图模型,图中的顶点代表随机变量,顶点间的连线代表随机变量间的相依关系,在条件随机场中,随机变量Y的分布为条件机率,给定的观察值则为随机变量X。原则上,条件随机场的图模型布局是可以任意给定的,一般常用的布局是链结式的架构,链结式架构不论在训练(training)、推论(inference)、或是解码(decoding)上,都存在效率较高的算法可供演算。条件随机场是一个典型的判别式模型,其联合概率可以写成若干势函数联乘的形式,其中最常用的是线性链条件随机场。

在一个示例中,所述采用jieba分词器根据各组命名体对各个简历文本信息进行中文分词,得到各个简历文本信息分别对应的一组单元词包括:

根据各组命名体生成各个trie树,并将每个单元词的出现次数转换为词频率,得到各个trie树中各个词的词频率;

根据各个trie树和各个trie树中各个词的词频率生成有向无环图,读取有向无环图的各个词,依次得到各个简历文本信息分别对应的一组单元词。

具体地,jieba分词基本的过程为:基于Trie树(字典树)结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)。根据字典文件生成trie树。字典在生成trie树的同时,也把每个词的出现次数转换为了频率;对待分词句子,根据字典文件生成的trie树,生成DAG,实际上通俗的说,就是对待分词句子,根据给定的词典进行查词典操作,生成几种可能的句子切分。jieba在DAG中记录的是句子中某个词的开始位置,从0到n-1(n为句子的长度),每个开始位置作为字典的键,value是个list,其中保存了可能的词语的结束位置(通过查字典得到词,开始位置+词语的长度得到结束位置)。采用了动态规划查找最大概率路径,找出基于词频的最大切分组合。查找待分词句子中已经切分好的词语,对该词语查找该词语出现的频率(次数/总数),如果没有该词,就把词典中出现频率最小的那个词语的频率作为该词的频率,也就是说P(某词语)=FREQ.get(‘某词语’,min_freq)。根据动态规划查找最大概率路径的方法,对句子从右往左反向计算最大概率,P(NodeN)=1.0,P(NodeN-1)=P(NodeN)*Max(P(倒数第一个词))…依次类推,最后得到最大概率路径,得到最大概率的切分组合。

在一个实施例中,所述根据各组单元词确定各个简历文本信息的一组特征值向量包括:

将各组单元词输入Embedding(嵌入)层,得到各组单元词对应的字向量序列;

将各个字向量序列通过一个预先训练的word2vec模型来提取对应的词向量序列,将词向量序列经过矩阵变换到与字向量序列一样的维度,并将变化后的词向量序列与字向量序列相加,得到特征值向量。

具体地,上述word2vec模型可以预先训练,比如可以从相关语义库中找到1000万条百度百科词条(给出语义,也就是字与字,词与词的关系)。通过这1000万条百度百科词条进行word2vec(skip-gram+负采样)特征向量提取模型的构建,以实现对word2vec模型的训练。在一个示例中,Word2vec模型的简介包括:word2vec即词向量,就是一个词用一个向量来表示。word2vec模型是2013年Google提出的。word2vec工具主要包含两个模型:跳字模型(skip-gram)和连续词袋模型(continuous bag of words,简称CBOW),以及两种高效训练的方法:负采样(negative sampling)和层序softmax(hierarchical softmax)。word2vec词向量可以较好地表达不同词之间的相似和类比关系。word2vec是一个NLP工具,它可以将所有的词向量化,这样词与词之间就可以定量的去度量他们之间的关系,挖掘词之间的联系。其中NLP(自然语言处理)里面,最细粒度的是词语,词语组成句子,句子再组成段落、篇章、文档。所以处理NLP的问题,首先要先处理词语。词语,是人类的抽象总结,是符号形式的(比如中文、英文、拉丁文等等),所以需要把他们转换成数值形式,或者说嵌入到一个数学空间里,这种嵌入方式,就叫词嵌入(word embedding),而word2vec,就是词嵌入(wordembedding)的一种。简单点来说就是把一个词语转换成对应向量的表达形式,来让机器读取数据。

本实施例可以对非机构化信息提取特征值,其主要采取字词混合Embedding和Position,Embedding的方法。为了最大程度上避免边界切分出错,我们应当选择字标注的方式,即以字为基本单位进行输入。不过,单纯的字Embedding难以储存有效的语义信息,换句话说,单个字基本上是没有语义的,更为有效地融入语义信息的方案应该是“字词混合Embedding”。首先,输入以字为单位的文本序列,经过一个字Embedding层后得到字向量序列;然后将文本分词,通过一个预训练好的word2vec模型来提取对应的词向量,为了得到跟字向量对齐的词向量序列,可以将每个词的词向量重复“词的字数”那么多次;得到对齐的词向量序列后,将词向量序列经过一个矩阵变换到跟字向量一样的维度,并将两者相加。这里用1000万条百度百科词条训练了一个word2vec模型(Skip,Gram,+,负采样),而字向量则使用随机初始化的字Embedding层,在模型训练过程中,固定word2vec词向量不变,只优化变换矩阵和字向量,从另一个角度看也可以认为是通过字向量和变换矩阵对Word2Vec的词向量进行微调。这样一来,既融合了预训练词向量模型所带来的先验语义信息,又保留了字向量的灵活性。

进一步地,本次word2vec模型采用可优化的Position,Embedding。具体做法是设定一个最大长度为512(印象中所有样本的句子长度不超过300),然后全零初始化一个新的Embedding层(维度跟字向量维度一样),传入位置ID后输出对应的Position,Embedding,并把这个Position,Embedding加到前面的字词混合Embedding中,作为完整的Embedding结果,传入到下述DGCNN(Dilate Gated Convolutional Neural Network,膨胀门卷积神经网络)编码中。模型另一处用到了Position,Embedding是在编码s(主实体)的时候,采样得到的s经过BiLSTM进行编码后,得到一个固定大小的向量,然后我们将它复制拼接到原来的编码序列中,作为预测o(客实体)、p(主实体和客实体之间的关系)的条件之一。不过考虑到o更可能是s附近的词,所以笔者并非直接统一复制,而是复制同时还加上了当前位置相对于s所谓位置的“相对位置向量”,它跟开头的输入共用同一个Embedding层。

进一步地,本实施例可以针对简历文本信息设置用于描述个人简历的三元组,上述三元组用于描述目标特征的主实体、客实体、以及主实体和客实体之间的关系,所设置的三元组用于描述个人简历的不同目标(如个人简历介绍的个人)特征,即一个三元组用于描述个人简历的一个特征,比如第一个三元组描述简历所介绍用户的出生地,第二个三元组描述简历所介绍用户的政治面貌,第三个三元组描述简历所介绍用户的工作经历等等。在具体设置过程中,要对简历进行多维度信息提取,首先就是要确定要抽取的结构化信息,这里用三元组的形式来表达这种结构化信息。输入一个句子,然后输出该句子包含的所有三元组。其中三元组是(s,p,o)的形式,它的s是subject,即主实体,为query中的一个片段;而o是object,即客实体,也是query中的一个片段;而p是predicate,即两个实体之间的关系。总的来说,(s,p,o)可以理解的“s的p是o”。下文以抽取10组三元组信息为例进行举例说明。抽取10组三元组信息分别可以包括:

实体:人物,关系:籍贯,实体:地点

实体:人物,关系:最高学历/学位,实体:学历学位信息

实体:人物,关系:研究方向,实体:论文方向/研究成果/研究方向/专业名称

实体:人物,关系:工作单位,实体:企业/学校/医院

实体:人物,关系:年龄,实体:出生年月/年龄

实体:人物,关系:性别,实体:男/女、他/她

实体:人物,关系:职称,实体:级别/职位

实体:人物,关系:简介,实体:其他信息

实体:人物,关系:热词,实体:关键词

实体:人物,关系:经历,实体:地点/单位

在一个实施例中,所述分别在各组特征值向量中提取各个三元组的内容包括:

根据特征值向量预测主实体的内容,将主实体的内容传入预先训练的三元组内容提取模型预测主实体的内容对应的客实体内容以及实体关系内容。

作为一个实施例,所述三元组内容提取模型的训练过程包括:

构建训练集和测试集;所述训练集包括多个训练样本,所述测试集包括多个测试样本,所述训练样本和测试样本均包括多个预先标志的三元组;

采用word2vec模型分别获取各个训练样本的词向量,得到各组训练向量,采用word2vec模型分别获取各个测试样本的词向量,得到各组测试向量;

将各组训练向量和各组训练向量对应的标注信息输入DGCNN网络(Dilate GatedConvolutional Neural Network,膨胀门卷积神经网络)进行训练,得到初始提取模型;

将各组测试向量输入初始提取模型,在所述初始提取模型针对各组测试向量提取得到的测试三元组与各组测试向量对应的标注信息一致时,根据初始提取模型当前的模型参数确定三元组内容提取模型。

具体地,本实施例可以从已经确定为简历的文本中进行三元组的标注,如进行500个简历的数据标注(分别针对各个简历标注设置的各个三元组),将标注后的简历划分为训练集和测试集,运用DGCNN+word2vec模型的信息提取算法对训练集的数据进行信息提取,并调整模型参数,将调整后的DGCNN+word2vec模型进行测试集的信息提取,得到器信息抽取的性能参数,以确定所需的三元组内容提取模型。

在一个示例中,为了保证效率,三元组内容提取模型可以使用CNN+Attention的结构,相应的模型可以参考图5所示。图5所示模型的处理流程为:输入字id序列,然后通过字词混合Embedding(具体的混合方式后面再介绍)得到对应的字向量序列,然后加上Position Embedding;将得到“字-词-位置Embedding”输入到12层DGCNN中进行编码,得到编码后的序列(记为HH);将HH传入一层SelfAttention后,将输出结果与先验特征进行拼接(先验特征可加可不加,构建方式后面再详细介绍);将拼接后的结果传入CNN、Dense,用“半指针-半标注”结构预测s的首、尾位置;训练时随机采样一个标注的s(预测时逐一遍历所有的s),然后将HH对应此s的子序列传入到一个双向LSTM中,得到s的编码向量,然后加上相对位置的Position Embedding,得到一个与输入序列等长的向量序列;将HH传入另一层SelfAttention后,将输出结果与第5步输出的向量序列、先验特征进行拼接(先验特征可加可不加,构建方式后面再详细介绍);将拼接后的结果传入CNN、Dense,对于每一种p,都构建一个“半指针-半标注”结构来预测对应的o的首、尾位置,这样就同时把o、p都预测出来了。模型采用的卷积结构为DGCNN即膨胀卷积门。假设我们要处理的向量序列是X=[x1,x2,…,xn]X=[x1,x2,…,xn],那么可以给普通的一维卷积加个门:

在一个示例中,上述DGCNN模型可以参考图6所示,DGCNN模型除了有直观的意义外,用GCNN的一个好处是梯度消失的风险更低,因为有一个卷积是不加任意激活函数的,没加激活函数的这部分卷积不容易梯度消失。如果输入和输出的维度大小一致,那么就把输入也加到里边,即使用残差结构:

上述网页简历页面的信息抽取方法具有如下有益效果:

(1)对比其他的传统命名体识别方法,采用该技术的文本的命名体识别方法,能够更为准确且快速的识别出人名,地名等网页简历信息中的关键信息。

(2)对比其他的网页简历信息抽取方法,采用三元组的方法进行信息抽取,更为有效。

(3)采用了bert+DGCNN的方法进行了网页简历信息抽取三元组,准确率和精确率都较为优秀。

在一个实施例中,如图7所示,提供了一种网页简历页面的信息抽取装置,包括:

第一提取模块10,用于从网页简历页面提取简历文本信息,对各个简历文本信息进行中文分词,得到各个简历文本信息分别对应的一组单元词;

设置模块20,用于设置用于描述个人简历的多个三元组;所述三元组用于描述目标特征的主实体、客实体、以及主实体和客实体之间的关系;

确定模块30,用于根据各组单元词确定各个简历文本信息的一组特征值向量;

第二提取模块40,用于分别在各组特征值向量中提取各个三元组的内容,根据各个三元组的内容确定简历信息。

关于网页简历页面的信息抽取装置的具体限定可以参见上文中对于网页简历页面的信息抽取方法的限定,在此不再赘述。上述网页简历页面的信息抽取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种网页简历页面的信息抽取方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一实施例所述的网页简历页面的信息抽取方法。

在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实施例所述的网页简历页面的信息抽取方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

在本说明书的上述描述中,除非另有明确的规定和限定,术语“固定”、“安装”、“相连”或“连接”等术语应该做广义的理解。例如,就术语“连接”来说,其可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,或者可以是两个元件内部的连通或两个元件的相互作用关系。因此,除非本说明书另有明确的限定,本领域技术人员可以根据具体情况理解上述术语在本发明中的具体含义。

根据本说明书的上述描述,本领域技术人员还可以理解如下使用的术语,例如“上”、“下”、“前”、“后”、“左”、“右”、“长度”、“宽度”、“厚度”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“轴向”、“径向”、“周向”、“中心”、“纵向”、“横向”、“顺时针”或“逆时针”等指示方位或位置关系的术语是基于本说明书的附图所示的方位或位置关系的,其仅是为了便于阐述本发明的方案和简化描述的目的,而不是明示或暗示所涉及的装置或元件必须要具有所述特定的方位、以特定的方位来构造和进行操作,因此上述的方位或位置关系术语不能被理解或解释为对本发明方案的限制。

另外,本说明书中所使用的术语“第一”或“第二”等用于指代编号或序数的术语仅用于描述目的,而不能理解为明示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”或“第二”的特征可以明示或者隐含地包括至少一个该特征。在本说明书的描述中,“多个”的含义是至少两个,例如两个,三个或更多个等,除非另有明确具体的限定。

虽然本说明书已经示出和描述了本发明的多个实施例,但对于本领域技术人员显而易见的是,这样的实施例只是以示例的方式提供的。本领域技术人员会在不偏离本发明思想和精神的情况下想到许多更改、改变和替代的方式。应当理解的是在实践本发明的过程中,可以采用对本文所描述的本发明实施例的各种替代方案。所附权利要求书旨在限定本发明的保护范围,并因此覆盖这些权利要求范围内的模块组成、等同或替代方案。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号