法律状态公告日
法律状态信息
法律状态
2019-11-01
授权
授权
2017-11-10
实质审查的生效 IPC(主分类):G06F17/30 申请日:20170510
实质审查的生效
2017-10-13
公开
公开
技术领域
本发明涉及计算机文本抽取技术,具体涉及一种基于因子图的金融公报文本知识提取方法。
背景技术
随着网络技术的不断发展,互联网上的信息量也在爆炸性的增长。据统计每天互联网上流通的信息量超过1000PB。如何从海量信息中快速有效的提取出需要的信息和知识,成为了非常重要的研究方向。随着互联网上一些大规模知识库在扮演着越来越重要的角色,知识库的构建工作也越来越成为研究高点,传统的文本知识抽取方法基于各领域专家的人工整合,已经无法处理如此大规模的信息抽取,因此基于机器学习的信息抽取方法成为了大数据时代的主流方法。
近几年来,基于机器学习的文本挖掘算法逐步完善起来,各大互联网公司出现了一些实用的技术和相关产品,例如google通过多种提取技术融合构建了超大规模的Knowledge Vault,它可以自主学习互联网上网页、图表、文本等多种来源的数据从而生成知识库。但是相关领域一些开源的实用文本知识提取方法还非常少见,尤其是面向中文文本的工具更是十分缺乏。另一方面,因子图模型具有很强的计算和表达能力,能在概率推理过程中表达各种模型,例如贝叶斯网络、无向图等,近几年来在信息抽取方面取得了很好的效果,不仅在多个垂直领域得到广泛应用,同时也在各种英文信息抽取竞赛中取得了很好的成绩。因此可以考虑借助因子图模型来完成中文文本知识的抽取。而金融公报中包含了很多有意义的知识信息,这些结构化的信息对于金融人员进行金融数据的分析有着非常重要的作用,如何使用一种自动化的知识提取方法对于实现金融智能有着重大的意义。
发明内容
鉴于上述,本发明提供了一种基于因子图的金融公报文本知识提取方法,用于提取金融公报中的有关股权交易相关的知识。
一种基于因子图的金融公报文本知识提取方法,包括以下步骤:
(1)从金融数据库上获取满足预设特定关系的文本数据,并对这些文本数据进行预处理,得到预处理数据A;
(2)以预处理数据A作为弱监督学习的正样本,以通过负抽样方法建立的数据作为弱监督学习的负样本,进行弱监督学习,得到数据A1;
(3)对数据A1进行候选实体(mention)识别,构建得到候选实体对集B1;
(4)建立一个正则表达式,并根据正则表达式在金融公报文本中匹配得到满足特定预设关系的文本数据,并对该些文本数据进行预处理,得到候选实体对集B2;
(5)分别对候选实体对集B1、B2中候选实体对的进行特征提取,得到候选实体对集B1的特征向量集C1与候选实体对集B2的特征向量集C2,并将特征向量集C1、C2存储到数据库中;
(6)将数据库中的特征向量集C1、C2作为因子图模型的输入,以候选实体对集B1、B2中候选实体对对应的标记值作为因子图模型的真值标签,以目标函数y最大为目标,对因子图模型进行训练,得到金融文本知识抽取模型;
(7)将预测样本输入至金融文本知识抽取模型中,将输出概率值大于阈值的实体对作为抽取结果。
本发明采用弱监督学习与正则表达式联合标记因子图模型训练样本的方法,可以有效地解决文本知识抽取任务中标记样本不足的问题,从而大大提升方法的应用范围。
步骤(1)中与步骤(4)中,所述的对文本数据进行预处理的具体过程为:采用Stanford Corenlp或jieba工具对文本数据进行分词、词性标注、命名实体标注以及语法依赖处理。Stanford Corenlp处理功能强大,能够快速准确地实现对文本数据的处理。
步骤(2)中,所述的数据A1中既包含对正样本弱监督学习得到的数据,又包含对负样本监督学习得到的数据。弱监督学习的方法,可以有效地扩大样本数据的数量,进而提升因子图模型训练的准确度。
所述步骤(3)的具体步骤为:
首先,从数据A1中识别候选实体,排除错误和无意义的候选实体;
然后,对相同意义的候选实体做实体连接,将候选实体两两组合为候选实体对;
最后,去除重复和无意义的候选实体对,形成候选实体对集B1。
步骤(3)中,所述候选实体识别采用了传统命名实体识别、正则表达式过滤方法结合的方式,这可以提高候选实体识别的准确率。此处的正则表达式过滤方法主要是针对以下传统命名实体识别面临的错误情况,例如:
非英文字母和汉字字符的候选实体,错误标记,如2015年XX有限公司;错误识别的组织机构,不是上市公司,如上海证券所,美国加州等;一长串识别成整个候选实体,如A与B与C公司;文本中的简称和训练数据的全称不能对应。
本发明针对每一条文本都进行相应的修改,建立正则表达式过滤掉非法字符的候选实体和包含证券所、商务部等非公司词汇的候选实体,限制候选实体长度,建立词典链接公司的简称和全称,并去掉候选实体中公司、股份等词,进行两个候选实体的相似度比较,进一步做实体链接算法。
步骤(4)中,建立的正则表达式视为了获得更多的训练样本,利用正则表达式标记同一种关系。例如:“A收购B的股权”、“A购买B的股份”都是描述的同一种关系。本发明设计了一组相应的匹配表达式,实体对之间最终的Label取决于每项label的和。此处的求和是指训练文本中对实体对之间是否存在关系“股权交易”的标记进行求和,例如本文中出现了“A收购B的股权”或者“A购买B的股份”,则判定为正例,label加1,这对应了本发明设计的正则表达式方法。
步骤(5)中,所述的特征提取为提取实体对句子之间词语序列,包括完整的词语序列、指定window的词语序列,具体为
提取实体对句子之间词语序列的NER序列;
提取实体对句子之间词语序列的POS序列;
提取词典中的特征词序列;
提取实体对左右两侧window的词语序列;
提取实体对句子两侧词语序列的NER序列;
提取实体对句子两侧词语序列的POS序列。
步骤(6)中,在训练因子图模型的过程中,根据训练样本的数据特征采用速度下降方法改变因子图模型的权重,进而得到能够刻画训练样本数据的模型。该模型的训练过程为:
确定随机变量和实体的对应关系,构建user schema;
确定随机变量和函数的对应关系,构建relation schema;
随机初始化随机变量值,通过概率推导得到可能的概率分布;
通过迭代修改的方法提升模型的精度,最后得出最后的因子图模型。
步骤(6)中,所述的目标函数y为:
其中:
gj=wjf(σ(v1),σ(v2),…,σ(vaj))
σ(v1)表示因子图变量v1的概率值,σ(vaj)表示因子图变量vaj的概率值,aj表示为与第j个变量有相关性的随机变量的数目,f(·)表示因子图各随机变量之间的相关性表,wj表示f(·)的实数权重,Z[I]表示一个区分函数,I表示可能的一种结果假设;Ie表示多种可能的结果假设组成的可能世界;fi∈f表示一个随机变量以特定方式和其他变量的相关性。
本发明方法使用具备复杂关系建模能力的因子图模型来进行关系学习和训练,并设计了多种不同的文本特征来表达关系的上下文,此外,本发明采用基于弱监督和正则表达式的方法来进行数据的标记,可以有效的克服样本数据不足的缺陷。
附图说明
图1是本发明基于因子图的金融公报文本知识提取方法的流程图;
图2是本发明基于正则表达式获取的训练样本的示意图;
图3是本发明中对数据进行特征提取后文本特征表示图。
具体实施方式
为了更为具体地描述本发明,下面结合附图及具体实施方式对本发明的技术方案进行详细说明。
本实施例中预设特定关系为公司之间持股或收购关系。
参见图1,本实施例基于因子图的金融公报文本知识提取方法,包括以下步骤:
S01,从金融数据服务商上获取满足公司之间持股或收购关系的文本数据,并对这些文本数据进行预处理,得到预处理数据A。
本步骤中,采用Stanford Corenlp对文本数据进行分词、词性标注、命名实体标注以及语法依赖处理。Stanford Corenlp处理功能强大,能够快速准确地实现对文本数据的处理。
S02,以预处理数据A作为弱监督学习的正样本,以通过负抽样方法建立的数据作为弱监督学习的负样本,进行基于bootstrapping的弱监督学习,得到数据A1。
本步骤中,数据A1中既包含对正样本弱监督学习得到的数据,又包含对负样本监督学习得到的数据。弱监督学习的方法,可以有效地扩大样本数据的数量,进而提升因子图模型训练的准确度。
S03,对数据A1进行候选实体识别,构建得到候选实体对集B1。
S03的具体过程为:
首先,从数据A1中识别候选实体,排除错误和无意义的候选实体,得到如表1所示的候选实体;
然后,对相同意义的候选实体做实体连接,将候选实体两两组合为候选实体对,如表2所示;
最后,去除重复和无意义的候选实体对,形成候选实体对集B1。
表1
表1
S04,如图2所示,建立一个正则表达式,并根据正则表达式在金融公报文本中匹配得到公司之间持股或收购关系的文本数据,并对该些文本数据进行预处理,得到候选实体对集B2。
本步骤中,对文本进行预处理的过程为:采用Stanford Corenlp对文本数据进行分词、词性标注、命名实体标注以及语法依赖处理。
S05,分别对候选实体对集B1、B2中候选实体对的进行特征提取,得到候选实体对集B1的特征向量集C1与候选实体对集B2的特征向量集C2,并将特征向量集C1、C2存储到数据库中;
由于自然语言表达的多样性,文本特征一般没有指定的属性,我们需要总结不同句子的语法结构、中间词汇等来计算这部分特征。本步骤中,所述的特征提取为:
1)对于实体对之间的句段,提取完整的词语序列、NER序列、POS序列
2)对于实体对之间的句段,提取指定从0到最大窗WINDOW的所有词语片段
3)实体对前后窗口的词段
4)建立特征词典,判断实体对之间的词段中是否含有这些特征词
5)对于实体对依赖的语法结构,从mention开始,遍历原文本生成的语法树,提取相应的语法依赖项的词语序列、POS序列和词语POS的混合序列。最终提取得到的文本特征如图3所示。
S06,将数据库中的特征向量集C1、C2作为因子图模型的输入,以候选实体对集B1、B2中候选实体对对应的标记值作为因子图模型的真值标签,以目标函数y最大为目标,对因子图模型进行训练,得到金融文本知识抽取模型;
本步骤中,目标函数y为:
其中:
gj=wjf(σ(v1),σ(v2),…,σ(vaj))
σ(v1)表示因子图变量v1的概率值,σ(vaj)表示因子图变量vaj的概率值,aj表示为与第j个变量有相关性的随机变量的数目,f(·)表示因子图各随机变量之间的相关性表,wj表示f(·)的实数权重,Z[I]表示一个区分函数,I表示可能的一种结果假设;Ie表示多种可能的结果假设组成的可能世界;fi∈f表示一个随机变量以特定方式和其他变量的相关性。
S07,将预测样本输入至金融文本知识抽取模型中,将输出概率值大于0.95的实体对作为抽取结果。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。
机译: 为语音到文本转换提供匿名和安全机制的新颖创新方法。本发明提供了一种通用且可扩展的隐私层,其利用了现有的基于云的自动语音识别(ASR)服务,并且可以适应新兴的语音到文本技术,例如自然语言处理(NLP),语音机器人和其他基于语音的人工语言。智能接口。本发明还允许在不牺牲法律,医学,金融和其他隐私敏感领域的情况下应用最新和最好的语音技术。
机译: 使用基于本体的文本挖掘进行非结构化数据的知识提取方法
机译: 基于本体的文本挖掘技术在非结构化数据中的知识提取方法