首页> 中国专利> 一种基于信息熵和术语可信度的金融领域术语识别方法

一种基于信息熵和术语可信度的金融领域术语识别方法

摘要

本发明提出了一种基于信息熵和术语可信度的金融领域术语识别方法。本发明仅选择简单的特征,用CRF模型识别金融术语;在识别结果中根据基于边缘概率的信息熵公式,通过设定阈值筛选出属于特定错误类型的候选术语,对候选术语的处理更有针对性;过滤候选术语时将词转换为蕴含丰富语义信息的词向量,通过计算相似度与传统的互信息方法互为补充,可过滤得到大量的金融领域术语。利用本发明能有效避免现有机器学习模型过于繁琐的特征选择过程,后处理部分灵活而不局限于特定语料,不但有利于提高召回率,还能够提高术语结构的完整性,可作为通用的术语识别方法。

著录项

  • 公开/公告号CN106095753A

    专利类型发明专利

  • 公开/公告日2016-11-09

    原文格式PDF

  • 申请/专利权人 大连理工大学;

    申请/专利号CN201610404892.0

  • 发明设计人 黄德根;梁晨;

    申请日2016-06-07

  • 分类号G06F17/27(20060101);

  • 代理机构21200 大连理工大学专利中心;

  • 代理人温福雪;李宝元

  • 地址 116024 辽宁省大连市甘井子区凌工路2号

  • 入库时间 2023-06-19 00:49:26

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-05-17

    未缴年费专利权终止 IPC(主分类):G06F17/27 专利号:ZL2016104048920 申请日:20160607 授权公告日:20181106

    专利权的终止

  • 2018-11-06

    授权

    授权

  • 2016-12-07

    实质审查的生效 IPC(主分类):G06F17/27 申请日:20160607

    实质审查的生效

  • 2016-11-09

    公开

    公开

说明书

技术领域

本发明涉及自然语言领域处理、文本挖掘、信息处理及命名实体识别等领域,专注于术语识别的问题,提出一种基于信息熵和术语可信度的金融领域术语识别方法。该方法有效地提高了召回率和术语结构的完整性,可作为通用的术语识别方法。

背景技术

随着市场经济的深入发展,金融在社会生活中的地位日益突出,金融已然成为经济运行最重要的战略资源和区域经济发展的强力助推器。金融领域相比于其他领域术语更替速度更快,快速识别金融术语对金融领域的文本挖掘、信息抽取、舆情分析等任务有很高的应用价值。

术语是表达特定领域学科的基本概念的语言单元,是相对固定的词或词组。术语具有相对完整的结构和语义。术语识别是命名实体研究的一个子领域,是信息处理领域的基础研究任务之一,国内外许多研究学者都对领域术语识别进行了深入研究。主要的方法有三类:基于语言学规则的方法、基于统计的方法和统计与规则相结合的方法。

基于语言学规则的方法主要是根据现有的语言学知识和特定领域的术语构词特点制定规则模板,与之匹配的即为术语,这种方法便于理解且计算量少,可以获得较高的准确率,但过于局限于特定文本导致领域适应性差,近年来很少单独使用。

基于统计的方法通常是通过计算词组在文本中的分布统计属性来度量其领域性,根据统计量的组合变化完成术语抽取,常用的统计量有词频、信息熵、TF-IDF、互信息、对数似然比,C-value等。基于统计的方法的优点是可移植性强,不局限于某一领域,但由于这种方法大多是无监督的学习方法,所以抽取的精度不高。另外,这种方法需要大规模且高质量的语料库作支撑,语料规模过小或数据过于稀疏不足以获取高可信度的统计信息。

现在主流的方法是将统计与规则相结合,互相弥补不足,效果较好。这种方法一般将术语识别任务分为两个步骤:利用统计模型(或规则库)的方法从领域语料中获取候选术语;利用另一种方法过滤候选术语。常用的机器学习模型有隐马尔科夫模型、最大熵模型、条件随机场模型和神经网络模型等。这类模型将术语识别问题转化为序列标注问题,通常需要人工添加特征来拟合训练数据,而这些特征的选取和组合耗时耗力,过多特征还会使模型复杂度变高,导致过拟合现象。目前,采用这种方法的研究者们多数的重点都在对统计模型的运用上,后处理的规则选取不灵活,规则库多局限于领域语料,不具有通用性,因此如何减少人工干预并设计出具有通用性的规则库是目前术语识别亟待解决的问题。

发明内容

鉴于上述问题,本发明提出了一种基于信息熵和术语可信度的金融领域术语识别方法。该方法有两个优点:一是通过融合边缘概率与信息熵的筛选,获取了大量潜在的属于特定错误类型的候选术语,对候选术语的处理更有针对性;二是引入了基于词向量的相似度过滤候选术语,与传统的互信息方法互为补充,有利于提高召回率,并提高术语结构的完整性。

本发明的技术方案:

一种基于信息熵和术语可信度的金融领域术语识别方法,步骤如下:

(1)首先使用CRF模型初步识别出金融语料中的金融领域术语,选取的特征如下:

1)词和词性:由金融领域术语的特点可知,词和词性包含了术语本身的最大信息。

2)点式互信息:表示两个词的关联程度,是增加术语上下文信息的一种方式。pmif和pmir分别为当前词与左词、右词的点式互信息,其中wi代表当前词,wi-1代表wi的左词,wi+1代表wi的右词。为降低数据稀疏,对计算得到的浮点数取整处理。

pmif(wi-1,wi)=log2p(wi-1,wi)p(wi-1)×p(wi)---(1)

pmir(wi,wi+1)=log2p(wi,wi+1)p(wi)×p(wi+1)---(2)

(2)采用基于信息熵的术语可信度模型处理CRF的识别结果

1)根据识别结果中标签的边缘概率求信息熵,筛选出候选术语。

为方便查看序列标注的结果,采用BIO标记方法,即B为术语的首词,I为术语的中间和尾部,O为非术语。通过分析CRF的标注结果,得出6类术语标注错误:尾部缺失(术语尾部未识别)、尾部多余(术语尾部冗余)、头部缺失(术语头部未识别)、头部多余(术语头部未冗余)、整体缺失(术语整体未识别)和整体多余(术语整体冗余)。

在CRF的识别结果中,每个词均有为B、I、O三种标记以其对应的边缘概率,CRF将概率最大的标记作为最终的标注结果。如果某个词的边缘概率不具有明显的区分性,即该词的标记具有很大的不确定性,那么该词极有可能被错误标注。为了定量地观察这种标记的不确定性,提出了token标记信息熵。

某一个词W有3种可能的标记T1=B,T2=I,T3=O,对应的边缘概率为PB,PI,PO,且PB+PI+PO=1,W的token标记信息熵为H(W),如式(3)所示:

H(W)=Σi=B,I,O(-pilog2pi)---(3)

由信息熵原理可知,H(W)越大,则这个标记的不确定性越大。当H(W)≥α时,即认为这个词的标记是不确定的,应该作为候选术语进一步判断。其中α是H(W)的阈值,针对不确定的强度,分别有α1、α2、α3三个阈值,α1=0.92,α2=0.6,α3=0.5。

下面介绍token标记信息熵筛选算法(筛选“整体缺失”型的候选术语):

2)根据基于互信息和词向量相似度的术语可信度对候选术语进行过滤。

上述由token标记信息熵得到的候选术语集合中包含了一部分噪音(即本来标注正确的序列被列入待处理的候选术语集合),进一步过滤噪音是必要的,本发明利用术语可信度过滤候选术语。首先介绍术语可信度,根据候选术语词长的不同,分为以下两种情况:

ⅰ.当词长≥2时,设有候选术语片段A1A2,统计训练语料中以A1开始的术语片段A1Ci(i=1,2,3…)、以A2结尾的术语片段BjA2(j=1,2,3…),若A1A2满足以下任一条件,则称A1A2具有术语可信度。

①反向术语度:

②正向术语度:

③术语相似度:

其中pmi是求两个词的点式互信息,具体公式参考式(1)或(2);avg是求数据集合的平均值;max是求数据集合的最大值;cos是求两个词所对应的词向量的余弦距离,它反应了两个词的相似程度,余弦距离公式见式(4)(X,Y是单位化向量):

cos(X,Y)=Σi=1nXiYi---(4)

上述条件①和②分别从反向和正向计算术语词对之间的关联程度,判断是否大于或等于已知术语搭配的互信息平均值;而条件③则将词转换为词向量,具体考察了候选词与已知搭配词的相似度是否大于或等于已知搭配词之间的整体相似度。

ⅱ.当词长=1时,设有候选术语A,统计训练语料中词长为1的术语Dk(k=1,2,3…),如果满足式(5),则认为A具有术语可信度,其中β为阈值。

maxk=1,2,...{cos(A,Dk)}β---(5)

下面介绍基于术语可信度的候选术语过滤算法:

本发明的有益效果:本发明的金融领域术语识别方法能有效避免现有机器学习模型过于繁琐的特征选择过程,后处理部分灵活而不局限于特定语料,不但有利于提高召回率,还能够提高术语结构的完整性,可作为通用的术语识别方法。

附图说明

图1是金融领域术语的识别过程。

图2是阈值折线图。

具体实施方式

以下结合附图和技术方案,进一步说明本发明的具体实施方式。

1.选取CRF模型对金融语料进行序列标注,本发明选用的2014-2016年的1600篇新浪财经新闻,共有2百余万字,共提取到67152个金融术语(含重复),将这些语料以4:1进行训练和测试,采用五倍交叉实验的方法,使用分词工具Nihao进行分词和词性标注。词向量的训练工具是word2vec,选用Skip-Gram模型,训练语料为2014-2016年各大门户网站的财经新闻和金融报刊文本,共计8百余万词,令向量维度为100,词窗口大小为5。

2.通过分析CRF的标注结果,得出6类术语标注错误,下面举例说明:

3.针对术语可信度的条件“术语相似度”,对条件右侧的计算函数进行了探索,分别测试了取中位数(mid)、平均数(avg)和最大值(max)的不同情况,有关术语可信度3个条件的实验结果见下表,采取的评价指标有准确率、召回率和F值。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号