首页> 中国专利> 基于有向有权图发现新词的方法

基于有向有权图发现新词的方法

摘要

本发明公开一种基于有向有权图发现新词的方法,本发明通过分词开源工具对语料进行分词,对分词的结果进行停用词过滤;根据分词结果建立词之间的关联关系以及权重,生成有向有权图;采用边权重门限阀值对有向有权图的边进行筛选,保留语料中同现频率比较高的词项搭配;筛选有向权重图中的孤立点以及自环,生成子图;根据子图中相邻节点间的边权重以及节点强度建立假设检验模型,从子图中筛选出可能的新词;根据词性标注规则对可能的新词进行筛选,生成最终的新词。本发明能够从语料库中准确地发现新词,减少了人工维护新词库的工作量,具有很好的可用性。

著录项

  • 公开/公告号CN106202051A

    专利类型发明专利

  • 公开/公告日2016-12-07

    原文格式PDF

  • 申请/专利权人 华南理工大学;

    申请/专利号CN201610575404.2

  • 发明设计人 郭泽豪;王振宇;李风环;戴瑾如;

    申请日2016-07-19

  • 分类号G06F17/27;

  • 代理机构广州市华学知识产权代理有限公司;

  • 代理人罗观祥

  • 地址 510640 广东省广州市天河区五山路381号

  • 入库时间 2023-06-19 01:07:21

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-01-29

    授权

    授权

  • 2017-01-04

    实质审查的生效 IPC(主分类):G06F17/27 申请日:20160719

    实质审查的生效

  • 2016-12-07

    公开

    公开

说明书

技术领域

本发明涉及自然语言处理技术领域,特别涉及一种基于有向有权图发现新词的方法。

背景技术

新词发现作为自然语言处理领域的一项基础研究,深受学术界乃至企业界的关注。随着互联网以及各种社交媒体的发展,涌现了大量的新词,大量新词的出现使得现有的分词工具准确率下降,据统计,大约60%的分词错误是由于新词导致的。相比传统媒体,互联网媒体成为人们关注时事热点,发表观点的主要平台,互联网媒体(比如微博)传播速度迅速,传播群体广泛,与之涌现的新词也呈病毒传染的态势传播,其中如“马航”,“敬业福”,“微信收费”等,反映了民众的态度与看法。通过有效地发现新词,及时把握热点事件的关键词,对于热点事件发现以及热点事件预警监控具有重大的意义。

P2P借贷是新兴的一个金融服务行业,在美国,LeadingClub成立于2007年,目前已经是世界第一大借贷平台。P2P借贷行业作为新兴的行业,包含大量新词,同时更新频率快,其中如“羊毛党”,“微众银行”,“e租宝”,“跑路”等,这些新词反映了P2P借贷行业的发展,在该领域进行新词发现具有一定的挑战性。

在学术界,对于新词还没有一个明确的概念,在中文分词领域,有新词和未登录词两种概念,未登录词就是当前词库中“未登录”的词,新词属于未登录词的一种。目前新词发现的研究大体可以分为三种,其一是基于规则的方法,其二是基于统计的方法,其三是基于规则与统计相结合的方法。基于规则的方法准确率比较高,针对性强,但是维护规则的工作量比较大。基于统计的方法通过现有的分词工具对语料进行分词,根据分词结果进行统计从而发现新词,对语料的依赖性小,适应性比较强,然而准确率不高。基于规则与统计相结合的方法发挥了组合优势,目前大部分研究人员都采用规则与统计相结合的方法来发现新词。

综上,新词的涌现一般与事件热点的趋势是相适应的,有效地发现新词可以正确分析事件发展的脉络,以及有效地把握事件舆情动态,对于舆情预警监控具有重大的意义。新词发现一直是自然语言处理领域一项基础研究,目前对于新词发现已经有大量的研究。本发明根据P2P借贷资讯的内容,准确有效地发现新词,有效地把握P2P行业的热点,具有很好的可用性。

发明内容

本发明要解决的技术问题在于,提供一种基于有向有权图发现新词的方法,使更加准确地发现语料中的新词。

为解决上述技术问题,本发明提供如下技术方案:一种基于有向有权图发现新词的方法,包括以下步骤:

S1、获取语料,且采用分词开源工具对语料进行分词,过滤停用词;

S2、根据过滤后的分词结果,对滑动窗口范围内的词项建立有向边以及权重,根据有向边以及权重生成有向有权图;

S3、采用边权重门限阀值对有向有权图的边进行过滤,且保留语料中同现频率较高的词项搭配;

S4、根据过滤后的有向有权图,筛选有向有权图中的孤立点以及自环,生成有向有权图的子图;

S5、根据子图中相邻节点之间的边权重以及节点强度,验证该相邻节点是否属于新词搭配;

S6、根据词性标注规则对新词搭配进行筛选,生成最终的新词。

进一步地,所述步骤S1中的停用词包括语气词和标点符号。

进一步地,所述步骤S1中的分词结果,其表现形式为W=(W1,W2,...Wi...,Wn)以及T=(T1,T2,...Ti...,Tn),其中W表示词项集合,T表示词性集合。

进一步地,所述步骤S2中的有向有权图,其表现形式为G=<V,E>,其中V表示节点vi集合,所述词项搭配对应节点vi的标签属性,E表示有向边集合,所述词项搭配之间的同现关系组成所述有向边集合。

进一步地,所述步骤S2的具体方式为:

(5a)遍历有向有权图G=<V,E>,在集合V中查询是否存在节点vi的标签为Wi,如果存在节点vi的标签为Wi,返回节点vi,否则在有向图中创建节点vi,并标注其标签为Wi,返回节点vi

(5b)设置滑动窗口长度l,或默认长度l设为1,重复步骤(5a),依次查询Wi+1、Wi+2、...、Wi+l是否存在于有向图中,若存在,返回有向有权图中对应的节点vi+1、vi+2、...、vi+l

(5c)建立节点vi与节点vi+1、vi+2、...、vi+k、...、vi+l的有向边,若节点vi与节点vi+k在有向有权图中存在有向边,则节点vi与节点vi+k的边权重加1,否则,建立节点vi与节点vi+k的有向边,权重为1。

进一步地,所述步骤S4中的孤立点是指在有向有权图中度数为零时的节点,若有向有权图中存在某些边的权重低于门限阀值,则这些边在被过滤后产生孤立点。

进一步地,所述步骤S4中的自环是指所述有向有权图中一条边的起始节点和终止节点是同一个节点,所述自环由所述语料中的叠词产生。

进一步地,所述步骤S5的具体过程为:

(8a)计算相邻节点vi、节点vj的分布均值μ,计算方法如下:

μ=sisj/S2

式中,si为所述子图中节点vi的强度,sj为所述子图中节点vj的强度,S为所述子图中的节点总强度;

(8b)计算节点vi和节点vj的样本均值和样本方差s2,计算方法如下:

x=wij/S

s2=x×(1-x)

其中,wij为子图中节点vi和节点vj的边权重;

(8c)做零假设H0

(8d)计算t检验值,具体计算方法如下:

t=(x-μ)/s2/S;

(8e)检验零假设H0,具体检验过程如下:判断t检验值的绝对值是否大于t分布α的临界值,若大于,则接受零假设H0,即节点vi和节点vj对应的标签属性属于新词搭配;否则,则拒绝零假设H0,即节点vi和节点vj对应的标签属性不属于新词搭配。

进一步地,所述α=0.005,所述临界值设为2.576。

进一步地,所述步骤S6中的词性标注规则是指句法结构中的词性搭配规则,包括ANN、NN、ANN以及NPN,其中A表示形容词,N表示名词,P表示前置词。

采用上述技术方案后,本发明至少具有如下有益效果:

1、本发明在开源工具分词结果的基础上,对停用词进行过滤,降低了有向有权图的耦合度,提高了新词发现的准确性,同时提高了效率。

2、本发明设置滑动窗口长度,对固定滑动窗口范围内的词项建立关联关系,考虑了中文词项搭配的特征。

3、本发明采用边权重门限阀值对有向有权图的边进行过滤,降低了有向有权图的耦合度,提高了效率,同时减少次要词项搭配对新词发现的噪声影响,提高了新词发现的准确性。

4、本发明根据子图中相邻节点之间的边权重以及节点度数,采用统计学的t分布来检验相邻节点是否属于新词搭配,充分考虑有向有权图的节点特征,提高了新词发现的准确率。

5、本发明词性标注规则对全部新词搭配进行筛选,基于规则的方式进一步提高了新词发现的准确率。

6、本发明能够有效地,准确地发现P2P借贷行业的新词,把握P2P借贷行业的口碑以及走势,帮助民众理性投资,具有很好的可用性。

附图说明

图1为本发明基于有向有权图发现新词的方法的流程图。

图2为依照本发明基于有向有权图发现新词的一个实例。

具体实施方式

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本申请作进一步详细说明。

实施例

如图1-图2所示,图1是本实施例一中公开的基于有向有权图的发现新词方法及各个相应步骤的流程图,所述方法包括以下步骤:

S1、获取语料,采用分词开源工具对语料进行分词,对分词的结果进行停用词过滤,如图2所述,分词结果包括“E”、“租宝”、“APPLE”、“PAY”、“蚂蚁”“金服”等;

S2、根据分词结果,对滑动窗口范围内的词项建立有向边以及权重,生成有向有权图,“E”和“租宝”、“APPLE”和“PAY”以及“蚂蚁”和“金服”各自生成带有权重的有向边;

S3、采用边权重门限阀值对有向有权图的边进行过滤,保留语料中的同现频率比较高的词项搭配;

S4、筛选有向权重图中的孤立点以及自环,生成有向有权图的子图;

S5、根据子图中相邻节点之间的边权重以及节点强度,验证该相邻节点是否属于新词搭配,通过假设检验,验证“E”和“租宝”属于新词搭配,“APPLE”和“PAY”以及“蚂蚁”和“金服”亦然;

S6、根据词性标注规则对新词搭配进行筛选,“E”和“租宝”“APPLE”和“PAY”以及“蚂蚁”和“金服”符合词性标注规则,生成最终的新词E租宝、APPLEPAY以及蚂蚁金服等。

其中,所述分词结果,表现形式为W=(W1,W2,...Wi...,Wn),T=(T1,T2,...Ti...,Tn)其中W表示词项集合,T表示词性集合。

进一步地,所述停用词是指在语料中应用非常广泛然而没有实际意义的词项,比如语气词,标点符号等。

进一步地,所述有向有权图,表现形式为G=<V,E>,其中V表示节点集合,语料分词结果中的词项对应节点的标签属性,其中E表示有向边集合,词项之间的同现关系组成有向边集合。

进一步地,所述步骤S2根据分词结果,对滑动窗口范围内的词建立有向边以及权重,生成有向有权图的具体过程为:

(1)第一步遍历有向有权图G=<V,E>,在集合V中查询是否存在节点的标签为Wi,如果存在节点vi的标签为Wi,返回节点vi,否则在有向图中创建节点vi,并标注其标签为Wi,返回节点vi

(2)第二步设置滑动窗口长度l(默认长度为1),重复步骤(1),依次查询Wi+1,Wi+2,...,Wi+l是否存在有向图中,返回有向图中对应的节点vi+1,vi+2,...,vi+l

(3)第三步建立节点vi与节点vi+1,vi+2,...,vi+k,...,vi+l的有向边,如果vi与vi+k在图中存在有向边,vi与vi+k的边权重加1,否则建立vi与vi+k的有向边,权重为1。

进一步地,所述孤立点是指在有向有权图中度数为零的节点,某些节点对的边权重低于门限阀值,这些边被过滤后产生孤立点。

进一步地,所述自环是指有向图中源节点以及目标节点属于同一个节点,主要是语料中的叠词会产生自环。

进一步地,所述步骤S5根据子图中相邻节点之间的边权重以及节点强度,验证该相邻节点是否属于新词搭配的具体过程为:

(1)第一步是计算节点vi和vj的分布均值μ,计算方法如下:

μ=sisj/S2,其中si为子图中节点vi的强度,sj为子图中节点vj的强度,S为子图中的总强度。

(2)第二步计算节点vi和vj的样本均值和样本方差s2,计算方法如下:

其中wij为子图中节点vi和节点vj的边权重。

s2=x×(1-x).

(3)第二步是做零假设H0:

(4)第三步计算t检验值,具体计算方法如下:

t=(x-μ)/s2/S.

(5)第四步是检验零假设H0,具体检验过程如下:

判断t检验值的绝对值是否大于t分布α=0.005的临界值(2.576),如果是,则接受零假设H0,即vi和vj对应的标签属性属于新词搭配,否则拒绝零假设H0,即vi和vj对应的标签属性不属于新词搭配。

进一步地,所述词性标注规则是指句法结构中的词性搭配规则,包括ANN,NN,ANN,NPN等,其中A表示形容词,N表示名词,P表示前置词。

上述方法可以准确地发现语料中的新词,具有很好的可用性。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解的是,在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种等效的变化、修改、替换和变型,本发明的范围由所附权利要求及其等同范围限定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号