首页> 中国专利> 一种基于成词率适应度函数的新词识别免疫遗传方法

一种基于成词率适应度函数的新词识别免疫遗传方法

摘要

一种基于成词率适应度函数的新词识别免疫遗传方法,属于自然语言信息处理应用领域。本发明首先根据网络新词的特点,提取共同语素,将共同语素和独词作为免疫遗传方法中的示范性抗体,然后利用成词率设计合适的适应度函数,并在适应度函数中加入调节参数,以优化最终实验结果,最后对由免疫遗传方法识别出的候选词用新闻语料进行处理,得到最终的网络新词。对比现有技术,本发明针对网络新词的特点,设计适合网络新词识别的适应度函数,充分考虑网络新词长度,单字和字串所占比例等因素,并将字串的频数信息加入适应度函数的设计中,从而提高了网络新词发现的正确率、召回率和F值。

著录项

  • 公开/公告号CN106202043A

    专利类型发明专利

  • 公开/公告日2016-12-07

    原文格式PDF

  • 申请/专利权人 北京理工大学;

    申请/专利号CN201610532187.9

  • 发明设计人 史树敏;史胜清;黄河燕;周新宇;

    申请日2016-07-04

  • 分类号G06F17/27;G06N3/12;

  • 代理机构

  • 代理人

  • 地址 100081 北京市海淀区中关村南大街5号

  • 入库时间 2023-06-19 01:07:21

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-04-12

    授权

    授权

  • 2017-01-04

    实质审查的生效 IPC(主分类):G06F17/27 申请日:20160704

    实质审查的生效

  • 2016-12-07

    公开

    公开

说明书

技术领域

本发明涉及一种新词识别的免疫遗传方法,尤其涉及一种基于成词率适应度函数的新词识别免疫遗传方法,属于自然语言处理应用技术领域。

背景技术

随着现代社会计算机网络科技日新月异的发展以及网络使用的普及,网络走进很多人的日常生活,而且这个数字还在以极快的速度发展。在这种特殊传媒形式和交流方式下,产生了很多特殊的语言现象。其中,网络新词被越来越多的人所关注。所谓新词,指的是新近创造的词语,这样的词语可能正在被融入日常使用中,但尚未被主流语言所接受。新词通常会与特定人物、出版物、时期或事件有直接联系。而网络新词即网络上出现的新近创造的词语,一般为非正式语言,多为谐音、错别字等改成。有些是原来普通话中没有,在网络使用过程中新出现的词;有的则是在使用过程中使原来已经存在的词有了新意。研究网络新词有助于我们了解网络文化,倡导网络文明。

网络新词的研究在自然语言信息处理任务中有很大意义。例如,中文分词,文本的情感分析等。为了提高自然语言信息处理任务结果的准确性,适应现代网络的发展,对网络新词的研究分析刻不容缓。网络新词识别是网络新词研究的基础。

网络新词大多出现在一些论坛、博客、网络小说和游戏中。从这些文本中识别出网络新词是一项艰巨的任务。对汉语网络新词的识别,现在国内有很多研究,并且已经达到了比较理想的效果,这些研究主要使用方法有两种:基于统计的方法和基于规则的方法。基于统计的方法需要大量的语料作为支撑,也是一种比较简单有效的方法。这种方法通常统计词频、成词率等信息,利用统计模型,例如N-Gram,条件随机场(Conditional Random Field,CRF),支持向量机(Support Vector Machine,SVM)等等对网络新词进行识别。该方法实现原理简单,理解容易,并且效果也比较理想,但是该方法需要大量的语料,耗时比较长。在期刊《计算机科学》2011年38卷第1期“一种基于免疫遗传算法的网络新词识别算法”一文中主要利用基于统计的方法,在遗传算法中有针对性的加入抗体,实验结果表明,此方法对于符合词群现象的新词识别准确率较高;然而在免疫遗传算法中,该方法使用各基因位独立成词的概率之和来衡量适应度的大小,这种适应度函数设计方法忽略了网络新词长度、网络文本中出现频数等信息对适应度值的影响,并且在该方法中适应度值的计算语料与最终提取新词的语料不同,以上因素均导致该方法对不符合词群现象的新词识别准确率较低,整体召回率也较低。基于规则方法对网络新词进行识别的主要思路是:着眼于新词的构词原理,将其作为理论依据并建立一个有助于识别新词的常用语料库;然后研究词语的自身语言特性,建造一个以词语的自然属性为基础的特殊构词规则库。基于规则的方法对新词的识别准确率较高,但需要极强的语言素养与相关领域知识背景,而且对人工的依赖性较强。在期刊《计算机工程与科学》,2013年35卷第9期“网络新词识别算法研究”一文中利用基于规则的方法,通过检测词语频度变化、共现词语分布一致性、情感倾向性迁移三项指标综合判定网络新词出现的规律特点,从而设计了一种网络新词识别算法,实验结果证明,该算法取得了较高的准确率;然而,此文中规则设置过于细致,导致很多网络新词被过滤掉,即并不是所有的网络新词都符合文中所总结的规律,所以该算法在召回率指标上并不理想,即该算法只能识别出来部分网络新词。

上述已有的基于规则和基于统计的方法虽然在网络新词识别中取得了较高的正确率,但由于统计方法或规则总结不恰当等原因导致最终召回率都比较低。本发明的目的旨在克服网络新词识别召回率较低的技术问题,提出使用规则和统计相结合的免疫遗传方法进行网络新词的识别。该方法通过提取示范性抗体并设计优化适应度函数,最终达到网络新词识别的目的。

发明内容

本发明的目的是针对现有技术网络新词识别召回率较低的问题,提出一种基于成词率适应度函数的新词识别免疫遗传方法。

本发明的核心思想是利用免疫遗传算法优化新词识别性能,具体的,根据网络新词的特点以及先验知识、提取网络新词中的共同语素,并从新闻语料中提取独词,将这两部分作为免疫遗传方法中的示范性抗体,设计一种基于成词率的适应度函数,使用免疫遗传方法得到候选词集合,最后利用规则和新闻语料对候选词进行处理得到新词。

本发明涉及的相关定义如下:

定义1:共同语素,指从网络新词中提取的能体现网络新词特点的字;记共同语素的集合为U,主要包括“奴”、“客”、“门”、“鸟”、“爷”、“姐”、“哥”、“女”、“晒”、“被”、“吧”、“逼”、“比”、“娘”、“撸”、“萌”、“哒”、“粗”、“爆”、“炮”、“渣”、“友”、“纸”、“怒”、“帝”、“控”、“哒”、“怒”、“纸”、“热”、“达人”、“男”、“亚”、“嫂”34个;

其中,“帝”字,在“技术帝”、“表情帝”以及“挽尊帝”为主的网络新词中经常被使用,具有粘着性强的特点;

定义2:独自成词率,指某个字作为独词出现的概率;

定义3:组合成词率,指某个字串作为一个词出现的概率;

定义4:独词,指独自成词率大于一定阈值的字;记独词集合为T;

定义5:群体,指经过二进制编码的一定数量个体组成的集合;其中的个体定义为:经过二进制编码得到的一串二进制数;

定义6:条件随机场,指一种基于最大熵模型和隐马尔科夫模型的判别式概率模型,其定义如下:

设G=(V,E)是一个无向图,V是无向图G中顶点的集合,E是无向图G中边的集合,Y={Yv|v∈V}是以G中集合V为索引的随机变量Yv构成的集合,v是V的元素,V是节点的集合;在给定X的条件下,如果每个随机变量Yv服从马尔科夫属性,即p(Yv|X,Yu,u≠v)=p(Yv|X,Yu,u>v、Yu分别代表集合Y中的两个元素,p(Yv|X,Yu,u≠v),p(Yv|X,Yu,u>

一种基于成词率适应度函数的新词识别免疫遗传方法,包括以下步骤:

步骤一、初始化候选解集合为空,并对语料1利用条件随机场进行分词,得到分词碎片;

其中,所述的分词碎片是指利用条件随机场进行分词所得结果中连续单字组成的字串;

其中,所述的语料1主要包括微博语料、贴吧语料以及网络评论语料;

所述的条件随机场,其下载地址为:

http://download.csdn.net/detail/linson3344/8039087

条件随机场的使用方法为如下网址所述:

http://www.52nlp.cn/%E4%B8%AD%E6%96%87%E5%88%86%E8%AF%8D%E5%85%A5%E9%97%A8%E4%B9%8B%E5%AD%97%E6%A0%87%E6%B3%A8%E6%B3%954

步骤二、提取示范性抗体,具体包括提取共同语素和提取独词;

其中,示范性抗体,指的是用于估计最佳个体某些基因位上值的先验知识,包括共同语素和独词;

其中,提取共同语素所得集合为定义1中集合U;

其中,提取独词,独词定义见定义4,具体为:

步骤2.1初始化独词集合T为空,并对语料2中的每个字使用条件随机场进行词位信息标注;

其中,所述的语料2是新闻语料;

其中,语料2中第i个不同的字,记为wi,下标i的取值为1到语料2中不同的字的总数,记为NumW

其中,词位信息指词的位置信息,具体到字wi的词位信息,是S(单独成词)、B(词首)、M(词中)以及E(词尾),wi的各个词位信息出现的次数记为:fWi(S)、fWi(B)、fWi(M)和fWi(E);

步骤2.2统计步骤2.1中字wi的词位信息的总出现次数;

其中,记步骤2.1中字wi的词位信息的总出现次数为fWi(All),其计算公式为公式(1):

fWi(All)=fWi(S)+fWi(B)+fWi(M)+fWi(E)>

步骤2.3计算步骤2.2中字的独自成词率,具体通过公式(2)来计算;

p(Wi)=fWi(S)/fWi(All)>

其中,独自成词率记为p(Wi),其含义为字wi的独自成词率,其定义见定义2;

步骤2.4设定阈值,并判断步骤2.3计算出来的独自成词率是否超过阈值,并做相应操作:

其中,所述的阈值,记为δ;δ的范围为大于0.8,小于等于1;

2.41若超出阈值δ,则将字wi加入独词集合T中,跳至步骤2.5;

2.42若未超出阈值δ,跳至步骤2.5;

步骤2.5判断i是否等于NumW,并进行相应操作:

2.51若i不等于NumW,则i=i+1,跳至步骤2.2;

2.52若i等于NumW,则跳至步骤三;

步骤三、利用免疫遗传方法构建候选词集合;

其中,候选词是指通过免疫遗传算法识别出的同时作为网络新词候选的字串,候选词的集合称为候选词集合;其构建过程具体为:

步骤3.1设定最大迭代次数,初始化迭代次数为1,并对步骤一中得到的分词碎片进行二进制编码,获得包含r个个体的群体;

其中,群体及个体的定义见定义5,记步骤3.1中的分词碎片为第j个分词碎片Slicej

其中,二进制编码用二进制数0和1进行编码,具体为:

随机产生r个长度为Lj的二进制字串;

其中,第k个二进制字串记为wk=(wk1,wk2,…,wkLj),wkl∈{0,1},l=1,2,…,Lj;Lj表示分词碎片Slicej的长度;二进制字串wk表示编码后的第k个个体;

即通过步骤3.1的二进制编码,我们得到了r个长度为Lj的二进制字串,每个二进制字串代表一个编码后的个体;

步骤3.2对步骤3.1中得到的群体以交叉概率进行交叉,具体为:

其中,交叉概率,记为p1;

步骤3.2.1将群体中的所有个体两两分组;

其中,所述的两两分组是指对r个个体,按顺序每两个进行分组;若r为偶数,r个个体被分为r/2组;若r为奇数,最后一个个体单独成组,即:r个个体被分为组,其中,表示对r/2向上取整;

步骤3.2.2为步骤3.2.1输出的分组产生随机数;

其中,当前分组为第g个分组,其对应的随机数,记Randomg,下标g的范围是1到

步骤3.2.3判断步骤3.2.2产生的随机数是否大于交叉概率,并做如下相应操作;

3.2.3A若Randomg>p1,产生随机交叉位置,交换分组g两个个体交叉位置之后的基因,得到两个新个体;

其中,所述的随机交叉位置,具体为一个随机整数,其范围为1到当前所处理的分词碎片Slicej的长度Lj

3.2.3B若Randomg≤p1,则将第g个分组内的两个个体不做变化,判断g与关系,并进行相应操作:

3.2.3BA若则将g加1,跳至步骤3.2.2;

3.2.3BB若则至此步骤3.2得到的变化后的g个分组内的所有个体,记为交叉后群体,跳至步骤3.3;

步骤3.3对步骤3.2中得到的交叉后群体以变异概率进行变异,具体为:

其中,所述的变异概率,记为p2;

步骤3.3.1针对交叉后群体中的第q个个体,随机产生一个0到1之间的随机数;

其中,q的范围是1到r,记第q个个体对应的随机数记为Randomq

步骤3.3.2判断步骤3.3.1产生的随机数是否大于变异概率,并做如下相应操作:

3.3.2A若Randomq>p2,产生范围为1到当前所处理的分词碎片Slicej长度Lj的随机数作为变异位置,并将当前第q个的此变异位置处的基因改变,形成第q个新个体,具体为:

3.3.2AA当第q个体的变异位置的基因为0,则将其变为1;

3.3.2AB当第q个体的变异位置的基因为1,则将其变为0;

3.3.2B若Randomq≤p2,则将第q个体不做变化,并判断q与r的关系,并进行相应操作:

3.3.2BA若q<r,则将q=q+1,跳至步骤3.3.1;

3.3.2BB若q=r,则至此步骤3.3到了变化后的r个新个体,记为变异后群体,跳至步骤3.4;

步骤3.4采用适应度函数计算步骤3.3得到的变异后群体中每个新个体的适应度值;

其中,所述的适应度函数为如下公式(3):

p(h)=Σi=1num0αβp(X0i)+Σj=1num1αp(X1j)+Σk=1nums(1+sk.lengthχ)p(sk)sk.length<5Σi=1num0αβp(X0i)+Σj=1num1αp(X1j)+Σk=1numsp(sk)sk.length5---(3);

其中,p(h)代表第h个新个体的适应度值,h的范围是1到r;p(X0i)表示第h个新个体中第i个独0出现位置对应字的独自成词率,其中,独0出现位置表示0单独出现的位置;num0表示第h个新个体中,独0的个数;p(X1j)表示第h个新个体中第j个1出现位置对应字的独自成词率;num1表示第h个新个体中1的个数;其中,sk表示第h个新个体中第k个连续0出现位置对应的字串;nums表示第h个新个体中出现连续0二进制字串的个数;p(sk)表示字串sk的组合成词率,其定义见定义3;其中,二进制字串中连续0的个数范围是2到步骤一中输出分词碎片的长度;∑表示求和;α为调节系数;β为惩罚因子,表示对基因中存在独0的个体进行惩罚;χ代表字串长度加权因子,sk.length代表字串sk的长度;

其中,独自成词率通过公式(2)计算,具体通过步骤2.1到步骤2.3计算;

组合成词率通过公式(4)计算:

p(sk)=f(sk)/Σi=1nf(Wsxi)---(4);

组合成词率,记为p(sk),字串sk表示为sk=Wsx1Wsx2…Wsxn,f(Wsxi)表示语料1中字Wsxi出现的次数,其中i取值[1,n],即1≤i≤n;f(sk)表示字串sk在语料1中出现的次数;

步骤3.5对步骤3.4计算的适应度值进行从小到大排序,并为从小至大的部分个体注射示范性抗体;

所述的部分个体其数量为N%*r,N的范围为1到100;

其中,注射示范性抗体,具体步骤为:

步骤3.5.1初始化独词出现位置集合和共同语素出现位置集合为空;

其中,独词出现位置集合记为Position1,共同语素出现位置集合记为Position2;

步骤3.5.2找到分词碎片Slicej中独词出现的位置加入集合Position1中;

找到分词碎片Slicej中共同语素出现的位置加入集合Position2中;

步骤3.5.3把需要注射示范性抗体的个体中,Position1中所有元素对应位置的基因变为1,得到新个体;

其中,记需要注射示范性抗体的个体为Ci,其中i的范围为1到N%*r;

步骤3.5.4把步骤3.5.3输出的新个体中,Position2中所有元素对应位置的基因变为0,得到注射完示范性抗体后的个体;

步骤3.5.5判断i与N%*r的大小关系,并进行相应操作:

3.5.5A若i<N%*r,则将i加1,转步骤3.5.3;

3.5.5B若i=N%*r,则转步骤3.6;

至此,从步骤3.5.1到步骤3.5.5,得到了部分个体注射完示范性抗体后的新个体,这些新个体与未注射示范性抗体的部分个体,组成注射示范性抗体后的群体,记为注射后群体;

步骤3.6计算步骤3.5输出的注射后群体中每个个体的适应度值,将适应度值最大的个体加入候选解集合中;

其中,候选解集合,即注射后群体中适应度值最大的个体组成的集合,记为set;适应度值的计算通过公式(3);

步骤3.7使用轮盘赌方法对步骤3.5输出的注射后群体中个体进行选择,产生新一代群体;

其中,轮盘赌选择方法又称为适应度比例选择法,具体为:

步骤3.7.1计算注射后群体中的个体适应度值占总适应度值的百分比,具体为:

通过公式(5),利用步骤3.6计算出的注射后群体中每个个体适应度值的计算结果,计算注射后群体中的个体适应度值占总适应度值的百分比;

per(ct)=p(ct)/Σi=1rp(ci)---(5);

其中,注射后群体中的个体,记为ct,per(ct)代表ct适应度值占总适应度值的百分比;p(ct)代表个体ct的适应度值;p(ci)表示个体ci的适应度值;

步骤3.7.2产生0到1之间的随机数,根据随机数的值,确定对应个体,并将此对应个体作为新一代群体中的一个个体,具体为:

步骤3.7.2A计算其中1≤j≤r;

其中,代表对从i从1开始,到j的per(ci)取和;

步骤3.7.2B产生0到1之间的随机数,记为Randomt,其中t的范围为1到r;

步骤3.7.2C判断Randomt是否在范围[Rangej,Rangej+1)内,即判断Rangej≤Randomt<Rangej+1

3.7.2CA若是,则将Rangej对应个体cj留到下一代,此对应个体,为选择后群体中的一个个体;

3.7.2CB若否,则将j加1,转步骤3.7.2C;

步骤3.7.2D判断t与r的大小关系,并进行相应操作:

3.7.2DA若t<r,则将t加1,转步骤3.7.2B;

3.7.2DB若t=r,则得到了新一代群体,转步骤3.8;

步骤3.8判断是否达到最大迭代次数,并进行相应操作:

3.8.1若否,则将迭代次数加1,转步骤3.2;

3.8.2若是,遍历候选解集合求出适应度值最大个体,即最优解,具体通过公式(6)进行优化:

Cbest=argmaxset(p(c))---(6);

其中,p(c)表示候选解集合中个体c的适应度值,表示遍历候选解集合set中所有个体,求出适应度值最大个体Cbest

将步骤3.8.2得到的最优个体中连续0出现位置对应字串加入候选词集合中;

步骤四、对候选词集合进行去重处理,并将在语料2中出现的字串去掉,具体处理过程如步骤4.1及步骤4.2:

步骤4.1对步骤三得到的候选词集合进行去重处理,将候选词集合中重复的字串去掉;

步骤4.2对步骤4.1得到的候选词集合用语料2进行处理,即将候选词集合中出现在语料2中的字串去掉;

至此,从步骤一到步骤四,完成了一种基于成词率适应度函数的新词识别免疫遗传方法。

有益效果

本发明一种基于成词率适应度函数的新词识别免疫遗传方法,对比现有技术,具有如下有益效果:

1.本方法针对网络新词的形成特点,提取共同语素和独词作为示范性抗体,能有效提高网络新词识别的准确率,降低算法的时间复杂度;

2.本方法设计优化适应度函数,充分考虑网络新词长度、单字和字串所占比例等因素,并将字串的频数信息加入适应度函数的设计中,从而提高了网络新词识别的召回率和F值。

附图说明

图1为本发明一种基于成词率适应度函数的新词识别免疫遗传方法及实施例中的算法流程示意图;

图2为本发明一种基于成词率适应度函数的新词识别免疫遗传方法实施例中本方法与现有的基于免疫遗传算法的网络新词识别方法进行对比实验,所得的结果图。

具体实施方式

下面结合附图与实施例对本发明方法做进一步详细说明。

实施例1

图1为本发明一种基于成词率适应度函数的新词识别免疫遗传方法及本实施例的流程图。

从图1中可以看出,本发明包括如下步骤:

步骤A:算法初始化;

具体包括初始化最大迭代次数、交叉概率、变异概率、群体规模、调节系数、惩罚因子、长度加权因子;

具体到本实施例中,最大迭代次数为3,交叉概率p1为0.6,变异概率p2为0.01,群体规模r为10,调节系数α为0.1,惩罚因子β为0.2,长度加权因子χ为20;

步骤B:编码;

具体到实施例,采用二进制编码对分词碎片进行编码,得到一个包含10个个体的群体,即:本实施例的群体规模为10;步骤B的编码过程与步骤3.1相同;

步骤C:交叉、变异;

具体与步骤3.2和步骤3.3相同;

步骤D:注射示范性抗体;

具体到实施例,首先根据公式(3)计算群体中每个个体的适应度值,然后按适应度值对个体从小到大进行排序,对从小到大的30%的个体进行示范性抗体注射,具体与步骤3.4和步骤3.5相同,其中步骤3.5中的N为30;

步骤E:计算每个个体适应度,找到群体中的最优个体,加入候选解集合中;

具体与步骤3.6相同;

步骤F:选择;

具体与步骤3.7相同;

步骤G:判断是否达到最大迭代次数;

具体与步骤3.8相同;

步骤H:找到候选解集合中的最优个体作为最终解;

具体与步骤3.8.2相同;

至此,步骤A到步骤H完成了一种基于成词率适应度函数的新词识别免疫遗传方法。

实施例2

本实施例将以分词碎片“我是屌丝好么”为例对本发明所述的一种基于成词率适应度函数的新词识别免疫遗传方法的具体操作步骤进行详细说明。

一种基于成词率适应度函数的新词识别免疫遗传方法的处理流程如图1所示。从图1可以看出,一种基于成词率适应度函数的新词识别免疫遗传方法,包括以下步骤:

步骤A1、算法初始化;本实施例中参数设定与实施例1中的参数设定相同,上述参数仅作为实施例中使用的值;

步骤B1、编码;具体到本实施例,步骤B1中的编码采用二进制编码,初始编码是随机产生的,如“我是屌丝好么”编码结果如表1:

表1 实施例2步骤B1编码结果

编码001100110010011001110100111101101000001010010010110011000100

从表1可以看出,初始群体共包括10个个体,每个个体由一个二进制编码表示,每个个体中的每个基因位对应分词碎片“我是屌丝好么”中的一个字,例如第一个个体“001100”与分词碎片“我是屌丝好么”的对应关系如表2:

表2 实施例2步骤B1个体编码与分词碎片的对应关系

步骤C1、交叉和变异;

对步骤B1中得到的编码结果进行交叉和变异过程,具体到实施例“我是屌丝好么”,交叉和变异后的编码如表3:

表3 步骤C1中交叉和变异后的结果

步骤D1、计算群体中个体的适应度值,结果如表4:

表4 实施例2步骤D1个体适应度值计算结果

个体编码适应度值1011010.006024976195562910001000.0060436350645624860011000.0087349964822518930010100.0092029766891348430101000.015902907295573181110010.0221315107424024451110000.0274691046992155550100100.046943354164108671100100.056637047857802371100110.05679758297485923

步骤E1、对适应度值靠后的30%的个体注射示范性抗体。从表4中可以看出,计算完适应度后,前三个个体的适应度值最小,所以对前三个个体进行示范性抗体的注射。例子“我是屌丝好么”其中示范性抗体包括独词“我”,“是”,“么”三个,所以将对应基因位的编码改为1,注射完示范性抗体的结果如表5:

表5 实施例2步骤E1注射完示范性抗体后的编码

111101110101111101001010010100111001111000010010110010110011

步骤F1、注射完示范性抗体,在此计算群体中所有个体的适应度值,将其中适应度值最大的个体加入候选解集合中,适应度值计算结果如表6:

表6 实施例2步骤F1适应度值计算结果

个体编码适应度值0010100.0092029766891348430101000.015902907295573181111010.019921140293372621101010.019921140293372621111010.019921140293372621110010.0221315107424024451110000.0274691046992155550100100.046943354164108671100100.056637047857802371100110.05679758297485923

从表6可以看出编码“110011”的适应度值最大,所以将其加入候选解集合set中;

步骤G1、利用轮盘赌方法对群体进行选择,其结果如表7:

表7 实施例2步骤G1选择后结果

010010111001110010110011110101110010110011111000010010001010

至此,从步骤A1到步骤G1完成了使用本发明所提的一种基于成词率适应度函数的新词识别免疫遗传方法中一次迭代的操作过程;

接下来,将表7中选择后结果作为步骤C1的输入,经过步骤C1到步骤G1,第2次迭代操作过程的结果如表8和表9所示:

表8 实施例2第2次迭代示范性抗体注射后适应度值计算结果

个体编码适应度值1101010.019921140293372621110010.0221315107424024451110010.0221315107424024451110110.0233100963413808840100100.046943354164108671100100.056637047857802371100100.056637047857802371100100.056637047857802371100110.056797582974859231100110.05679758297485923

表9 实施例2第2次迭代选择后结果

110011111011111011110010110010110011110010110010110010111001

通过表8可以看出,在第2次迭代过程中的个体“110011”被加入候选解集合set中;

此时,迭代次数未达到最大迭代次数3,将表9中选择后结果作为步骤C1的输入进行第3次迭代操作;

经过步骤C1到步骤G1,第3次迭代过程的结果如下表10和表11所示:

表10 实施例2第3次迭代示范性抗体注射后适应度值计算结果

个体编码适应度值1110010.0221315107424024451110110.0233100963413808841110110.0233100963413808841100100.056637047857802371100100.056637047857802371100100.056637047857802371100100.056637047857802371100100.056637047857802371100110.056797582974859231100110.05679758297485923

表11 实施例2第3次迭代选择后结果

110010110011110010111011110010110011110011110010110010110010

通过表10可以看出,在第3次迭代操作过程中,将个体“110011”加入候选解集合set中;再经判断此时已经达到了最大迭代次数3,所以转步骤H1;

步骤H1、找到候选解集合中适应度值最大的个体作为最优解,具体为:在set中有三个个体,均为“110011”,则:

最优解编码与分词碎片的对应关系如表12:

表12 实施例2步骤H1最优解编码与分词碎片对应关系

从最优解基因中提取连续0出现位置对应的字串,得到候选词“屌丝”。

实施例3

为了进一步验证本发明一种基于成词率适应度函数的新词识别免疫遗传方法的有效性,本实施例采用微博语料,共计3538058条,使用新华社1993年到2004年所有发布的新闻数据,共计9,517,292个句子作为新闻语料,使用本发明提出的基于成词率适应度函数的新词识别免疫遗传方法进行网络新词识别与丁建立、慈祥等人提出的免疫遗传算法进行网络新词识别实验结果进行对比,

对比结果如图2所示。

丁建立,慈祥等人的方法中使用的适应度函数如下:

f(s)=Σi=1L2i/(IWP)2---(7);

IWP=p(word(wi))p(wi)---(8);

公式(7)中L代表分词碎片的长度,f(s)代表个体s的适应度值;公式(8)中,p(word(wi))表示汉字wi在语料库中作为一个单字词出现的次数,p(wi)表示在语料库中汉字wi总的出现次数,所用语料为搜狗互联网语料库。

从图2中可以看出,本发明中的方法在网络新词识别中取得了较好的效果,在召回率和F值上较丁建立、慈祥的方法均有所提高,通过适应度函数的设计,大部分网络新词通过本发明的方法均能正确识别。但是由于微博语料的不规则性,导致会识别出一些错误的网络新词,导致最终实验的准确率会有所降低。

以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都在要求保护的本发明范围内,本发明要求保护范围由所附的权利要求书及其等效物界定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号