首页> 中国专利> 基于条件随机场的越南语组合词消歧方法

基于条件随机场的越南语组合词消歧方法

摘要

本发明涉及基于条件随机场的越南语组合词消歧方法,属于自然语言处理技术领域。本发明包括步骤:首先构建越南语组合词歧义字段库;从越南语组合词歧义字段库提取越南语组合词歧义字段特征;再建立基于条件随机场的越南语组合词歧义消歧模型;根据组合词歧义消歧模型参数序列来对越南语组合词歧义字段进行消歧,得到最终消歧结果。本发明对越南语组合词实现了有效的消歧,为词性标注、词法分析、语义分析、信息抽取、信息检索和机器翻译等工作提供强有力的支撑;目前没有发现越南语做相关的组合歧义消歧的研究报告,本发明取得了较好的效果。

著录项

  • 公开/公告号CN106202039A

    专利类型发明专利

  • 公开/公告日2016-12-07

    原文格式PDF

  • 申请/专利权人 昆明理工大学;

    申请/专利号CN201610498880.9

  • 申请日2016-06-30

  • 分类号G06F17/27(20060101);

  • 代理机构

  • 代理人

  • 地址 650093 云南省昆明市五华区学府路253号

  • 入库时间 2023-06-19 01:07:21

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-06-21

    著录事项变更 IPC(主分类):G06F17/27 变更前: 变更后: 申请日:20160630

    著录事项变更

  • 2019-06-11

    授权

    授权

  • 2017-01-04

    实质审查的生效 IPC(主分类):G06F17/27 申请日:20160630

    实质审查的生效

  • 2016-12-07

    公开

    公开

说明书

技术领域

本发明涉及基于条件随机场的越南语组合词消歧方法,属于自然语言处理技术领域。

背景技术

组合词歧义消歧逐渐成为搜索资源的热点,组合歧义给分词、实体识别、搜索引擎等应用上带来了诸多不利的影响,当进行检索时,搜索引擎会返回大量包含该检索的网页,而且这些网页可能描述多个实体,同时实体有很高的歧义性,多个实体组合一个实体或者其他组合实体名。越南语组合词歧义消歧是分词、词性标注等工作中的主要环节,同时歧义消歧可以提高越南语上层的词法分析、句法分析、语义分析以及机器翻译等应用效果,起着极其重要的作用。在各类越南语信息处理软件或者系统中,越南语组合词歧义消歧是越南语歧义消歧之中最难的工作,组合型歧义的消解需要根据字段特征、上下文信息甚至是建立一个较完善的组合词词典,组合词歧义的消解是各种语言信息处理的难中之难。

发明内容

本发明提供了基于条件随机场(CRFs)的越南语组合词消歧方法,以用于解决越南语组合词的消岐以及高精度组合词消岐的问题。

本发明的技术方案是:基于条件随机场的越南语组合词消歧方法,所述基于条件随机场的越南语组合词消歧方法的具体步骤如下:

Step1、首先,构建了越南语组合词字典,根据抽取组合词歧义字段方法,从越南语分词句子级语料中提取越南语组合词歧义字段,构建越南语组合词歧义字段库;之所以从越南语分词句子级语料中提取越南语组合词歧义字段,是因为组合词歧义字段,不能在其他地方获取,也没有相关资料可以拿使用,只能从越南语分词句子级语料中提取;

Step2、从越南语组合词歧义字段库提取越南语组合词歧义字段特征;

Step3、根据提取的越南语组合词歧义字段特征,制定条件随机场模型中所需要的基本特征模板训练样式语料;来让条件随机场模型学习组合词歧义字段特征信息,得到所对应的组合词消歧模型,实现模型的自动消歧;

Step4、把得到的基本特征模板训练样式语料,用条件随机场模型进行训练,得到组合词歧义消歧模型参数序列,从而建立基于条件随机场的越南语组合词歧义消歧模型;

Step5、把待消歧的越南语组合词歧义字段,放入基于条件随机场的越南语组合词歧义消歧模型中,根据组合词歧义消歧模型参数序列来对越南语组合词歧义字段进行消歧,得到最终消歧结果。

优选地,所述步骤Step1中,抽取组合词歧义字段方法,得到越南语组合词歧义字段的具体步骤为:

Step1.1、使用分词工具对越南语分词句子级语料进行分词,得到分词语料;

Step1.2、从网站和字典中收集越南语组合词,形成越南语组合词词典;

Step1.3、然后将分词语料与越南语组合词词典进行匹配;组合词在越南语语料中是普遍存在的,很难运用现有的工具把组合词从语料中抽取出来,只有通过先建立好的越南语组合词字典与分词语料进行一一对应的匹配,才能准确的把组合词抽取出来;

Step1.4、获取越南语组合词歧义片段;如果词素A和词素B都在越南语组合词词典中,并且AB组成的词也在越南语组合词字典中,则取出词组AB,词组AB的元素为越南语组合词歧义片段;

Step1.5、根据取出组合词歧义片段提取词组AB前后2个词,拼接成组合词歧义字段。取出组合词歧义片段词组AB前后2个词,更好的保留组合词所在语料中的语境信息,能更好的建立组合词歧义特征,使消歧结果更好;经过查询大量论文,得出取前后1个词效果不好,取前后3个词影响的因素又太多,所以取前后2个词更好;

其中,根据抽取组合词歧义字段方法,能构建出越南语字典60951条(组合词),抽取越南语组合歧义字段8619条,从而能更好的进行对越南语组合歧义消歧的下一步工作。

优选地,所述步骤Step1.1中,获取越南语分词句子级语料的具体步骤为:

Step1.1.1、构建爬虫程序,爬取出网页信息;

Step1.1.2、对网页信息数据进行预处理,包括:去重处理,去除垃圾广告等,构建出越南语文本语料库;

Step1.1.3、根据越南语分词工具进行越南语文本语料库的语料分词,并进行人工校对,形成越南语分词句子级语料。

优选地,所述步骤Step2中,提取的越南语组合词歧义字段特征包括:词频特征、语境信息特征、词内特征。

(1)、选取的词频特征:

如果用XY来表示组合词歧义片段,则考虑一下两类统计信息:1.X与Y的独立成词概率是否大于XY;2.XY组成词的概率是否大于X或Y。以上可以分别作为CRFs模型词频特征,分别定义如下:

表1词频特征

以上的概率统计是在已经人工标注好的8619条越南语分词句子中进行统计计算。

(2)、选取的组合词歧义的语境信息特征:

只判断当前歧义字段的词频特征可能有些片面,有时候还需要借助语境信息特征才能确定切分方案,可见组合词歧义片段的语境信息对歧义的切分有密切的关系。考虑到对歧义片段的正确切分的影响,这里只考虑与歧义字段最近的语境,也就是前一个词和后一个词。比如包含歧义的句子:“/bán nhà/ngàyqua.(昨天我已经卖掉了我的房子)”,其中歧义片段为:“bán nhà(卖出的房子)”,则它的前一个词为“(有)”,后一个词为“ngày(天)”。

(3)、选取的组合词歧义字段词内特征:

组合词歧义字段词内特征,主要是从歧义自身的形态、歧义字段的前段分量和后段分量来看的,比如歧义字段:“nhu’(所以)”,它的形态为:“11”,前段分量为“nhu’(像)”,后段分量为“(从而)”;又如:“cólà(大概)”,它的形态为:“21”,前段分量为“có(可)”,后段分量为:“(是)”;还有“uy(敌人威胁)”,它的形态为:“21”,前段分量为“uy(威胁)”,后段分量为“(敌人)”。

表2三种特征

本发明的有益效果是:

1、本发明的基于条件随机场的越南语组合词歧义消歧方法,对越南语的组合词歧义字段的消歧做了前所未有的工作,特别是人工抽取的越南语组合词,做了大量的实验前准备工作,提出的组合词歧义字段抽取方法,能有效的抽取出实验所需要的越南语组合词歧义语料,最终通过本发明提出的实验方法,能对越南语组合词进行有效的消歧;

2、本发明的基于条件随机场的越南语组合词歧义消歧方法,能对越南语组合词进行有效的消歧,提升分词、实体识别、搜索引擎等应用的准确率,同时能提高越南语上层的词法分析、句法分析、语义分析以及机器翻译等应用效果。

附图说明

图1为本发明中的整体流程图;

图2为本发明中抽取组合词歧义字段方法的流程图;

图3为本发明中五倍交叉验证实验的结果图;

图4为本发明实施例中三种模型对比实验的结果图。

具体实施方式

实施例1:如图1-4所示,基于条件随机场的越南语组合词消歧方法,所述基于条件随机场的越南语组合词消歧方法的具体步骤如下:

Step1、首先,构建了越南语组合词字典,根据抽取组合词歧义字段方法,从越南语分词句子级语料中提取越南语组合词歧义字段,构建越南语组合词歧义字段库;之所以从越南语分词句子级语料中提取越南语组合词歧义字段,是因为组合词歧义字段,不能在其他地方获取,也没有相关资料可以拿使用,只能从越南语分词句子级语料中提取;

Step2、从越南语组合词歧义字段库提取越南语组合词歧义字段特征;

Step3、根据提取的越南语组合词歧义字段特征,制定条件随机场模型中所需要的基本特征模板训练样式语料;来让条件随机场模型学习组合词歧义字段特征信息,得到所对应的组合词消歧模型,实现模型的自动消歧;

Step4、把得到的基本特征模板训练样式语料,用条件随机场模型进行训练,得到组合词歧义消歧模型参数序列,从而建立基于条件随机场的越南语组合词歧义消歧模型;

Step5、把待消歧的越南语组合词歧义字段,放入基于条件随机场的越南语组合词歧义消歧模型中,根据组合词歧义消歧模型参数序列来对越南语组合词歧义字段进行消歧,得到最终消歧结果。

实施例2:如图1-4所示,基于条件随机场的越南语组合词消歧方法,本实施例与实施例1相同,其中:

优选地,所述步骤Step1中,抽取组合词歧义字段方法,得到越南语组合词歧义字段的具体步骤为:

Step1.1、使用分词工具对越南语分词句子级语料进行分词,得到分词语料;

Step1.2、从网站和字典中收集越南语组合词,形成越南语组合词词典;

Step1.3、然后将分词语料与越南语组合词词典进行匹配;组合词在越南语语料中是普遍存在的,很难运用现有的工具把组合词从语料中抽取出来,只有通过先建立好的越南语组合词字典与分词语料进行一一对应的匹配,才能准确的把组合词抽取出来;

Step1.4、获取越南语组合词歧义片段;如果词素A和词素B都在越南语组合词词典中,并且AB组成的词也在越南语组合词字典中,则取出词组AB,词组AB的元素为越南语组合词歧义片段;

Step1.5、根据取出组合词歧义片段提取词组AB前后2个词,拼接成组合词歧义字段。取出组合词歧义片段词组AB前后2个词,更好的保留组合词所在语料中的语境信息,能更好的建立组合词歧义特征,使消歧结果更好;经过查询大量论文,得出取前后1个词效果不好,取前后3个词影响的因素又太多,所以取前后2个词更好;

其中,根据抽取组合词歧义字段方法,能构建出越南语字典60951条(组合词),抽取越南语组合歧义字段8619条,从而能更好的进行对越南语组合歧义消歧的下一步工作。

实施例3:如图1-4所示,基于条件随机场的越南语组合词消歧方法,本实施例与实施例2相同,其中:

优选地,所述步骤Step1.1中,获取越南语分词句子级语料的具体步骤为:

Step1.1.1、构建爬虫程序,爬取出网页信息;

Step1.1.2、对网页信息数据进行预处理,包括:去重处理,去除垃圾广告等,构建出越南语文本语料库;

Step1.1.3、根据越南语分词工具进行越南语文本语料库的语料分词,并进行人工校对,形成越南语分词句子级语料。

实施例4:如图1-4所示,基于条件随机场的越南语组合词消歧方法,所述基于条件随机场的越南语组合词消歧方法的具体步骤如下:

Step1、首先,构建了越南语组合词字典,根据抽取组合词歧义字段方法,从越南语分词句子级语料中提取越南语组合词歧义字段,构建越南语组合词歧义字段库;之所以从越南语分词句子级语料中提取越南语组合词歧义字段,是因为组合词歧义字段,不能在其他地方获取,也没有相关资料可以拿使用,只能从越南语分词句子级语料中提取;

Step2、从越南语组合词歧义字段库提取越南语组合词歧义字段特征;

Step3、根据提取的越南语组合词歧义字段特征,制定条件随机场模型中所需要的基本特征模板训练样式语料;来让条件随机场模型学习组合词歧义字段特征信息,得到所对应的组合词消歧模型,实现模型的自动消歧;

Step4、把得到的基本特征模板训练样式语料,用条件随机场模型进行训练,得到组合词歧义消歧模型参数序列,从而建立基于条件随机场的越南语组合词歧义消歧模型;

Step5、把待消歧的越南语组合词歧义字段,放入基于条件随机场的越南语组合词歧义消歧模型中,根据组合词歧义消歧模型参数序列来对越南语组合词歧义字段进行消歧,得到最终消歧结果。

优选地,所述步骤Step1中,抽取组合词歧义字段方法,得到越南语组合词歧义字段的具体步骤为:

Step1.1、使用分词工具对越南语分词句子级语料进行分词,得到分词语料;

Step1.2、从网站和字典中收集越南语组合词,形成越南语组合词词典;

Step1.3、然后将分词语料与越南语组合词词典进行匹配;组合词在越南语语料中是普遍存在的,很难运用现有的工具把组合词从语料中抽取出来,只有通过先建立好的越南语组合词字典与分词语料进行一一对应的匹配,才能准确的把组合词抽取出来;

Step1.4、获取越南语组合词歧义片段;如果词素A和词素B都在越南语组合词词典中,并且AB组成的词也在越南语组合词字典中,则取出词组AB,词组AB的元素为越南语组合词歧义片段;如图2所示;

Step1.5、根据取出组合词歧义片段提取词组AB前后2个词,拼接成组合词歧义字段。取出组合词歧义片段词组AB前后2个词,更好的保留组合词所在语料中的语境信息,能更好的建立组合词歧义特征,使消歧结果更好;经过查询大量论文,得出取前后1个词效果不好,取前后3个词影响的因素又太多,所以取前后2个词更好;

其中,根据抽取组合词歧义字段方法,能构建出越南语字典60951条(组合词),抽取越南语组合歧义字段8619条,从而能更好的进行对越南语组合歧义消歧的下一步工作。

优选地,所述步骤Step1.1中,获取越南语分词句子级语料的具体步骤为:

Step1.1.1、构建爬虫程序,爬取出网页信息;

Step1.1.2、对网页信息数据进行预处理,包括:去重处理,去除垃圾广告等,构建出越南语文本语料库;

Step1.1.3、根据越南语分词工具进行越南语文本语料库的语料分词,并进行人工校对,形成越南语分词句子级语料。

优选地,所述步骤Step2中,提取的越南语组合词歧义字段特征包括:词频特征、语境信息特征、词内特征。

从构建好的特征与组合词歧义字段中取出词级组合词歧义字段测试语料;这些待消歧的词最好是没有包含在训练语料当中,这样为了测试消歧模型的正确率,

正确率是评价一个模型被识别出来的正确个数与总个数的比值,可以用来衡量模型的好坏;本发明采用准确率作为对歧义模型的测评标注,准确率为正确的消歧结果。定义如下:

p=NrNc×100%

其中,Nr为测试语料中切分正确的歧义片段的个数,Nc为测试语料中的歧义片段总数。为了弄清楚三类特征对歧义模型的贡献程度,我们将词频特征、语境信息特征和词内特征分别作为独立特征构建CRFs模型,各个特征的贡献程度通过准确率进行比较,如表3所示。

表3三类特征分别实验

编号特征准确率实验1词频特征69.67%实验2语境信息特征57.54%实验3词内特征56.37%

从表3可以看出,独立使用词频特征构建歧义模型时的准确率为69.67%,比独立使用语境信息特征高出12.13%,比独立使用词内特征高出13.30%。由此可见,两类统计信息对歧义的正确切分有巨大影响,然后是语境信息特征,最后是词内特征。

为了评估歧义模型的效果,我们将8619条歧义字段分为五份,其中一份做测试语料,另外四份作为训练语料,做五倍交叉验证实验,五倍交叉实验是实验一选取第一份为测试语料,另外四份作为训练语料;实验二选取第二份为测试语料,另外四份为训练语料;以此类推到实验五第五份为测试语料,另外四份为训练语料,然后求其平均准确率,作为歧义模型的测评结果。实验结果如图3所示。

从图3中可以看出,实验4的准确率达到了86.05%,为局部最高。对五倍交叉验证的实验结果求平均,得到歧义模型的准确率为84.79%。

目前没有发现越南语做相关的组合歧义消歧的研究报告,为了进一步评估歧义模型的效果,我们同时也用最大熵模型、支持向量机模型分别对歧义字段构建消歧模型,用最大熵模型和支持向量机模型消歧结果的平均准确率与条件随机场模型进行对比实验。实验结果如图4所示。

从图4中可以看出,条件随机场模型的消歧结果平均准确率比最大熵模型高2.11%、比支持向量机模型高出1.53%。可见条件随机场模型在组合词歧义问题上比最大熵模型和支持向量机模型的效果好。

上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号