首页> 中国专利> 一种融合了越南语语言特点的PCFG模型的越南语短语树库构建方法

一种融合了越南语语言特点的PCFG模型的越南语短语树库构建方法

摘要

本发明涉及一种融合了越南语语言特点的PCFG模型的越南语短语树库构建方法,属自然语言处理技术领域。本发明首先获取融合了越南语语言特点的PCFG模型中的语法规则概率;再制定越南语语言特征概率;将越南语语言特征概率作为语法规则概率的补充和语法规则概率一起融入到PCFG模型中,得到融合了越南语语言特点的PCFG模型;再进行初级越南语短语树库的构建;再利用短语树库校正器对新生成的越南语短语树库进行校正,最后得到最终的越南语短语树库。本发明避免了人工收集和标注越南语短语树库的过程,节省了人力和构建树库的时间;相比采用传统PCFG构建越南语短语树库和最大熵构建越南语短语树库方法准确率明显提高。

著录项

  • 公开/公告号CN105912529A

    专利类型发明专利

  • 公开/公告日2016-08-31

    原文格式PDF

  • 申请/专利权人 昆明理工大学;

    申请/专利号CN201610242291.4

  • 申请日2016-04-19

  • 分类号

  • 代理机构

  • 代理人

  • 地址 650093 云南省昆明市五华区学府路253号

  • 入库时间 2023-06-19 00:22:08

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-02-05

    授权

    授权

  • 2016-09-28

    实质审查的生效 IPC(主分类):G06F17/27 申请日:20160419

    实质审查的生效

  • 2016-08-31

    公开

    公开

说明书

技术领域

本发明涉及一种融合了越南语语言特点的PCFG模型的越南语短语树库构建方法,属于自然语言处理技术领域。

背景技术

越南与云南山水相连,两国人民之间的交往历史悠久,语言沟通在双方人民友好往来与相处、相互学习方面起到了十分重要的作用。因此,针对汉越双语的研究工作具有重要的现实意义。在越南语和汉语的互译过程中,越南语的句法分析是十分重要的基础工作。句法分析是根据给定的语法体系,自动推导出句子的语法结构,分析句子所包含的语法单元和这些语法单元之间的关系,将句子转化为一棵结构化的语法树。除了为词义消歧、语义分析提供技术支撑之外,句法分析的结果可直接用于机器翻译、问答系统、信息抽取等应用中,并改善应用的性能。目前的机器翻译系统越来越依赖于句法分析,串到树、树到串以及树到树的方法已经应用到机器翻译中,并在不断地提高机器翻译的准确率。短语结构分析法就是将句子切分成短语,分析出句子短语之间的层次关系。短语结构树主要是由终结点、非终结点以及短语标记构成的,其中最基本的成分是句法标记,也就是非终结点(例如名词短语NP、动词短语VP)。短语句法分析是机器分析语言句法特征非常有效的方法之一。越南语短语标注体系和越南语短语树库的构建,已经成为整个越南语短语句法分析的核心工作,如果能对该问题加以有效合理的解决,那么对对越南语的句法分析、机器翻译、信息抽取等上层应用可以提供有力支撑。

发明内容

本发明提供了一种融合了越南语语言特点的PCFG模型的越南语短语树库构建方法,以用于解决人工标注越南语短语树库比较困难的问题,构建规模较大的越南语短语树库比较稀缺的问题,本发明构建的越南语短语树库对越南语的句法分析、机器翻译、信息抽取等上层 应用能提供有力支撑。

本发明的技术方案是:一种融合了越南语语言特点的PCFG模型的越南语短语树库构建方法,所述融合了越南语语言特点的PCFG模型的越南语短语树库构建方法的具体步骤如下:

Step1、首先构建越南语短语树语料,并利用得到的语料获取融合了越南语语言特点的PCFG模型中的语法规则概率;

Step2、分析越南语的语言特征,主要针对越南语状语后置和定语后置的特点,制定越南语语言特征概率;

Step3、将越南语语言特征概率作为融合了越南语语言特点的PCFG模型中的语法规则概率的补充和语法规则概率一起融入到PCFG模型中,得到融合了越南语语言特点的PCFG模型;

Step4、将爬取的越南语网页经过规则提取、去重、机器标注、人工校对形成越南语文本语料库,作为构建初级越南语短语树库的测试语料;

Step5、把测试语料加载到融合了越南语语言特点的PCFG模型中进行初级越南语短语树库的构建;

Step6、再利用短语树库校正器对新生成的越南语短语树库进行校正,最后得到最终的越南语短语树库。

所述步骤Step1中,获取融合了越南语语言特点的PCFG模型中的语法规则概率的具体步骤如下:

Step1.1、从VLSP的组块语料中获取分词以后的越南语句子;

Step1.2、把得到的分词之后的越南语句子放在VLSP网站中分析得到对应的越南语短语树;

Step1.3、对得到的越南语短语树进行人工校对,得到越南语短语树语料;

Step1.4、将得到的越南语短语树语料利用Inside-Outside算法,获取融合了越南语语言特 点的PCFG模型中的语法规则概率。

所述步骤Step4的具体步骤如下:

Step4.1、对爬取的越南语语料进行预处理,去除html标签、格式标签、字符编码和噪音过滤等;

Step4.2、从预处理得到的语料中提取出正文和标题;

Step4.3、对Step4.2中得到的语料进行去重、机器标注处理,最后进行人工校对,形成越南语文本语料库,作为构建越南语短语树库的测试语料。

本发明的有益效果是:

1、构建的越南语短语树库对越南语的句法分析、机器翻译、信息抽取等上层应用能提供有力支撑;

2、构建了规模相对较大的越南语短语树语料库;

3、本发明提出的构建短语树的方法省略了人工收集和标注越南语短语树库的过程,大大的节省了人力和构建树库的时间;

4、本发明提出的构建短语树的方法在语料规模较小的情况下相比采用传统PCFG构建越南语短语树库和最大熵构建越南语短语树库方法准确率明显提高。

附图说明

图1为本发明中的流程图。

具体实施方式

实施例1:如图1所示,一种融合了越南语语言特点的PCFG模型的越南语短语树库构建方法。融合语言特点与上下文无关文法(PCFG)的越南语短语树库构建方法的具体步骤如下:

Step1、首先构建越南语短语树语料,并利用得到的语料获取融合了越南语语言特点的PCFG模型中的语法规则概率;

Step2、分析越南语的语言特征,主要针对越南语状语后置和定语后置的特点,制定越南语语言特征概率;

Step3、将越南语语言特征概率作为融合了越南语语言特点的PCFG模型中的语法规则概率的补充和语法规则概率一起融入到PCFG模型中,得到融合了越南语语言特点的PCFG模型;

Step4、将爬取的越南语网页经过规则提取、去重、机器标注、人工校对形成越南语文本语料库,作为构建初级越南语短语树库的测试语料;

Step5、把测试语料加载到融合了越南语语言特点的PCFG模型中进行初级越南语短语树库的构建;

Step6、再利用短语树库校正器对新生成的越南语短语树库进行校正,最后得到最终的越南语短语树库。

所述步骤Step1中,获取融合了越南语语言特点的PCFG模型中的语法规则概率的具体步骤如下:

Step1.1、从VLSP的组块语料中获取分词以后的越南语句子;

Step1.2、把得到的分词之后的越南语句子放在VLSP网站中分析得到对应的越南语短语树;

Step1.3、对得到的越南语短语树进行人工校对,得到越南语短语树语料;

Step1.4、将得到的越南语短语树语料利用Inside-Outside算法,获取融合了越南语语言特点的PCFG模型中的语法规则概率。

所述步骤Step4的具体步骤如下:

Step4.1、对爬取的越南语语料进行预处理,去除html标签、格式标签、字符编码和噪音过滤等;

Step4.2、从预处理得到的语料中提取出正文和标题;

Step4.3、对Step4.2中得到的语料进行去重、机器标注处理,最后进行人工校对,形成越 南语文本语料库,作为构建初级越南语短语树库的测试语料。

其中,所述步骤Step1中首先构建越南语短语树语料,并利用得到的语料获取融合了越南语语言特点的PCFG模型中的语法规则概率,具体的包含部分语法规则概率的选取结果如表1所示;

表1部分越南语语法规则概率示例

语法规则 概率值 S->NP VP 0.5 S->PP PU 0.05 S->VP 0.1 S->VP PU 0.1 S->NP 0.05

构建一定数量的越南语短语树语料是进行越南语短语树库构建的基础。只有建设出高质量的语料,才能以之为基础进行信息化开发工作。短语树语料也是进行融合语言特点PCFG短语树库构建研究不可缺少的一个组成部分。构建一定数量的短语树语料具体步骤如下:

1)、从VLSP平台的组块语料中获取分词以后的越南语句子;

首先在VLSP平台上下载越南语组块的语料,提取分词得到的越南语单句3000句。

2)、把得到的分词之后的越南语句子放在VLSP平台中分析得到对应的越南语短语树;

把得到的3000句分词之后的越南语单句,放在VLSP平台中可以得到对应的短语结构树库。

3)、对得到的越南语短语树让越南语老师和学生进行人工校对,从而得到准确率比较高的越南语短语树库;

为了能够更好的进行树库转换工作,请越南语老师和越南留学生对得到的3000句短语结构树库进行人工校对,以保证实验基础语料的准确性。

4)、利用得到短语树库语料,将其中的2000句作为训练语料,1000句作为测试语料,获取融合了越南语语言特点的PCFG模型中的语法规则概率;

对于规则概率值的估计一般做法是:首先通过统计训练语料库中出现的规则及其出现次数,然后再利用最大似然估计从规则出现频率估计出规则使用概率,作为规则的概率值,计算公式如下:

Pr(AX)=C(AX)Σγ(VTVN)C(AY)---(1)

这里C(A→X)表示规则A→X在树库中出现的次数,Pr(A→X)表示规则A→X的估计概率值。

这种做法使得规则概率值的设定对训练语料库的依赖程度非常的大,这就要求要有一个很大规模的树库作为训练语料,但在目前越南语树库规模较小的情况下,这种方法将使得概率值的设定完全依赖于树库中的句子,无法反映自然语言的真实规律。本文的做法还是沿用已有的Inside-Outside算法,首先通过树库统计得到规则的初始集,然后利用EM算法在训练语料库中进行迭代训练从而得到一个收敛的PCFG文法,唯一不同的一点在于产生式规则初始概率的设定上。为了尽量减少规则概率的估计对语料库的依赖,我们对利用公式(1)得到的规则的初始估计概率值进行再次估算,做法如下:

设置一个阀值Y,将规则分成高频规则集和低频规则集HFR和LFR,分别如下:

HFR={A→X|Pr(A→X)>γ}(2)

LFR={A→X|Pr(A→X)≤γ}(3)

假设M为LFR集合中规则的个数,N为HFR中所有规则的概率值的总和,即

N=∑(AX)HFRPr(A→X)(4)

此时再利用公式(5)与(6)得到用于开始迭代的初始概率值

这里a取值范围为0-1,是再次估计后HFR集合中所有规则的估计概率值的总和;同样的,(1-a)为LFR集合中规则的概率值总和,在本文的实验中a取值0.9。

其中,所述Step2分析越南语的语言特征,主要针对越南语状语后置和定语后置的特点,制定越南语语言特征概率,具体的包含语言特征概率的选取结果如表2所示;

越南语属于南亚语系,它是越南国家的母语。大多数说越南语的人都分布在东南亚。越南语是一种相当固定语序的语言,由固定的语序构成主谓宾(SVO),也就是说,他们一般的语序为:主语+谓语+宾语。每一种语言都有自己的语序,越南语主要依靠成分的顺序去传达重要的语法信息。尽管越南语文本的书写来源于拉丁字母表的变种(形体简单清楚,便于认读书写,流传很广,成为世界最通行的字母。始于十七世纪,广泛流行于二十世纪),越南语 有三个明显的特点区别去西方语言。

汉语和越南语差异性从修饰词与定语的位置、状语的位置、补宾语的位置这三个方面来讨论:

首先,从修饰词-定语的位置进行分析,越南语定语位置和汉语不同,越南语定语一般在中心词后边。例如:“là(她是)gái(女孩)xinh(美丽的)”。越南语里只有当数词、量词或指示代词“各”、“每”等充当的定语排在中心语之时,汉语和越语定位置才是相同的,例如:Anhmua(他买了)táo(一个苹果);Moi nguoi(每个人)(都笑了)。另外一种修饰词-定语的位置情况是,越南语的描写性多层定语的结构顺序与汉语呈镜像关系,汉语中描写性定语的顺序是:1-2-3-4-中心语;与之相反,越语的顺序是:中心语-4-3-2-1。例如:là(她是)gái(女孩)xinh(最美丽的)mà(我见过的)”。

其次,从修饰词-状语的位置进行分析,从状语的位置分析分为三种情况:第一,汉语与越南语状语成分大多数情况下是一致的,但是时间状语的问题上不相同,在汉语习惯中,时间的状语是放在主语后面,但在越南语中时间状语放是在句末的,例如:“Ngài(他没来上课)nay(今天)”;第二,越南语中由介词短语充当的时间的状语,一般这样的时间状语也放在句末,例如:“xànhà(我就远离家乡)tu(从小)”;第三,越南语里表示处所的状语一般位于谓语动词之后,例如:“(我常常吃饭)quán(在食堂)。

最后,从修饰词-补语和宾语的位置来进行分析:第一种情况:补语的语义指向宾语部分时,越南语的宾语和补语部分不能同时放在动词后面,例如:“ày dành(她打孩子)(哭了)”;第二种情况:补语的语义指向动词时,越语的宾语和补语能同时现于动词之后,例如:“dàn(妈妈织毛衣)nhành(很快)”。

更具上面的针对越南语的语法特征的分析,制定出越南语语法特征概率,具体的特征概率的部分示例在表2中给出。

表2部分越南语语言特征概率示例

语法规则 概率值 PP->E NP 0.5 PP->E 0.5 ADJP->R A 0.4 ADJP->A R 0.4 ADJP->R A C A 0.4 ADJP->A 0.4

其中,所述步骤Step3中将越南语语言特征概率作为融合了越南语语言特点的PCFG模型中的语法规则概率的补充和语法规则概率一起融入到传统的PCFG模型中,得到融合了越南语语言特点的PCFG模型;

结合Step2中得到的越南语语言特征概率以及Step1中得到的语法规则概率的分析,提出共现概率的计算方法,同时将这些方法融入到传统PCFG模型中,最终得到针对越南语短语树构建的新的PCFG模型。

对于结构共现概率的计算,我们采用的是最大似然估计的方法,以下是具体计算公式。对于处于句首的句法范畴C有向前共现概率:

对于非句首的句法范畴C有向前共现概率:

类似的有计算向后共现概率的方法。对于处于句尾的句法范畴C有向后共现概率:

对于非句尾的句法范畴C有向后共现概率:

在本文中统计概率时出现的数据稀疏问题我们采用一种简单的平滑方法来处理。对于以上公式(9)到(10),统一用公式(11)来表示:

P=MN---(11)

其中P是要求的概率,M是分子,是某一个要统计的频次,N是分母,是某一个总数。 对于统计得到M为零的情况,即出现零概率情况时,令其概率为1/N。为了保证总概率和为1,其他情况的概率则根据公式(12)来计算:

其中,所述Step4中将爬取的越南语网页经过规则提取、去重、机器标注、人工校对等步骤形成文本语料库,作为构建初级越南语短语树的测试语料;

基于前面构建的越南语短语树语料,这里使用MST算法训练得到依存关系模型,然后利用得到的模型对新的越南语句子进行训练,这里我们将越南语短语树库的规模扩充到20万句。

1)、从中国国际广播电台的越南语版块上爬取越南语新闻、广播、博客、论坛、学习中国、娱乐等十三个方面的语料;

网络新闻以网络为载体,具有全面、实时、多元等多个特点。在越南网络新闻中,关于中越两国之间的新闻报道越来越多,无疑互联网已经成为目前容量最大、速度最快和信息最为全面的新闻信息传播平台。因此,这种时效性的越南语网络应该作为我们语料的主要采集地。

目前,由于互联网的快速发展,关于越南语新闻的报道有很多网站,但是就越南语新闻的权威性来讲,目前,主要有以下网站,如下表3所示。

表3语料选取

网站名称 网站地址 中国国际广播电台 http://vietnamese.cri.cn/ 越南通讯社 http://www.vietnamplus.vn 越南每日快讯 http://vnexpress.net 越南人民报 http://www.nhandan.com.vn 越南共产党机关报 http://dangcongsan.vn

由于中国国际广播电台作为中越两国官方信息来源,它不仅实时的报道越南语国内国家的实时新闻,还会报道中越两国之间各行各业,比如经济,政治、文化和娱乐等方面的信息,信息比较全面。不仅向中国而且向世界传达越南的真实面貌,并将世界其他国家的信息传达给越南国内的读者。所以本文选取中国国际广播电台网站作为越南语新闻语料的获取来源。

2)、对爬取的越南语语料进行预处理,去除html标签、格式标签、字符编码和噪音过滤等;

采集到新闻网页不仅包含了主题型网页,也包含了大量的目录型网页。其中主题型网页包含了主要的新闻信息,比如新闻标题、新闻正文、发布时间、作者,但也包含了许多噪音信息,比如,图片、广告、HTML标签等。而目录型网页则认为是噪音信息,必须过滤掉。通过对噪声网页特征的深入分析,本文采用特征阈值判别和规则相结合的方法过滤噪音网页,然后根据HTML标签过滤规则对网页数据进一步处理。

3)、从预处理得到的语料中提取出正文和标题;

通过上一步,可以得到新闻正文文本内容,但是内容是由段落构成,每个段落中有包含了一句或者n(你大于等于2)多句子构成,分词和词性标注模型的训练要求是句子级语料,所以有必要多新闻文本内容进行处理。通过句号、问号、感叹号为标识进行自动切分,得到越南语句子级文本语料库。

4)、对Step4.3中得到的语料进行去重、机器标注处理,最后由越南语老师和学生进行人工校对,形成文本语料库;

越南语的自然语言处理最重要的基础工作就是对越南语进行分词和词性标注,它也是越南语信息处理中重要的基础环节。有监督的训练方法需要标注语料,无论是分词还是词性标注,都需要从标注好的语料中学习、统计并提取标注规则,进而对非标注语料进行准确的标注。然而人工标注语料既费时又费力,所以为了节省时间和开销,我们采用了机器标注(已有的越南语分词工具VnTokenizer),人工校对的方式进行,最后形成文本语料库。

其中,所述步骤Step5中把测试语料加载到融合了越南语语言特点的PCFG模型中进行初级越南语短语树库的构建;

基于step3中得到的融合语言特点PCFG模型用Step4得到的越南语文本语料进行越南语短语树库的构建,最终得到初级越南语短语树库。

其中,所述步骤Step6中利用短语树库校正器对新生成的初级越南语短语树库进行校正,最后得到质量较高的越南语短语树库。

由于step5中得到的初级越南语短语树库在质量上存在一些问题,主要是由于所得到的到Step2中得到的越南语语言特征概率以及Step1中得到的语法规则概率并不能完全覆盖所有的越南语语法规则和语言特点所造成的,针对这一问题,利用短语树库校正器对初级越南语短语树库进行校正,最后得到质量较高的越南语短语树库。

本发明首先获取融合了越南语语言特点的PCFG模型中的语法规则概率;再制定越南语语言特征概率;将越南语语言特征概率作为语法规则概率的补充和语法规则概率一起融入到PCFG模型中,得到融合了越南语语言特点的PCFG模型;再进行初级越南语短语树库的构建;再利用短语树库校正器对新生成的越南语短语树库进行校正,最后得到最终的越南语短语树库。

实验结果如表4所示。表4中可以看出,采用以融合语言特点与上下文无关文法(PCFG)的越南语短语树库构建方法所生成的越南语短语树库,准确率相比采用传统PCFG构建越南语短语树库和最大熵构建越南语短语树库方法准确率明显提高

其中,采用PARSEVAL句法分析评价体系,它是一种国际上通用的评测标准。主要由准确率(LP)、召回率(LR)和F值三个指标,F值综合考虑了准确率和召回率。其定义如下:

表4其他方法和本发明方法的比较

方法 LR% LP% F值% 传统PCFG构建的越南语短语树库 81.36 80.64 81.00 最大熵构建的越南语短语树库 79.83 78.69 79.26 融合语言特征PCFG构建的越南语短语树库 85.12 84.33 84.72

上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号