基于统计语言模型的汉语浅层分析研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

本文在统计方法的基础上对汉语浅层分析进行了研究，主要包括：新词识别，命名实体识别和组块分析．提出了互信息与串频统计相结合的新词识别方法．识别的新词主要指未登录词中的非命名实体．将单字、单字词及其相邻的多字词列入新词的候选成分，计算候选成分之间的互信息时，融合了成词可信度信息和词长信息，并将串频统计信息加入到可能包含新词的候选字段对应的互信息向量中．该方法可以识别由多字词与单字或多字词与单字词组成的新词，取得了较好的新词识别结果．命名实体是一种很重要的未登录词．未登录词的存在会造成自动分词的错误，分词错误又会反过来影响未登录词的识别．针对自动分词与命名实体识别之间存在互相影响的矛盾问题，提出了一种基于有向图语言模型的与分词一体化的命名实体识别方法．将普通候选词和命名实体候选词映射为有向图节点，将候选词之间的接续关系映射为有向边．利用N-gram模型为有向边赋以合适的权值，使句子最好的分词方式尽可能对应有向图的最短路径．该一体化方法提高了命名实体识别的精度．给出了双规则AdaBoost(DR-AdaBoost)分类算法并将其成功应用于汉语组块分析．DR-AdaBoost算法在每次迭代中将双规则(最优弱分类规则和次优弱分类规则)线性组合作为评价标准．在UCI数据集和CoNLL-2000共享数据集(英语组块分析)上的测试结果表明，该算法与AdaBoost算法相比，收敛速度快且分类精度高．在汉语组块分析任务中，DR-AdaBoost算法提高了组块分析的精度．DR-AdaBoost算法还可以应用于其它自然语言处理任务或其它分类问题中.

著录项

作者
高红;
展开▼
作者单位

大连理工大学;

展开▼
授予单位大连理工大学;
学科计算机应用技术
授予学位博士
导师姓名杨元生,黄德根;
年度 2007
页码
总页数
原文格式 PDF
正文语种中文
中图分类机器翻译;翻译机;
关键词
自然语言处理; 汉语浅层分析; 统计语言模型; 新词识别;

相似文献

中文文献
外文文献
专利

1. 基于字统计语言模型的汉语语音识别研究 [J] . 吴应良 ,韦岗 ,李海洲 . 计算机应用研究 . 2000,第005期
2. 汉语统计语言模型训练样本容量的定量化度量 [J] . 张仰森 . 计算机科学 . 2009,第010期
3. 利用覆盖歧义检测法和统计语言模型进行汉语自动分词 [J] . 王显芳 ,杜利民 . 电子与信息学报 . 2003,第009期
4. 一种改进的汉语N元文法统计语言模型 [J] . 田斌 ,田红心 ,易克初 . 西安电子科技大学学报（自然科学版） . 2000,第001期
5. 汉语大词表N—gram统计语言模型构造算法 [J] . 徐志明 ,王晓龙 . 计算机应用研究 . 1999,第006期
6. 基于规则和统计的汉语浅层句法分析的研究 [C] . 庞文斌 ,张国煊 ,曹恬 . 全国第八届计算语言学联合学术会议 . 2005
7. 基于统计语言模型的汉语词法分析研究 [A] . 赵岩 . 2005

基于统计语言模型的汉语浅层分析研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅