首页> 中文学位 >面向全文标注的中文词义消歧研究与实现
【6h】

面向全文标注的中文词义消歧研究与实现

代理获取

目录

声明

摘要

第1章 绪论

1.1 词义消歧的研究背景及意义

1.1.1 研究背景

1.1.2 研究意义

1.2 词义消歧

1.2.1 词义消歧的概念及分类

1.2.2 词义消歧方法

1.2.3 特征选择

1.2.4 评价指标

1.3 论文的主要研究内容

1.4 论文组织结构

第2章 词义消歧研究现状

2.1 基于知识的消歧方法

2.2 有监督的消歧方法

2.3 半监督的消歧方法

2.4 无监督的消歧方法

2.5 本章小结

第3章 相关预处理工作

3.1 词典映射处理

3.1.1 《现代汉语语义词典》介绍

3.1.2 《现代汉语语法信息词典》介绍

3.1.3 基于B/S架构的词典映射工具

3.1.4 映射结果分析及词典修正

3.2 语料资源预处理

3.2.1 三个月《人民日报》精标注语料介绍

3.2.2 基于词典映射结果的义项标记替换

3.3 本章小结

第4章 面向全文标注的主动学习消歧方法研究与实现

4.1 模型选择

4.2 特征模板构建

4.2.1 相对词频比RFR介绍

4.2.2 窗口选择

4.3 基于主动学习的全文消歧方法

4.3.1 全文消唛方法的基本思想

4.3.2 基于《现代汉语辞海》搭配词语的实验与分析

4.3.3 基于相对词频比的主动学习方法实验与分析

4.4 基于B/S架构的面向全文标注的词义消歧平台

4.4.1 Django框架简介

4.4.2 平台功能结构

4.5 本章小结

第5章 总结与展望

5.1 本文工作总结

5.2 工作展望

参考文献

致谢

附录

展开▼

摘要

词义消歧是自然语言处理领域中一项重要研究课题,消歧效果的好坏对机器翻译、信息检索、信息抽取与文本挖掘、语音识别等方面具有重大影响,因此词义消歧具有重要的理论研究和实际应用意义。
  词义消歧任务主要分为采样任务和全词任务,本文主要针对全词任务进行消歧研究,即对给定文本中出现的所有多义词进行词义标注。为实现全文标注这一目标,本文主要完成了以下工作:
  1.选用《现代汉语语义词典》(SKCC)作为词义标注体系,但现有的部分已标注词义语料采用的词义标注体系为《现代汉语语法信息词典》(GKB),并且,SKCC中部分多义词的词义划分与GKB存在不一致的情况。为了使词义标注体系SKCC更加准确合理,本文进行了词典映射工作,并将已标注语料中GKB的义项标记转换为SKCC中对应标记。为方便快捷地建立词典映射关系,开发了词典映射工具。该工具能够对两部词典中词义相同的义项自动建立映射关系,为词典映射提供了极大的便利。基于词典映射结果,邀请语言学专业的同学对SKCC中部分多义词进行了词义修正,使词典中的词义划分更加合理。
  2.为实现对所有多义词进行消歧,本文提出了基于相对词频比的主动学习方法。该方法从大规模未标注语料中计算目标多义词上下文的相对词频比,用相对词频比表示目标多义词与上下文词语的搭配强度,选择搭配强度较大的上下文词语作为目标词的常用搭配词,利用搭配词人工标注目标词义项,从而实现未标注语料的批量标注,并且将标注后的语料作为训练语料。随机抽取8个多义词进行消歧实验,利用已标注语料进行有监督实验,平均准确率仅有74.52%,对于相同测试语料,采用一致的特征选择方法,基于相对词频比的主动学习方法取得的平均准确率为85.01%,比有监督方法提高了10.49%。
  3.依托国家自然科学基金项目“汉语词义标注关键技术研究”,需要对项目中“面向全文词义消歧”子任务在研究基础上进行工程实现,开发了面向全文标注的词义消歧平台。该平台基于Django框架技术,共有词语义项查询、多义词训练实例分布查询、人工标注、词义消歧四大模块,不仅能够利用消歧模型对输入文本进行自动词义标注,还能够进行人工标注增加训练语料规模,改善后台消歧模型的消歧正确率,使平台拥有可扩展性。随着标注实例的不断添加,训练语料不断改变,以及消歧模型的不断更新,该平台将具有更大的应用价值。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号