首页> 中文学位 >基于条件随机场模型的新词发现系统研究与实现
【6h】

基于条件随机场模型的新词发现系统研究与实现

代理获取

目录

中文封面

英文封面

摘 要

Abstract

目 录

第1章 绪论

1.1 课题背景

1.2 本课题研究意义

1.3 国内外相关技术发展现状

1.4 本文主要研究内容

1.5 本章小结

第2章 新词发现方法概述

2.1 基于语言学的新词发现

2.2 基于统计的新词发现

2.3 两种方法的混合

2.4 本章小结

第3章 条件随机场模型描述

3.1简介

3.2 标记偏见问题

3.3 条件随机场模型

3.3.1 条件随机场定义

3.3.2 条件随机场的参数估计

3.4 条件随机场与以往模型的比较

3.4.1隐马尔可夫模型的缺点

3.4.2最大熵马尔可夫模型的缺点

3.4.3条件随机场的优点及不足

3.5 本章小结

第4章 基于条件随机场的新词发现系统

4.1 训练集和测试集的准备

4.2 基于条件随机场的新词发现方法

4.3 网页净化技术

4.3.1 HTML Parser

4.3.2 页面净化模块

4.4 新词筛选和反馈系统

4.5 本章小结

第5章 实验结果及分析

5.1 实验环境

5.2 测试结果与分析

5.2.1 测试结果及分析

5.2.2 错误结果分析

5.3 反馈规则效率讨论

5.4 本章小结

结 论

参考文献

攻读学位期间发表的学术论文

哈尔滨工业大学硕士学位论文原创性声明

哈尔滨工业大学硕士学位论文使用授权书

致 谢

简 历

展开▼

摘要

新词发现是自然语言处理领域一个非常重要的课题。它对词典构造及分词系统的性能有着很大的影响。但由于汉语自身的复杂性,新词发现问题一直是中文自然语言处理的难题。
  条件随机场是一种无向图模型,它具有产生式模型和最大熵马尔可夫模型的优点。既可以利用任意上下文特征,并对这些特征进行训练;又可以通过折衷不同位置的不同特征值的方法获得全局最优的标记结果。
  本文使用了条件随机场模型进行中文新词发现,并提出了两项改进:汉字粗标记和非法状态识别。加入这两项改进,能够将未登录词的召回率提高15%。这也是新词发现系统最重要的评价指标。而反馈库的加入,也将系统的准确率提高了30%。
  本文的研究内容主要包括以下几个方面:
  1)使用条件随机场模型进行新词发现工作,并对原始的条件随机场模型进行了改进,使用了汉字粗标记和非法状态识别的技术。
  2)为了保证词典的准确,系统加入了搜索引擎辅助筛选和人工筛选功能。
  3)加入反馈系统,能够将经过筛选的错误加入规则库,提高系统的效率。
  4)在处理网页信息时,使用了网页净化技术来处理网页。本文使用Sighan Bakeoff 2005封闭测试提供的北京大学人民日报语料作为实验语料,取得了0.933的F值,以及0.803的未登录词召回率和0.973的已登录词召回率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号