首页> 中文学位 >基于互联网海量语料的新词发现研究及中文分词系统改进
【6h】

基于互联网海量语料的新词发现研究及中文分词系统改进

代理获取

目录

摘要

第1章 绪论

1.1 研究背景及意义

1.2 新词发现相关研究综述

1.2.1 新词定义及其识别难点

1.2.2 新词的研究领域

1.2.3 新词识别的研究现状

1.2.4 本文解决的新词识别问题

1.3 新词词性推测相关研究综述

1.3.1 新词词性推测的研究意义和目的

1.3.2 新词词性推测的研究现状

1.3.3 新词词性推测的技术难点分析

1.4 分词系统相关研究综述

1.4.1 中文分词的背景

1.4.2 中文分词算法

1.4.3 中文分词难点

1.4.4 中文分词的应用

1.5 本文的主要工作内容

1.6 本文结构

第2章 PMI方法和PMI改进方法

2.1 PMI方法定义及其定理

2.2 PMI改进方法定义及其定理

2.3 本章小结

第3章 新词发现

3.1 语料库预处理阶段

3.2 统计1-n元字串串频

3.3 新词抽取

3.3.1 确定2元待扩展种子

3.3.2 将2元待扩展种子扩展至2-n元候选新词

3.3.3 规则过滤

3.4 新词判定

3.5 实验结果与分析

3.5.1 实验数据

3.5.2 实验结果

3.5.3 结果分析

3.6 本章小结

第4章 新词词性推测

4.1 语料库预处理阶段

4.2 解析XML文件及统计句频

4.3 抽取模板

4.4 抽取新词词性

4.5 词性抽取实验

4.5.1 实验数据

4.5.2 实验结果

4.5.3 结果分析

4.6 本章小结

第5章 分词系统的改进

5.1 改进分词系统的方法

5.2 基于ICTCLAS系统测试

5.2.1 测试数据

5.2.2 测试方法

5.2.3 测试结果

5.2.4 测试结果分析

5.3 本章小结

第6章 结论与展望

6.1 本文总结

6.2 展望

参考文献

攻读学位期间取得的研究成果

致谢

声明

展开▼

摘要

中文自动分词是中文自然语言处理的基础。随着Web2.0的发展,网络新词的自动识别已经成为中文分词的一个主要难点和瓶颈。对此提出了一种非监督的新词识别方法,该方法利用互信息(PMI,Point-wise Mutual Information)的改进算法—PMIk算法与少量的基本规则相结合从大规模语料中自动识别2-n元网络新词(n代表发现的新词最大长度,可以根据需要指定)。
  新词基于257MB的百度贴吧语料实验,当PMIk方法的参数等于5时,结果精度达到84.8%,相对PMI方法精度提高了16.2%,实验结果表明该新词发现方法能够有效的从大规模网络语料中发现新词。基于大规模语料库对这些新词进行词性推测,得到的结果编纂成用户词典,加载到汉语词法分析系统ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System)中,基于10KB的百度贴吧语料实验,相对加载用户词典前的分词结果准确率、召回率和F-值分别提高7.93%、3.73%和5.91%,实验表明通过进行新词发现能有效改善分词系统对网络文本的处理效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号