摘要
第1章 绪论
1.1 研究背景及意义
1.2 新词发现相关研究综述
1.2.1 新词定义及其识别难点
1.2.2 新词的研究领域
1.2.3 新词识别的研究现状
1.2.4 本文解决的新词识别问题
1.3 新词词性推测相关研究综述
1.3.1 新词词性推测的研究意义和目的
1.3.2 新词词性推测的研究现状
1.3.3 新词词性推测的技术难点分析
1.4 分词系统相关研究综述
1.4.1 中文分词的背景
1.4.2 中文分词算法
1.4.3 中文分词难点
1.4.4 中文分词的应用
1.5 本文的主要工作内容
1.6 本文结构
第2章 PMI方法和PMI改进方法
2.1 PMI方法定义及其定理
2.2 PMI改进方法定义及其定理
2.3 本章小结
第3章 新词发现
3.1 语料库预处理阶段
3.2 统计1-n元字串串频
3.3 新词抽取
3.3.1 确定2元待扩展种子
3.3.2 将2元待扩展种子扩展至2-n元候选新词
3.3.3 规则过滤
3.4 新词判定
3.5 实验结果与分析
3.5.1 实验数据
3.5.2 实验结果
3.5.3 结果分析
3.6 本章小结
第4章 新词词性推测
4.1 语料库预处理阶段
4.2 解析XML文件及统计句频
4.3 抽取模板
4.4 抽取新词词性
4.5 词性抽取实验
4.5.1 实验数据
4.5.2 实验结果
4.5.3 结果分析
4.6 本章小结
第5章 分词系统的改进
5.1 改进分词系统的方法
5.2 基于ICTCLAS系统测试
5.2.1 测试数据
5.2.2 测试方法
5.2.3 测试结果
5.2.4 测试结果分析
5.3 本章小结
第6章 结论与展望
6.1 本文总结
6.2 展望
参考文献
攻读学位期间取得的研究成果
致谢
声明