声明
致谢
摘要
1 引言
1.1 课题研究背景及意义
1.2 国内外研究现状
1.3 研究目标与内容
1.4 论文组织结构
2 理论与技术基础
2.1 中文分词难点
2.1.1 歧义切分
2.1.2 未登录词识别
2.2 基于序列标注的中文分词方法
2.2.1 CIU原理
2.2.2 标注集和特征模版
2.3 基于统计特征的领域自适应方法
2.3.1 n-gram频度值
2.3.2 n-gram AV值特征
2.3.3 基于统计特征的领域自适应方法
2.4 本章小结
3 基于Active learning的中文分词领域自适应方法
3.1 基于Active learning的中文分词领域自适应方法的设计
3.2 Active learning算法介绍
3.3 Active learning算法分类及应用
3.3.1 基于池的样例选择算法
3.3.2 基于流的样例选择算法
3.3.3 Active learning算法的实例应用
3.4 本章小结
4 科技领域自适应的特例研究
4.1 分词系统的建立
4.2 人工分词标注标准的制定
4.3 实验设计
4.3.1 实验数据准备
4.3.2 实验步骤
4.4 评价与分析
4.4.1 评测指标
4.4.2 分词精度评测
4.5 在机器翻译中的应用
4.5.1 基于Active leaming算法的短语对和词典的抽取
4.5.2 在科技领域应用的结果与分析
4.6 本章小结
5 总结和展望
参考文献
作者简历及攻读硕士学位期间取得的研究成果
声明
学位论文数据集