声明
摘要
第1章 背景与工作介绍
1.1 背景
1.1.1 时代的需求
1.1.2 自然语言处理的内容
1.1.3 自然语言处理的定义
1.2 自然语言处理的历史发展
1.2.1 开创时期
1.2.2 理性主义盛行时期
1.2.3 经验主义复苏时期
1.2.4 繁荣时期
1.2.5 研究现状
1.3 语料库
1.3.1 语料库的分类
1.3.2 国外的语料库建设
1.3.3 国内的语料库建设
1.3.4 国内的古代汉语语料库建设
1.4 本文工作介绍
1.4.1 古代汉语史书语料库建设的一般过程与通用算法
1.4.2 基本的索引与检索工具
1.4.3 主要算法与数据结构
1.4.4 系统设计与一整套工具软件的开发
1.4.5 《资治通鉴》语料库的具体构建
第2章 史书语料库建设的流程与算法
2.1 语料的选择
2.2 编码问题
2.2.1 编码的选择
2.2.2 私用汉字编码
2.3 标注格式的确定
2.4 网页文档到粗糙语料的转化
2.5 字符层面的清洁
2.6 断句、断句标点的清洁
2.7 本章小结
第3章 语料库的查询
3.1 语料库的基本特点
3.2 语料库查询的基本问题
3.2.1 检索的基本问题
3.2.2 语言关系的基本问题
3.3 统一的解决方案:SAG
3.3.1 基本思想
3.3.2 SAG的基本结构
3.3.3 SAG的基本操作
3.3.4 算法的设计
3.4 本章小结
第4章 重要算法与结构
4.1 多模式字符串搜索
4.1.1 Aho-Corasick算法
4.1.2 改进算法automps
4.1.3 等长多字节编码的处理
4.2 网页正文抽取
4.3 编码字符处理
4.3.1 不等长编码字符获取mixgetter
4.3.2 不等长编码文本遍历iterate_text
4.3.3 字符层面清洁
4.4 语料剖析
4.4.1 剖析至段落层次
4.4.2 段落剖析算法
4.4.3 断句算法
4.5 SAG-2在GB18030双字节编码下的设计
4.6 本章小结
第5章 系统设计
5.1 结构与组织
5.1.1 主要功能模块与语料数据处理过程
5.1.2 系统组织
5.1.3 语料库组织
5.1.4 应用程序组织
5.2 主要应用程序的设计与算法
5.2.1 html2txt
5.2.2 wordpurify
5.2.3 sntcpurify
5.2.4 sntccut
5.3 语料库建设的操作步骤
5.4 通用性与可移植性考虑
5.5 系统结构组织列表
5.6 本章小结
第6章 《资治通鉴》语料库建设与实验
6.1 实例:《资治通鉴》语料库建设
6.1.1 选择《资治通鉴》作为语料
6.1.2 选择GB18030双字节编码
6.1.3 确定标注格式
6.1.4 网页文档到粗糙语料的转化
6.1.5 字符层面的清洁
6.1.6 断句、断句标点的清洁
6.2 实验方法
6.2.1 正确性验证
6.2.2 效率验证
6.3 实验内容与结论
6.3.1 正确性
6.3.2 效率
6.3.3 实验结论
6.4 工作环境
6.5 本章小结
第7章 总结与展望
7.1 总结
7.2 展望
参考文献
致谢