首页> 中文学位 >古代汉语史书语料库建设的初步研究
【6h】

古代汉语史书语料库建设的初步研究

代理获取

目录

声明

摘要

第1章 背景与工作介绍

1.1 背景

1.1.1 时代的需求

1.1.2 自然语言处理的内容

1.1.3 自然语言处理的定义

1.2 自然语言处理的历史发展

1.2.1 开创时期

1.2.2 理性主义盛行时期

1.2.3 经验主义复苏时期

1.2.4 繁荣时期

1.2.5 研究现状

1.3 语料库

1.3.1 语料库的分类

1.3.2 国外的语料库建设

1.3.3 国内的语料库建设

1.3.4 国内的古代汉语语料库建设

1.4 本文工作介绍

1.4.1 古代汉语史书语料库建设的一般过程与通用算法

1.4.2 基本的索引与检索工具

1.4.3 主要算法与数据结构

1.4.4 系统设计与一整套工具软件的开发

1.4.5 《资治通鉴》语料库的具体构建

第2章 史书语料库建设的流程与算法

2.1 语料的选择

2.2 编码问题

2.2.1 编码的选择

2.2.2 私用汉字编码

2.3 标注格式的确定

2.4 网页文档到粗糙语料的转化

2.5 字符层面的清洁

2.6 断句、断句标点的清洁

2.7 本章小结

第3章 语料库的查询

3.1 语料库的基本特点

3.2 语料库查询的基本问题

3.2.1 检索的基本问题

3.2.2 语言关系的基本问题

3.3 统一的解决方案:SAG

3.3.1 基本思想

3.3.2 SAG的基本结构

3.3.3 SAG的基本操作

3.3.4 算法的设计

3.4 本章小结

第4章 重要算法与结构

4.1 多模式字符串搜索

4.1.1 Aho-Corasick算法

4.1.2 改进算法automps

4.1.3 等长多字节编码的处理

4.2 网页正文抽取

4.3 编码字符处理

4.3.1 不等长编码字符获取mixgetter

4.3.2 不等长编码文本遍历iterate_text

4.3.3 字符层面清洁

4.4 语料剖析

4.4.1 剖析至段落层次

4.4.2 段落剖析算法

4.4.3 断句算法

4.5 SAG-2在GB18030双字节编码下的设计

4.6 本章小结

第5章 系统设计

5.1 结构与组织

5.1.1 主要功能模块与语料数据处理过程

5.1.2 系统组织

5.1.3 语料库组织

5.1.4 应用程序组织

5.2 主要应用程序的设计与算法

5.2.1 html2txt

5.2.2 wordpurify

5.2.3 sntcpurify

5.2.4 sntccut

5.3 语料库建设的操作步骤

5.4 通用性与可移植性考虑

5.5 系统结构组织列表

5.6 本章小结

第6章 《资治通鉴》语料库建设与实验

6.1 实例:《资治通鉴》语料库建设

6.1.1 选择《资治通鉴》作为语料

6.1.2 选择GB18030双字节编码

6.1.3 确定标注格式

6.1.4 网页文档到粗糙语料的转化

6.1.5 字符层面的清洁

6.1.6 断句、断句标点的清洁

6.2 实验方法

6.2.1 正确性验证

6.2.2 效率验证

6.3 实验内容与结论

6.3.1 正确性

6.3.2 效率

6.3.3 实验结论

6.4 工作环境

6.5 本章小结

第7章 总结与展望

7.1 总结

7.2 展望

参考文献

致谢

展开▼

摘要

如何利用计算机对自然语言进行处理,以便分析、综合、翻译其内容,有着重要的理论与实用价值。在海量数据涌现的互联网时代,尤为重要。
  在自然语言处理中,以大量真实语料构建语料库并使用统计方法获得之中的语言知识以建立模型进行处理的方法,获得了蓬勃发展,在实践中有着良好表现。而语料库建设,就成了自然语言处理的基础工作。
  本文探讨古代汉语史书语料库的建设。阐述了建设的一般流程;讨论了语料的选择、编码的确定、字符层面的清洁处理、断句以及断句标点的清洁处理等主要步骤;给出了从已有网页文档开始,直到生成经过清洁处理、断句的初步加工的语料的通用算法;接着,本文探讨了语料库的查询功能的设计;之后,详细描述了若干关键算法与结构的设计与实现;在以上工作基础上,开发了一整套用于语料建设的工具软件;并具体构建了《资治通鉴》语料库。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号