首页> 中文学位 >基于上古文献的词汇级语义知识挖掘研究
【6h】

基于上古文献的词汇级语义知识挖掘研究

代理获取

目录

声明

图目录

表目录

摘要

第一章 绪论

1.1 研究背景

1.2 研究意义

1.3 研究方法

1.4 主要工作及创新点

1.5 本文组织结构及章节安排

第二章 相关研究综述

2.1 人文计算的相关研究综述

2.1.1 国外人文计算的相关研究概况

2.1.2 国内人文计算的相关研究概况

2.2 古文献词汇知识挖掘的相关研究

2.2.1 古汉语词汇前期处理

2.2.2 古文献词汇知识挖掘

2.3 本章小结

第三章 基于上古文献的古汉语语料库构建标注研究

3.1 上古文献语料库介绍

3.1.1 上古文献概述

3.1.2 语料库简介

3.2 古汉语语料库的分词

3.3 古汉语词性标注及命名实体识别研究

3.3.1 古汉语词性标注研究

3.3.2 古汉语命名实体识别研究

3.4 上古文献词汇分布特征抽取

3.4.1 上古文献的字分布统计

3.4.2 上古文献的词汇分布统计

3.5 本章小结

第四章 基于CRF的古汉语分词和词性训练模型研究

4.1 条件随机场模型简介

4.1.1 模型介绍

4.1.2 CRF模型的原理及描述

4.2 基于CRF的古汉语训练语料的预处理

4.2.1 CRF工具包的选用

4.2.2 古汉语语料的选取及预处理

4.2.3 古汉语语料中CRF特征的选取及特征模板的确定

4.3 实验过程及实验结果分析

4.3.1 实验过程

4.3.2 实验结果分析

4.3.3 实验错误分析及不足之处

4.4 本章小结

第五章 基于复杂网络的古汉语词汇概貌研究

5.1 语言网络的简要介绍

5.1.1 语言网络的度量

5.1.2 常用语言网络

5.2 古汉语语料的齐普夫分布

5.2.1 古汉语语料的来源

5.2.2 古汉语语料与齐普夫定律

5.3 实验及结果分析

5.3.1 古汉语词汇网络的建立

5.3.2 古汉语词汇网络的特征分析

5.3.3 古汉语词汇网络的小世界现象分析

5.4 本章小结

第六章 总结与展望

6.1 主要结论

6.2 存在的局限性

6.3 研究展望

参考文献

致谢

附录

展开▼

摘要

“人文计算”是一个将现代信息技术融入到传统人文社会科学研究中的交叉研究领域。随着“互联网+”概念的兴起,数字化浪潮持续推进,“人文计算”已成为情报学、语言学和中文信息处理领域的重要研究课题。近几年来,情报语言学界更是涌现了一批古籍数字化、古汉语文献语料库资源建设等人文计算领域的新项目。当前,现代汉语相关的信息处理研究已经深入到篇章层面,但古代汉语相关的信息处理大多仍停留在字处理的阶段,因而,对古代汉语词汇级层面的相关知识进行探索,对于我们完善现有的古汉语信息处理研究体系具有十分重要的现实意义。本文中的上古文献指的是先秦时期的古汉语文献,在研究过程中,运用了语料库、人文计算、机器统计模型、复杂网络等领域的相关知识,开展了古汉语文献词汇级层面的知识挖掘工作。
  本文的总体研究目标就是融合数字人文的思想开展先秦古汉语词汇级层面的知识挖掘研究,运用情报语言学领域内的多种研究方法,探寻上古文献语料库中蕴含的有用知识,研究结果一方面可以帮助人们探索汉语言的发展历史和规律,另一方面为古汉语信息处理以及情报知识发现服务。
  本文的研究都是基于由25部具有代表性的先秦古文献所构建的上古汉语语料库开展的,主要研究内容包括如下三个部分:一是进行上古文献的古汉语语料库构建标注研究,这部分首先介绍了这25部先秦古文献的基本情况,接着分别介绍了古汉语语料库、古汉语分词、古汉语词性标注以及命名实体识别的相关知识,最后选取语料库中的部分上古文献进行了简单的字词分布统计,并对其中的内部规律作了分析;二是基于条件随机场模型与古汉语语言规则相结合的方法进行古汉语的分词及词性训练模型研究,这部分首先详细介绍了条件随机场模型的相关知识以及如何对古汉语语料进行预处理、如何选取特征模板,然后针对上古汉语语料库设计了基于条件随机场模型的封闭性测试及开放性测试两组对比实验,在这两组对比实验的基础上又开展了子实验,最终显示,封闭性测试得到的调和平均数(F)的数值在99%左右,开放性测试得到的调和平均数(F)的数值在90%左右,两组实验都取得了比较理想的效果;三是运用复杂网络开展古汉语词汇概貌研究,这部分首先介绍了语言网络的相关概念和常用的统计指标,然后介绍了3个常见语言网络,实验环节选取部分上古文献验证了古汉语文献是否满足齐普夫分布,并选取相关上古文献通过Pajek软件构建了古汉语词汇网络,通过分析古汉语词汇网络中的常用统计指标判断古汉语网络是否具有小世界特性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号