首页> 中文学位 >复杂汉语概念复合块的标注与分析
【6h】

复杂汉语概念复合块的标注与分析

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景

1.2 国内外研究现状

1.2.1 树库的建设

1.2.2 树库的分类

1.2.3 汉语树库的建设

1.3 本文研究思路和主要工作

1.4 论文组织结构

第2章 相关理论和资源概述

2.1 概念复合块概述

2.1.1 概念复合块描述体系

2.1.2 概念复合块的分类

2.2 《知网》概述

2.2.1 《知网》的特色

2.2.2 《知网》的知识表述方式和词汇语义的相似度计算

第3章 初始语料的分析和筛选

3.1 引言

3.2 原始语料的处理与统计分析

3.2.1 北大人民日报标注库的处理与统计分析

3.2.2 山大973标注库的处理与统计分析

3.3 抽样选择分析

3.3.1 语篇分析难度估计

3.3.2 人民日报标注库的处理和分析

3.3.3 山大标注库的处理

3.4 标注语料选择

3.5 标注句子的抽样重组

3.6 本章小结

第4章 异源语料融合研究

4.1 引言

4.2 语料融合方法

4.2.1 构建映射表

4.2.2 融合思想解析

4.2.3 语料组织形式

4.2.4 概念推荐空间

4.2.5 可信度分析

4.3 实验结果与分析

4.3.1 实验用语料、工具和相关参数

4.3.2 实验结果与分析

4.4 本章小结

第5章 基于“人机共生”的中文复杂句标注方法

5.1 引言

5.2 块标注特点分析

5.3 “人机共生”块标注的实现

5.3.1 切分端的实现

5.3.2 块分析器端的实现

5.3.3 重构端的实现

5.3.4 标注端的实现

5.4 从底向上的语料标注方法

5.5 Top-Down and Bottom-Up的语料标注方法

5.6 实验结果与分析

5.6.1 实验数据

5.6.2 实验结果

5.7 本章小结

第6章 总结与展望

6.1 课题总结

6.2 课题展望

致谢

参考文献

个人简历、在校期间发表论文与研究成果

展开▼

摘要

随着科学技术的发展,大数据时代的到来,句法分析在自然语言处理任务中所扮演的角色越来越重要。但是从近几年的句法分析发展程度来看,国内句法分析并没有达到很好的效果。原因首先是汉语本身的特点,复杂、灵活而且多样,导致了中文句法分析较英文要费时费力;其次缺乏统一标准的,大规模、高质量的句法分析标注树库,分析器不能充分学习到汉语语言知识,使得句法分析的正确率不高;最后,目前大多数的句法分析器都是通用型的,在普通句和简单句的分析上能得到一个比较好的效果,但是遇到了复杂句,如从句、并列句以及小句中存在多个中心谓词的情况,分析效果非常不好,且国内很少有研究者研究专门针对复杂句的树库。因此本文针对以上问题展开了如下几个方面的研究:
  首先,本文提出了初始语料筛选的方法。树库的质量很大程度决定于初始语料的选择,因此本文利用两种非同源的词法分析标注库,通过统计分析,设计了基于语篇分析难度的抽样选择方法,利用该方法,本文按照树库总量的不同比例,选择形成不同体裁、不同内容的篇章文本数据库作为后续加工的基础语料。
  其次,本文提出了一种异源语料融合方法。对于已经选择好的篇章语料,由于是非同源的,所以其词法分析标注的规范是不统一的。为了保证标注树库的质量和词法信息的一致性,本文通过构建映射表,设计词性分类模型,得到推荐词性,再结合《知网》,利用概念推荐空间,进行可信度分析,确定是否采用推荐词性。实验表明,本方法很好的融合了非同源语料,保证了待标注语料词法层面的规范化和一致性。
  最后,本文提出了基于“人机共生”的复杂句标注方法。通过对中文复杂句的句法块进行切分,把筛选出来的待分析组块进行句法分析,得到了初步标注块,然后把这些离散的块进行重构和还原,使之重新成为一个整句,最后由标注者进行语料校对。本方法有效的利用了人和机器各自的优势,使“人机”进行友好和高效的互动。实验表明,本方法比传统方法在时间上节约了4倍以上,并且达到了一个较高的校对正确率,极大的节省了人力物力,得到了一个非常好的效果,提供了一个快速且高质量的建设大规模语料的新思路。同时,“人机共生”语料标注半自动方法也为句法分析流程提供了分而治之的新思路。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号