首页> 中文学位 >中文时态关键词识别问题研究
【6h】

中文时态关键词识别问题研究

代理获取

目录

摘要

第一章 绪论

1.1 课题研究的背景

1.2 国内外研究现状

1.3 本文的研究内容和论文结构

1.3.1 本文研究的内容

1.3.2 本文结构安排

第二章 基于规则方法研究

2.1 基于规则相关技术

2.1.1 正则表达式

2.1.2 Trie树

2.2 构成时态关键词的元素

2.2.1 时态粒度刻画

2.2.2 时态关键词组合

2.3 时态关键词规则树

2.3.1 Trie树的插入与构建操作

2.3.2 时态关键词规则树的遍历识别

2.4 基于时态关键词规则树的识别算珐

2.5 本章小结

第三章 基于机器学习方法研究

3.1 基于机器学习方法的相关技术

3.1.1 中文分词简介

3.1.2 短语结构树简介

3.1.3 特征选择

3.1.4 谱聚类算法简介

3.2 基于短语划分的聚类识别算法模型

3.3 文本短语划分

3.3.1 短语结构树的元素表

3.3.2 短语结构树等价子树集合

3.3.3 短语划分

3.4 短语向量化表示

3.4.1 特征生成与特征选取

3.4.2 短语的时间特征表示

3.4.3 短语的向量化表示

3.5 基于谱聚类的识别

3.5.1 谱聚类的计算优化

3.5.2 基于谱聚类的识别算法

3.6 本章小结

第四章 实验结果与分析

4.1 实验语料简介

4.2 测评标准

4.3 实验结果

4.3.1 基于短语划分的聚类识别的实验结果

4.3.2 基于时态关键词规则树算法的实验结果

4.4 实验结果对比

4.5 实验总结

第五章 总结与展望

5.1 总结

5.2 展望

参考文献

攻读学位期间发表的论文

声明

致谢

展开▼

摘要

时态关键词是一种自然语言短语,其用于表示文本中的时间点和时间区间。目前,时态关键词在自然语言处理、问题回答、信息检索等应用领域中有着广泛的应用,时态关键词识别直接影响到时态信息的使用:自然语言处理的自动问答技术中,可回答与时态问题,如“现在几点”、“事件发生时间”;可在跟踪任务中,可利用时间确定事情的发生的顺序;在机器翻译中,根据时间的先后顺序可使得译文结果更加通顺易读等。
  一般来说,现有的时态关键词识别方法可分为两类:一,基于规则的识别方法;二,基于机器学习的识别方法。接下来,将分别对基于规则的识别方法和基于统计学习的识别方法进行讨论研究。在下文中,先介绍了中文时态关键词识别领域的研究背景以及国内外研究状况,然后采用基于时态关键词规则树的方法和基于短语划分的聚类识别方法对中文时态关键词进行识别,然后分别对两种方法进行实验以及识别性能的对比。
  目前,在时态关键词识别领域,尽管机器学习的方法日益普及,但是基于规则的方法是经典的,仍然是主流方法。本文也针对基于规则的方法进行了深入的探索,提出基于时态关键词规则树的方法。首先,分析时态关键词组成的时态元素,并提出时态元素进行刻画思想以及定义,用于后续识别时态关键词;在此基础上,采用结合正则表达式和Trie树结构特性构建出时态关键词规则树,自动进行中文时态关键词的识别。
  对于机器学习的方法,本文提出基于短语划分的聚类识别方法,先通过分析文本语句结构并结合短语结构树,提出短语划分方法,将文本转换成短语组合形式从而确定短语边界;接着,对所划分的短语进行短语向量化表示;在上述基础上,引入谱聚类的聚类思想,将短语向量化后的结果进行聚类处理.
  最后,以中文突发事件语料库作为实验语料,两种中文时态关键词识别方法效果较好,其中基于短语划分的聚类识别方法三项测评标准(准确率、召回率和F值)都略微高于基于时态关键词识别树的识别方法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号