中文时态关键词识别问题研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

时态关键词是一种自然语言短语，其用于表示文本中的时间点和时间区间。目前，时态关键词在自然语言处理、问题回答、信息检索等应用领域中有着广泛的应用，时态关键词识别直接影响到时态信息的使用:自然语言处理的自动问答技术中，可回答与时态问题，如“现在几点”、“事件发生时间”;可在跟踪任务中，可利用时间确定事情的发生的顺序;在机器翻译中，根据时间的先后顺序可使得译文结果更加通顺易读等。
　　一般来说，现有的时态关键词识别方法可分为两类:一，基于规则的识别方法;二，基于机器学习的识别方法。接下来，将分别对基于规则的识别方法和基于统计学习的识别方法进行讨论研究。在下文中，先介绍了中文时态关键词识别领域的研究背景以及国内外研究状况，然后采用基于时态关键词规则树的方法和基于短语划分的聚类识别方法对中文时态关键词进行识别，然后分别对两种方法进行实验以及识别性能的对比。
　　目前，在时态关键词识别领域，尽管机器学习的方法日益普及，但是基于规则的方法是经典的，仍然是主流方法。本文也针对基于规则的方法进行了深入的探索，提出基于时态关键词规则树的方法。首先，分析时态关键词组成的时态元素，并提出时态元素进行刻画思想以及定义，用于后续识别时态关键词;在此基础上，采用结合正则表达式和Trie树结构特性构建出时态关键词规则树，自动进行中文时态关键词的识别。
　　对于机器学习的方法，本文提出基于短语划分的聚类识别方法，先通过分析文本语句结构并结合短语结构树，提出短语划分方法，将文本转换成短语组合形式从而确定短语边界;接着，对所划分的短语进行短语向量化表示;在上述基础上,引入谱聚类的聚类思想，将短语向量化后的结果进行聚类处理.
　　最后，以中文突发事件语料库作为实验语料，两种中文时态关键词识别方法效果较好，其中基于短语划分的聚类识别方法三项测评标准（准确率、召回率和F值）都略微高于基于时态关键词识别树的识别方法。

著录项

作者
龙耀发;
展开▼
作者单位

广东工业大学;

展开▼
授予单位广东工业大学;
学科计算机科学与技术
授予学位硕士
导师姓名左亚尧;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
中文文本; 时态关键词; 信息识别;

相似文献

中文文献
外文文献
专利

1. 中文时间关键词识别研究 [J] . 左亚尧 ,龙耀发 ,李杰骏 . 计算机应用研究 . 2017,第004期
2. 基于强度熵的中文关键词识别方法 [J] . 闫蓉 ,高光来 . 计算机工程与科学 . 2016,第011期
3. 基于Hadoop的时态信息存储与时态关系演算问题研究 [J] . ZUO Ya-yao ,FENG Chao-yong ,CHEN Lei . 计算机应用研究 . 2014,第005期
4. 全序时态模式中时态函数依赖的覆盖问题研究 [J] . 万静 ,杨洪玉 ,郝忠孝 . 计算机应用研究 . 2009,第012期
5. T-STAR:一种基于关键词的关系数据库时态信息检索方法 [J] . 张晓民 ,祁薇 ,张俊 . 计算机应用研究 . 2017,第010期
6. 基于中文分词的兴趣点快速名称匹配与加权关键词的数据分层更新方法探讨——以数字城市建设中的兴趣点数据更新为例 [C] . Yan Min ,颜敏 ,Song Yantao . 第八届海峡两岸测绘发展研讨会 . 2016
7. 基于HMM的中文语音关键词识别系统的研究与开发 [A] . 秦敏 . 2002

中文时态关键词识别问题研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅