首页> 中文学位 >中文文本主题关键短语提取算法研究
【6h】

中文文本主题关键短语提取算法研究

代理获取

目录

1 绪论

1.1研究背景与意义

1.2国内外研究现状

1.3研究内容与创新

1.4论文组织结构

1.5本章小结

2 相关理论技术概述

2.1 主题模型概述

2.2 LDA主题模型

2.3 KERT算法思想

2.4 评价标准

2.5 本章小结

3 中文文本主题关键短语提取算法

3.1 算法框架

3.2 文本数据预处理

3.3 文本聚类

3.4 频繁短语发现算法

3.5 候选短语排序算法优化

3.6 本章小结

4 实证研究

4.2 实验过程

4.3 实验结果分析

4.4 本章小结

5 总结与展望

5.1本文主要研究成果

5.2展望

致谢

参考文献

攻读硕士学位期间发表的论文

攻读硕士研究生期间所获奖励

展开▼

摘要

在大数据时代,信息量暴增,人们接触最多的信息就是文本信息,毎天在互联网上都有无数文本信息被上传或下载。快速掌握这些文本信息内容的重要方法之一就是关键词提取。然而,在以往的关键词提取算法中,人们忽略了两个重要的方面;一是词语长度;二是文本主题,本文考虑了以上两方面问题,针对中文文本主题关键短语提取算法进行了研究,主要研究内容如下:
  1.建立了一种新的面向中文文本的提取主题关键短语的算法。该算法具有以下新特性:
  (1)基于KERT的算法框架,将LDA主题模型与频繁短语发现算法相结合,提取综合文本集合中隐含主题的关键短语,有效缩小候选短语集的大小;
  (2)本文提出了改进的排序算法,能够剔除不完整的候选短语,避免提取结果中出现关键短语及其子短语共现问题,再将不同长度的候选完整短语进行排序选择;
  (3)本文的主题关键短语提取算法能够同时提取出短语级和词语级的中文关键词,并且能够同时适用于长文木集和短文本集。
  2.对建立的中文文本主题关键短语提取算法进行了实证研究,研究结果表明,本文算法提取关键短语的效果符合人们的理,解避免了关键短语及其子短语共现问题;提取效果在精准率和F1值评价指标上也均优于KERT算法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号