首页> 中文学位 >基于词共现的关键词抽取算法研究
【6h】

基于词共现的关键词抽取算法研究

代理获取

目录

声明

致谢

摘要

第一章 绪论

1.1 数据挖掘

1.2 文本挖掘

1.3 关键词抽取

1.3.1 本文解决的主要内容

1.3.2 关键词抽取的应用

1.3.3 课题来源

1.4 本文组织结构

1.5 本章小结

第二章 相关工作概述

2.1 数据挖掘十大算法

2.1.1 分类算法

2.1.2 聚类算法

2.1.3 关联分析

2.1.4 PageRank

2.2 有监督关键词抽取算法

2.2.1 GenEx算法

2.2.2 KEA算法

2.2.3 其他有监督关键词抽取算法

2.3 无监督关键词抽取算法

2.3.1 KP-Miner算法

2.4 结合内部特征的关键词抽取算法

2.4.1 基于序列模式挖掘的算法

2.4.2 KEUD算法

2.5 词共现的应用

2.6 本章小结

第三章 基于词共现的关键词抽取算法研究

3.1 算法描述

3.1.1 算法框图

3.1.2 候选词选择

3.1.3 候选词权重计算

3.1.4 最终关键词选择

3.1.5 词干分析器

3.2 实验

3.2.1 数据集

3.2.2 实验结果与比较

3.2.3 参数调节

3.3 原型系统

3.3.1 系统开发过程

3.3.2 系统演示

3.4 本章小结

第四章 基于领域本体的个性化新闻推荐研究

4.1 推荐系统概述

4.2 基于领域本体库的个性化中文新闻推荐方法

4.2.1 新闻领域本体构建

4.2.2 新闻抓取

4.2.3 新闻推荐

4.2.4 用户反馈

4.3 本章小结

4.3 本章小结

第五章 总结与展望

5.1 工作总结

5.2 工作展望

参考文献

攻读硕士学位期间的学术活动及成果情况

展开▼

摘要

随着互联网的发展,海量的信息涌向网络。人们需要用“大数据”来表示需要同时进行批量处理或分析的种类繁多的大量数据集,数据的计量单位从TB发展到PB甚至到DB,处理数据的速度同时需要更快。因此,如何有效并且快速的获取关键数据,变得非常重要。在文本中,关注的关键数据,体现在文章关键词或者是关键短语。这些关键词和关键短语可以有效的概括反映文章的主题思想。与此同时,随着门户网站的大量兴起,网络用户接触到的新闻量非常庞大,如何从海量的新闻中获取感兴趣的新闻也是一个热点问题。本文的研究重点就是如何抽取文章中的关键词以及利用抽取出的关键词向用户推荐新闻。
  本文的研究内容主要有以下两个方面:
  (1)提出一种基于词共现的关键词抽取算法。该算法无需训练集训练,能够直接从文档中提取出关键词。与之区别的是有监督的机器学习算法,该类算法需要训练集,通过训练集构造分类器,应用分类器抽取测试集中的关键词。算法将关键词抽取大致分为三个步骤:候选词定义,候选词权重计算和最终关键词选择。算法中,我们选择优质候选词,并选择高效科学的特征来计算权重。通过以上的处理,提高所抽取关键词的效果并且优化效率。同时,我们还设计了一个基于本文算法基础上的原型系统。
  (2)提出一种基于领域本体的个性化新闻推荐算法,该算法通过新闻领域本体库这一中间桥梁,计算新闻关键词和用户兴趣之间的相似度,根据相似度的高低推荐给用户其感兴趣的新闻。同时,算法根据用户对已推荐新闻的阅读信息实时的更新用户对每个兴趣的兴趣值。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号