基于词共现的关键词抽取算法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网的发展，海量的信息涌向网络。人们需要用“大数据”来表示需要同时进行批量处理或分析的种类繁多的大量数据集，数据的计量单位从TB发展到PB甚至到DB，处理数据的速度同时需要更快。因此，如何有效并且快速的获取关键数据，变得非常重要。在文本中，关注的关键数据，体现在文章关键词或者是关键短语。这些关键词和关键短语可以有效的概括反映文章的主题思想。与此同时，随着门户网站的大量兴起，网络用户接触到的新闻量非常庞大，如何从海量的新闻中获取感兴趣的新闻也是一个热点问题。本文的研究重点就是如何抽取文章中的关键词以及利用抽取出的关键词向用户推荐新闻。
　　本文的研究内容主要有以下两个方面:
　　(1)提出一种基于词共现的关键词抽取算法。该算法无需训练集训练，能够直接从文档中提取出关键词。与之区别的是有监督的机器学习算法，该类算法需要训练集，通过训练集构造分类器，应用分类器抽取测试集中的关键词。算法将关键词抽取大致分为三个步骤:候选词定义，候选词权重计算和最终关键词选择。算法中，我们选择优质候选词，并选择高效科学的特征来计算权重。通过以上的处理，提高所抽取关键词的效果并且优化效率。同时，我们还设计了一个基于本文算法基础上的原型系统。
　　(2)提出一种基于领域本体的个性化新闻推荐算法，该算法通过新闻领域本体库这一中间桥梁，计算新闻关键词和用户兴趣之间的相似度，根据相似度的高低推荐给用户其感兴趣的新闻。同时，算法根据用户对已推荐新闻的阅读信息实时的更新用户对每个兴趣的兴趣值。

著录项

作者
郭建波;
展开▼
作者单位

合肥工业大学;

展开▼
授予单位合肥工业大学;
学科计算机应用技术
授予学位硕士
导师姓名吴信东,胡学钢;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.131;
关键词
数据挖掘; 关键词抽取算法; 新闻推荐; 词共现理论; 领域本体;

相似文献

中文文献
外文文献
专利

1. 基于词共现的关键词提取算法研究与改进 [J] . 和志强 ,王丽鹏 ,张鹏云 . 电子技术与软件工程 . 2018,第001期
2. 我国教研员研究领域的热点与趋势——基于关键词共词聚类、突现词共现图谱的计量分析 [J] . 宋文君 . 课程．教材．教法 . 2018,第010期
3. 基于词共现和词上下文的领域观点词抽取方法 [J] . 宋施恩 ,樊兴华 . 计算机工程与设计 . 2013,第011期
4. 基于共现词卡方值的关键词提取算法 [J] . 时永宾 ,余青松 . 计算机工程 . 2016,第006期
5. 基于词共现矩阵的项目关键词词库和关键词语义网络 [J] . 王庆 ,陈泽亚 ,郭静 . 计算机应用 . 2015,第006期
6. 一种词汇共现算法及共现词对检索系统排序的影响 [C] . 陈翀 ,彭波 ,闫宏飞 . 第三届全国搜索引擎和网上信息挖掘学术研讨会 . 2005
7. 基于频繁模式挖掘的关键词抽取算法研究 [A] . 王利利 . 2019

基于词共现的关键词抽取算法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅