基于聚类分析的中文新闻网页关键词提取方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着网络时代的到来，在线文档急剧增长，“信息爆炸”成为这个时代的主要特征。关键词作为对文章内容的简要概括，可以辅助快速了解文章内容，节省浏览时间。同时，关键词在信息检索，自动摘要，文本聚类/分类也起很大的作用。因此，关键词提取技术成为解决此类问题的关键技术。关键词可以认为是一篇文章中比较重要而且主题关联较凝聚的词的集合，基于这一思想，本文将词语看作具有隐含的多重关系属性，综合利用词语之间多重属性，按照主题凝聚的原则采用聚类方法提取出与反映主题信息的关键词。为此，设计有效的利用聚类算法提取新闻网页的关键词成为本文的研究核心。本文的主要工作如下： (1)在介绍经典聚类方法的思想、原理及实现的基础上，理论和实验分析其在关键词提取上的优势和应用前景。 (2)针对层次聚类算法的优势及关键词提取领域现有的不足，利用词语间语义相似度作为聚类距离，形成算法基于聚类分析的关键词提取算法KECA。此算法利用层次聚类及借助语义角度分析文本中的重要词语不仅有效可行而且弥补了机械的统计方法的不足。同时，杜绝了机器学习方法所面临的局限性和缺少标注语料库的困难。 (3)针对层次聚类方法难以有效处理关键词提取中的“孤立点”问题，引入密度聚类算法。聚类过程密度的度量采用词语的共现属性，自适应地发现任意形状的类别，形成KEDC算法。同时为了提高关键词提取的质量，对单纯采用强共现属性的聚类结果进行补充和剪枝；计算未被聚进去词语对整个文档的关联强度和语义连接强度，对聚类结果进行补充；剪枝的过程就是除去那些虽因强共现属性而被聚进簇中但却不是关键词的词语。理论和实验均表明了以上所提两种算法的有效性。

著录项

作者
尹倩;
展开▼
作者单位

合肥工业大学;

展开▼
授予单位合肥工业大学;
学科计算机应用技术
授予学位硕士
导师姓名胡学钢,吴信东;
年度 2009
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
聚类分析; 关键词提取; 语义相似度; 关键词; 提取方法;

相似文献

中文文献
外文文献
专利

1. 基于组合特征的中文新闻网页关键词提取方法 [J] . 袁津生 ,毛新武 . 计算机工程与应用 . 2014,第019期
2. 基于密度聚类模式的中文新闻网页关键词提取 [J] . 尹倩 ,胡学钢 ,谢飞 . 广西师范大学学报（自然科学版） . 2009,第001期
3. 基于改进TF-IDF的中文网页关键词抽取——以新闻网页为例 [J] . 钱爱兵 ,江岚 . 情报理论与实践 . 2008,第006期
4. 融合多元特征的中文网页关键词提取方法研究 [J] . 张孝飞 . 图书馆 . 2020,第001期
5. 基于卡方统计量的藏文新闻网页关键词提取方法 [J] . 徐涛 ,蓝传锜 . 电脑知识与技术 . 2017,第026期
6. 基于卡方统计量的藏文新闻网页关键词提取方法 [C] . Yu Hongzhi ,于洪志 ,Xu Tao . 第14届中国少数民族语言文字信息处理学术研讨会 . 2013
7. 基于词语网络的关键词自动提取方法及在中文网页分类中的应用研究 [A] . 温安国 . 2009

基于聚类分析的中文新闻网页关键词提取方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅