首页> 中文学位 >基于聚类分析的中文新闻网页关键词提取方法研究
【6h】

基于聚类分析的中文新闻网页关键词提取方法研究

代理获取

目录

文摘

英文文摘

论文说明:图表目录

声明

致谢

第一章 绪论

1.1课题来源

1.2课题研究背景和意义

1.3本课题的理论处理基础-自然语言处理技术

1.4本文主要研究内容及组织结构

第二章 关键词提取背景及相关工作

2.1引言

2.2关键词概念

2.3语言学背景知识-自然语言处理技术

2.3.1自然语言处理概述

2.3.2自然语言处理的研究方法

2.4聚类分析

2.4.1聚类分析概述

2.4.2聚类分析中的数据类型

2.4.3主要聚类方法概述

2.5互联网关键词提取技术研究现状

2.5.1网页中文本关键词提取技术

2.5.2网页信息提取的评价指标

2.5.3文本主题词的提取研究现状

2.6本章小结

第三章 基于层次聚类的中文新闻网页关键词提取的研究

3.1引言

3.2语义相似度

3.3候选关键词

3.4聚类距离的计算

3.5基于层次聚类的中文新闻网页关键词提取算法

3.6实验与评价

3.6.1测试集与评价标准

3.6.2语义相似度阈值的设定

3.6.3实验与评价

3.7本章小结

第四章 基于密度聚类的中文新闻网页关键词提取研究

4.1引言

4.2词共现模型

4.3算法步骤描述

4.3.1算法流程

4.3.2算法步骤描述

4.3.3算法图示说明

4.5实验与评价

4.5.1词共现阈值对实验结果的影响

4.5.2实验结果分析

4.6本章小结

第五章 结束语

5.1本文总结

5.2工作展望

参考文献

攻读硕士学位期间参加研究的课题和发表的论文

展开▼

摘要

随着网络时代的到来,在线文档急剧增长,“信息爆炸”成为这个时代的主要特征。 关键词作为对文章内容的简要概括,可以辅助快速了解文章内容,节省浏览时间。同时,关键词在信息检索,自动摘要,文本聚类/分类也起很大的作用。因此,关键词提取技术成为解决此类问题的关键技术。 关键词可以认为是一篇文章中比较重要而且主题关联较凝聚的词的集合,基于这一思想,本文将词语看作具有隐含的多重关系属性,综合利用词语之间多重属性,按照主题凝聚的原则采用聚类方法提取出与反映主题信息的关键词。为此,设计有效的利用聚类算法提取新闻网页的关键词成为本文的研究核心。 本文的主要工作如下: (1)在介绍经典聚类方法的思想、原理及实现的基础上,理论和实验分析其在关键词提取上的优势和应用前景。 (2)针对层次聚类算法的优势 及关键词提取领域现有的不足,利用词语间语义相似度作为聚类距离,形成算法基于聚类分析的关键词提取算法KECA。此算法利用层次聚类及借助语义角度分析文本中的重要词语不仅有效可行而且弥补了机械的统计方法的不足。同时,杜绝了机器学习方法所面临的局限性和缺少标注语料库的困难。 (3)针对层次聚类方法难以有效处理关键词提取中的“孤立点”问题,引入密度聚类算法。聚类过程密度的度量采用词语的共现属性,自适应地发现任意形状的类别,形成KEDC算法。同时为了提高关键词提取的质量,对单纯采用强共现属性的聚类结果进行补充和剪枝;计算未被聚进去词语对整个文档的关联强度和语义连接强度,对聚类结果进行补充;剪枝的过程就是除去那些虽因强共现属性而被聚进簇中但却不是关键词的词语。理论和实验均表明了以上所提两种算法的有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号