首页> 中文学位 >一种基于层次思想的搜索日志聚类算法
【6h】

一种基于层次思想的搜索日志聚类算法

代理获取

目录

声明

摘要

第一章 引言

第一节 研究背景

第二节 国内外研究现状

第三节 研究内容

1.3.1 研究目的

1.3.2 研究思路

1.3.3 论文组织结构

1.3.4 本文创新点

第二章 改进向量空间模型(VSM)计算文本之间相似性

第一节 向量空间模型(VSM)

2.1.1 向量空间模型(VSM)简介

2.1.2 使用TF-IDF表示文本的方法简介

2.1.3 使用余弦定理方法计算文本相似度

第二节 二元组特征表示方法

第三章 面向网页关键信息文本的词语筛选方法

第一节 实验数据简介及其所具有特点

3.1.1 实验数据简介

3.1.2 实验数据集特点分析

第二节 面向网页关键信息短文本的词语筛选方法介绍

3.2.1 词语筛选方法

3.2.2 词语筛选原理

第四章 顺序聚类算法

第一节 聚类及相关聚类算法简介

4.1.1 k-means聚类算法

4.1.2 层次聚类算法

第二节 搜索日志特点及其聚类难点

第三节 顺序聚类算法相关概念

第四节 顺序聚类算法流程

4.4.1 顺序聚类算法流程描述

4.4.2 顺序聚类算法伪代码

4.4.3 顺序聚类算法原理分析

4.4.4 顺序聚类算法时间复杂度分析

4.4.5 顺序聚类算法所解决的搜索日志聚类问题

第五章 实验部分

第一节 面向网页关键信息短文本的词语筛选方法相关实验

5.1.1 无意义且权重高的词语对相似性计算结果的影响

5.1.2 检验本文无意义词语筛选的准确性和有效性

5.1.3 验证本文词语筛选方法能使聚类效率得到提高

第二节 顺序聚类算法相关实验

5.2.1 顺序聚类算法聚类准确性

5.2.2 同一个文本聚类到多个类中的必要性

5.2.3 顺序聚类算法的聚类时间及聚类个数实验

5.2.4 顺序聚类算法、层次聚类算法AGNES对比实验

第三节 本章小结

第六章 总结与展望

第一节 本文工作总结

第二节 未来工作展望

参考文献

致谢

个人简历

展开▼

摘要

随着搜索引擎技术的发展和网络数据的膨胀,搜索引擎已经成为人们进入互联网海量数据空间的首要入口。每天搜索引擎都会接收到大量用户搜索请求并且将用户的搜索请求详情保存下来,成为搜索日志。怎样从海量的搜索引擎日志中挖掘出有意义的知识,是目前工业界和学术界研究的一个热点。搜索结果的聚类能够帮助用户更容易的获得所需的内容,帮助研究人员对搜索日志进行初步分析。
  搜索日志一般为短文本,文本字数较少,使得文本的聚类结果更容易受到无意义词语的干扰,降低准确性。一般方法只是根据词语词性,剔除某些无意义词性的词语,例如助词、状词等。
  本文首先针对已有搜索日志数据特点,使用了一种词语筛选方法对无意义词语进行了剔除。通过仔细分析整个短文本集的特点,制定词语剔除规则。最后从筛选原理、实验结果两个方面说明该方法的有效性。
  由于搜索日志数据量巨大,且在聚类前无法获知聚类个数,使得很多常用聚类算法如k-means、层次聚类算法AGNES等不适合搜索日志的聚类。本文针对搜索日志聚类的难点,提出了一种基于层次思想的聚类算法,称为“顺序聚类算法”。该算法在时间复杂度、聚类可靠性、输入参数等方面取得综合性优势,而且可以将一个文本聚类到多个合适的类别中,更有利于挖掘文本之间的内在联系,使算法更适合搜索引擎日志的聚类。“文本整合”和“文本回溯”是顺序聚类算法的两个重要概念。“文本整合”能够使每个类在聚类过程中自动形成该类别的主题特征。“文本回溯”令每一个文本都有机会与新建的类别比较相似性,使其有机会聚类到其他类别中。在实验方面,验证了词语筛选方法应用到实际短文本数据中的必要性和准确性。将顺序聚类算法与AGNES算法应用到实际数据集中进行比较。验证了顺序聚类算法在搜索日志聚类方面的相对AGNES聚类算法的优势。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号