一种基于层次思想的搜索日志聚类算法

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着搜索引擎技术的发展和网络数据的膨胀，搜索引擎已经成为人们进入互联网海量数据空间的首要入口。每天搜索引擎都会接收到大量用户搜索请求并且将用户的搜索请求详情保存下来，成为搜索日志。怎样从海量的搜索引擎日志中挖掘出有意义的知识，是目前工业界和学术界研究的一个热点。搜索结果的聚类能够帮助用户更容易的获得所需的内容，帮助研究人员对搜索日志进行初步分析。
　　搜索日志一般为短文本，文本字数较少，使得文本的聚类结果更容易受到无意义词语的干扰，降低准确性。一般方法只是根据词语词性，剔除某些无意义词性的词语，例如助词、状词等。
　　本文首先针对已有搜索日志数据特点，使用了一种词语筛选方法对无意义词语进行了剔除。通过仔细分析整个短文本集的特点，制定词语剔除规则。最后从筛选原理、实验结果两个方面说明该方法的有效性。
　　由于搜索日志数据量巨大，且在聚类前无法获知聚类个数，使得很多常用聚类算法如k-means、层次聚类算法AGNES等不适合搜索日志的聚类。本文针对搜索日志聚类的难点，提出了一种基于层次思想的聚类算法，称为“顺序聚类算法”。该算法在时间复杂度、聚类可靠性、输入参数等方面取得综合性优势，而且可以将一个文本聚类到多个合适的类别中，更有利于挖掘文本之间的内在联系，使算法更适合搜索引擎日志的聚类。“文本整合”和“文本回溯”是顺序聚类算法的两个重要概念。“文本整合”能够使每个类在聚类过程中自动形成该类别的主题特征。“文本回溯”令每一个文本都有机会与新建的类别比较相似性，使其有机会聚类到其他类别中。在实验方面，验证了词语筛选方法应用到实际短文本数据中的必要性和准确性。将顺序聚类算法与AGNES算法应用到实际数据集中进行比较。验证了顺序聚类算法在搜索日志聚类方面的相对AGNES聚类算法的优势。

著录项

作者
侯树昇;
展开▼
作者单位

南开大学;

展开▼
授予单位南开大学;
学科计算机技术
授予学位硕士
导师姓名卫金茂;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类一般性问题;
关键词
搜索引擎日志; 聚类算法; 词语筛选法; 网络数据挖掘;

相似文献

中文文献
外文文献
专利

1. 一种大规模中文搜索日志的层次聚类方法 [J] . 孙锐 ,金澎 . 科技通报 . 2012,第8期
2. 一种基于Web日志的Web用户群体和URL聚类算法 [J] . 宁建飞 . 海南大学学报（自然科学版） . 2012,第004期
3. 一种新的基于Web日志的数据聚类算法研究 [J] . 张笑 . 电脑知识与技术 . 2011,第021期
4. 搜索引擎查询日志中的聚类算法研究 [J] . 勾海波 ,欧阳为民 ,徐春荣 . 计算机应用与软件 . 2007,第003期
5. 高校网络舆情监测方法:一种基于搜索引擎查询日志的研究 [J] . 殷姿 . 黑龙江高教研究 . 2014,第006期
6. 基于APRIORI的层次化聚类算法及其在IDS日志分析中的应用 [C] . 朱金清 ,中国人民大学信息学院 ,王建新 . 第二十四届中国数据库学术会议 . 2007
7. 一种基于日志的分布式增量聚类算法 [A] . 陈学位 . 2017

一种基于层次思想的搜索日志聚类算法

目录

摘要

著录项

相似文献

相关主题

期刊订阅