首页> 中文学位 >基于网络查询日志的个人搜索主题分析与探索
【6h】

基于网络查询日志的个人搜索主题分析与探索

代理获取

目录

声明

第1章 绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.3 主要研究内容及创新点

1.4 本文组织结构

第2章 技术路线和理论基础

2.1 网络查询日志session划分方法

2.2 主题模型概述分析

2.3 主题模型参数估计的方法

2.4 session划分的评价标准

2.5 主题模型的评价标准

2.6 本章小结

第3章 网络查询日志session划分研究

3.1 引言

3.2 区分查询项是否为session边界的三个重要特征属性

3.3 朴素贝叶斯法划分session介绍

3.4 实验结果分析

3.5 本章小结

第4章 基于网络查询日志的搜索主题分析

4.1 引言

4.2 查询词-URL独立的搜索主题模型

4.3 查询词-URL相关的搜索主题模型

4.4 实验结果分析

4.5 本章小结

第5章 总结与展望

5.1 研究总结

5.2 研究展望

参考文献

攻读学位期间发表的学术成果

致谢

展开▼

摘要

随着互联网的不断发展,搜索引擎使用率越来越高,由此产生的网络查询日志也呈现出爆炸性增长的趋势。网络查询日志蕴含着很多有价值的信息,其中搜索主题就是一种非常有价值的信息。搜索主题在优化搜索引擎和分析用户行为等方面有着重要作用。目前关于搜索主题方面的研究主要是基于整个网络查询日志对所有的用户做主题分析,没有对个人搜索主题情况进行研究。另外,通过现有的网络查询日志session划分的方法得到的划分结果不够精确,无法满足像搜索主题模型这样对session的划分精度要求很高的模型。  针对以上问题,本文在前人研究的基础上进行了进一步研究与探索。针对session划分结果不精确问题,本文抽取查询时间间隔、查询项语义相似度和查询项之间的加减词作为特征属性,并采用朴素贝叶斯法对网络查询日志进行高精度session划分。为了对个人搜索主题进行分析,本文结合网络查询日志的特点和词突发现象,构建了两个模型:查询词与URL主题无关的搜索主题模型(TIM)和查询词与URL主题相关的搜索主题模型(TDM),并通过Beta分布描述主题的时间变化趋势。本文工作的创新点如下:  第一,本文提出了的可以高精确度划分网络查询日志session的方法——朴素贝叶斯法。该方法通过将session划分问题转化为判断查询项是否为session边界的问题,然后采用朴素贝叶斯算法进行分类。查询项的特征属性有以下三个:session划分的时间间隔、查询项的语义相似度和查询项之间的加减词。为了提高查询项特征属性的可靠性,在计算查询项语义相似度的时候,采用了深度学习中词向量的表示方法,提出了Query2Vector 模型,将查询项用向量表示,然后计算余弦相似度。并通过实验证明,本文中提出的session划分方法与目前常用的方法相比更有优势。  第二,本文通过研究自然语言处理中的词突发现象,并结合搜索主题模型方面的研究成果,创造了利用网络查询日志中查询词和URL的突发现象获取个人搜索主题的差异的新方法。本文中将网络查询数据按用户id 分为不同的文档,这样不同文档中词的突发性就会在主题中显现出来,从而体现不同用户的主题差异性。本文结合网络查询日志的结构特点构建了两个搜索主题模型,查询词与URL主题无关的搜索主题模型(TIM)和查询词与URL主题相关的搜索主题模型(TDM),并通过Beta分布描述主题的时间变化趋势。然后给出了模型的生成过程、推导方法和模型的参数估计方法。最后的实验结果也表明,本文提出的搜索主题模型能够有效地发现个人用户搜索主题的差异,并且与其他搜索主题模型相比具有明显的泛化性能优势。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号