首页> 中文学位 >基于文本分类的网页搜索排序
【6h】

基于文本分类的网页搜索排序

代理获取

目录

声明

致谢

摘要

第一章 绪论

1.1 研究背景与意义

1.2 国内外研究现状

1.3 本文主要工作

1.4 论文内容安排

第二章 理论研究及相关技术

2.1 信息检索概述

2.1.1 倒排索引

2.1.2 索引的构建

2.2 网络爬虫概述

2.3 文本分词及其向量化概述

2.3.1 文本分词

2.3.2 文本向量化

2.4 深度学习文本分类方法概述

第三章 基于堆叠自编码器的文本分类

3.1 引言

3.2 堆叠自编码器

3.2.1 预训练和微调

3.2.4 堆叠自编码器网络结构

3.4 基于堆叠自编码器特征的SVM分类

3.5 实验设置与分析

3.5.1 实验数据

3.5.2 实验细节

3.5.3 实验结果

3.6 本章小结

第四章 基于文本分类的网页搜索排序算法

4.1 引言

4.2 BM25检索方法

4.3 网页文本分类模型

4.4 基于文本分类的网页搜索排序算法

4.5 实验结果与分析

4.5.1 实验数据

4.5.2 实验细节

4.5.3 实验结果

4.6 本鸯小结

第五章 总结与展望

5.1 总结

5.2 展望

参考文献

攻读硕士学位期间的学术活动及成果情况

展开▼

摘要

根据艾瑞iUserTracker监测数据显示,2017年1月PC端网站类别中,搜索引擎类稳居月度覆盖人数榜首位置,占比为98.4%。可见,虽然如今互联网呈现出爆炸式、多元式的增长,搜索引擎作为第一大流量入口的地位仍不可动摇,值得人们投入更多的关注。然而,搜索引擎多存在领域漂移的问题。所谓领域漂移,即指网页内容与查询关键词领域无关的现象,严重影响了用户的使用。
  文本数据是在网络这个庞大的信息库中占信息比重最大的,且多数用户使用搜索引擎时都是根据关键字进行搜索。基于此,本文对网页文本信息进行深入挖掘,结合文本分类相关技术,为解决领域漂移及相关改进算法需要人工建立领域向量的问题,提出了基于文本分类的网页搜索排序算法。
  论文主要工作如下:
  (1)本文研究了基于堆叠自编码器的文本分类方法。该方法通过堆叠自编码器的降维建模,解决了传统机器学习方法在处理文本问题时会出现的维数灾难问题。实验结果表明,该方法减少了原始数据的维度,提取出了更高阶的特征,获得了更高的分类准确率;
  (2)本文提出了基于文本分类的网页搜索排序算法。该算法首先对网页文本进行数据预处理并利用词袋模型进行网页文本的向量表示,之后通过少量的网页数据来训练softmax回归分类模型,训练好的模型用来预测测试网页数据的类别分数,并与BM25信息检索的分数结合在一起,得到最终的网页排序结果。实验结果表明,该检索算法无需人工建立领域向量,即可达到较好的网页排序结果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号