基于文本分类的网页搜索排序

代理获取

页面导航

目录
摘要
著录项
引文网络
相似文献
相关主题

摘要

根据艾瑞iUserTracker监测数据显示，2017年1月PC端网站类别中，搜索引擎类稳居月度覆盖人数榜首位置，占比为98.4％。可见，虽然如今互联网呈现出爆炸式、多元式的增长，搜索引擎作为第一大流量入口的地位仍不可动摇，值得人们投入更多的关注。然而，搜索引擎多存在领域漂移的问题。所谓领域漂移，即指网页内容与查询关键词领域无关的现象，严重影响了用户的使用。
　　文本数据是在网络这个庞大的信息库中占信息比重最大的，且多数用户使用搜索引擎时都是根据关键字进行搜索。基于此，本文对网页文本信息进行深入挖掘，结合文本分类相关技术，为解决领域漂移及相关改进算法需要人工建立领域向量的问题，提出了基于文本分类的网页搜索排序算法。
　　论文主要工作如下:
　　(1)本文研究了基于堆叠自编码器的文本分类方法。该方法通过堆叠自编码器的降维建模，解决了传统机器学习方法在处理文本问题时会出现的维数灾难问题。实验结果表明，该方法减少了原始数据的维度，提取出了更高阶的特征，获得了更高的分类准确率;
　　(2)本文提出了基于文本分类的网页搜索排序算法。该算法首先对网页文本进行数据预处理并利用词袋模型进行网页文本的向量表示，之后通过少量的网页数据来训练softmax回归分类模型，训练好的模型用来预测测试网页数据的类别分数，并与BM25信息检索的分数结合在一起，得到最终的网页排序结果。实验结果表明，该检索算法无需人工建立领域向量，即可达到较好的网页排序结果。

著录项

作者
刘铭瑀;
展开▼
作者单位

合肥工业大学;

展开▼
授予单位合肥工业大学;
学科信号与信息处理
授予学位硕士
导师姓名汪萌;
年度 2018
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
网页搜索; 排序算法; 文本分类; 堆叠自编码器;

相似文献

中文文献
外文文献
专利

1. 基于领域模型的网页搜索排序算法 [J] . 潘澄 ,吴共庆 ,李磊 . 计算机系统应用 . 2015,第011期
2. 网页搜索排序模型研究 [J] . 李明琦 . 智能计算机与应用 . 2020,第002期
3. 网页搜索排序模型研究 [J] . 李明琦 . 智能计算机与应用 . 2020,第002期
4. 一种自动分类的网页搜索排序算法 [J] . 刘铭瑀 ,刘学亮 ,胡骏 . 计算机应用研究 . 2019,第001期
5. 浅析网页搜索引擎的PageRank排序算法 [J] . 欧贤 . 科教导刊-电子版（上旬） . 2016,第008期
6. 基于信息增益规则排序的关联文本分类 [C] . 王孟 ,白清源 ,谢丽聪 . 第二十四届中国数据库学术会议 . 2007
7. 基于半监督学习的网页搜索排序研究 [A] . 李明琦 . 2019

基于文本分类的网页搜索排序

目录

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅