基于标签筛选的文档排序方法研究

代理获取

页面导航

目录
摘要
著录项
引文网络
相似文献
相关主题

摘要

在信息技术日新月异的今天，网络信息量也在快速增长，每天通过互联网产生的信息量是难以估计的，要想从这样繁多的信息中找出满意的结果，就必须要借助于搜索引擎，搜索技术的提高是优化搜索引擎性能的关键。那么如何提升搜索技术，使搜索引擎能够快速而准确地找到人们想要的知识，是信息检索领域面临的挑战。
　　本文首先介绍了信息检索领域的研究现状和相关知识，然后进一步引出本文研究重点。本文从标签筛选和查询扩展两方面入手，来提升检索效果。一方面，对文档语义信息的挖掘是文本检索中一个很重要的方法，充分地挖掘文本语义信息对检索效果的提升有很大的帮助。Tag-LDA模型是在LDA模型的基础上改进的一种主题模型，它在LDA模型的“文档-主题”层之间加了一个标签层，通过标签层，能较好地发掘文档的语义信息。然而Tag-LDA的标签层在筛选标签的过程中更多考虑的是词语的词频信息，根据词频来选择文本特征，抽取标签，没有考虑标签对文档的类别区分能力，进而导致筛选的标签不能很好地代表文档;另一方面，现有的查询扩展方法大都是基于人工构建的知识库，但是人工构建的知识库忽略了词语语义信息的动态变化情况，使得这种变化不能在扩展检索中体现。基于以上提出的两个缺点，本文在第三章和第四章分别提出了两个解决的方法。
　　本文第三章提出了一种基于标签筛选的文档排序方法。该方法首先在互信息的基础上引入特征项在文档类别间的分布信息，通过特征项分布的方差来描述特征项的分布均匀程度，然后将特征项的位置信息也考虑进来，最后用引入了特征项分布和位置信息的互信息改进方法对文档集中的文档进行标签选择，筛选出更能代表文档的标签。通过基于互信息改进的Tag-LDA来获得词对文档的语义信息表达，用于文档排序，从而提升检索效果。
　　本文第四章还提出了一种基于动态词语贡献度的文档排序方法。该方法针对现有的查询扩展方法的不足之处，提出了几点改进。首先提出了动态地计算和更新语义知识库中词语语义信息的方法，然后将这种语义信息融入到查询词扩展和词义消歧的过程中，将扩展检索提升到支持动态语义分析的检索上，从而提高检索结果的准确率和查全率。

著录项

作者
吴德钰;
展开▼
作者单位

华中师范大学;

展开▼
授予单位华中师范大学;
学科计算机应用技术
授予学位硕士
导师姓名张茂元;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
信息处理; 文档排序法; 标签筛选; 语义检索;

相似文献

中文文献
外文文献
专利

1. 基于学习排序的多分类标签排序方法研究 [J] . 贺成诚 ,汪海涛 ,姜瑛 . 计算机应用与软件 . 2019,第002期
2. 基于电网分区的多阶预选故障集筛选及排序方法研究 [J] . 闫瑜 ,周勤勇 ,贺海磊 . 电力信息与通信技术 . 2017,第006期
3. 基于电网分区的多阶预选故障集筛选及排序方法研究 [J] . 闫瑜 ,周勤勇 ,贺海磊 . 电力信息化 . 2017,第006期
4. 基于文档相似度的双语文档排序学习 [J] . 黄健 . 计算机与数字工程 . 2017,第010期
5. 机构规范文档构建中机构筛选方法研究 [J] . 李家琪 ,赵捷 ,杨代庆 . 中华医学图书情报杂志 . 2018,第005期
6. 基于多文档排序混沌理论控制权重粒子群优化算法研究 [C] . 邹志军 ,黄青松 . 2009云南省研究生学术论坛 . 2009
7. 基于互增强流形排序的多文档自动摘要方法研究 [A] . 由文浩 . 2018

基于标签筛选的文档排序方法研究

目录

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅