首页> 中文学位 >基于标签筛选的文档排序方法研究
【6h】

基于标签筛选的文档排序方法研究

代理获取

目录

声明

摘要

第一章 绪论

1.1 研究背景及其意义

1.2 国内外研究现状

1.3 本文的主要工作

1.4 论文的结构安排

第二章 相关理论知识

2.1 文本特征选择

2.1.1 词频TF(Term Frequency)

2.1.2 互信息

2.1.3 期望交叉熵

2.1.4 信息增益

2.2 查询扩展

2.2.1 基于叙词表的查询扩展

2.2.2 基于局部上下文分析(LCA)的查询扩展

2.2.3 语义概念查询扩展

2.3 词义消歧

2.3.1 基于词典的词义消岐

2.3.2 基于统计的词义消岐

2.3.3 基于维基百科的词义消岐方法

2.4 语义知识库

2.5 主题模型

2.5.1 LDA模型简介

2.5.2 Tag-LDA模型

2.6 本章小结

第三章 基于标签筛选的文档排序方法

3.1 研究问题引出

3.2 互信息的改进方法

3.2.1 引入特征项分布的互信息方法

3.2.2 引入特征项位置信息的互信息方法

3.3 基于标签筛选的文档排序方法

3.3.1 基于互信息改进方法的标签筛选

3.3.2 基于标签筛选的文档排序方法

3.3.3 基于标签筛选的文档排序方法描述

3.4 基于标签筛选的文档排序方法系统框架

3.5 实验设计及结果分析

3.5.1 实验语料及对比系统

3.5.2 实验流程

3.5.3 筛选标签结果对比与分析

3.5.4 实验结果

3.6 本章小结

第四章 基于动态词语贡献度的文档排序方法

4.1 问题引出

4.2 基于动态词语贡献度的检索系统框架

4.2.1 查询信息接收

4.2.2 查询语句语义处理

4.2.3 词语贡献度动态计算

4.2.4 文本检索

4.3 基于动态词语贡献度的文档排序方法

4.3.1 相关公式

4.3.2 算法描述

4.4 实验设计及结果分析

4.4.1 实验流程

4.4.2 实验结果

4.5 本章小结

第五章 总结及进一步工作

5.1 总结

5.2 进一步工作

参考文献

攻读硕士学位期间公开发表的成果与参加的科研项目

致谢

展开▼

摘要

在信息技术日新月异的今天,网络信息量也在快速增长,每天通过互联网产生的信息量是难以估计的,要想从这样繁多的信息中找出满意的结果,就必须要借助于搜索引擎,搜索技术的提高是优化搜索引擎性能的关键。那么如何提升搜索技术,使搜索引擎能够快速而准确地找到人们想要的知识,是信息检索领域面临的挑战。
  本文首先介绍了信息检索领域的研究现状和相关知识,然后进一步引出本文研究重点。本文从标签筛选和查询扩展两方面入手,来提升检索效果。一方面,对文档语义信息的挖掘是文本检索中一个很重要的方法,充分地挖掘文本语义信息对检索效果的提升有很大的帮助。Tag-LDA模型是在LDA模型的基础上改进的一种主题模型,它在LDA模型的“文档-主题”层之间加了一个标签层,通过标签层,能较好地发掘文档的语义信息。然而Tag-LDA的标签层在筛选标签的过程中更多考虑的是词语的词频信息,根据词频来选择文本特征,抽取标签,没有考虑标签对文档的类别区分能力,进而导致筛选的标签不能很好地代表文档;另一方面,现有的查询扩展方法大都是基于人工构建的知识库,但是人工构建的知识库忽略了词语语义信息的动态变化情况,使得这种变化不能在扩展检索中体现。基于以上提出的两个缺点,本文在第三章和第四章分别提出了两个解决的方法。
  本文第三章提出了一种基于标签筛选的文档排序方法。该方法首先在互信息的基础上引入特征项在文档类别间的分布信息,通过特征项分布的方差来描述特征项的分布均匀程度,然后将特征项的位置信息也考虑进来,最后用引入了特征项分布和位置信息的互信息改进方法对文档集中的文档进行标签选择,筛选出更能代表文档的标签。通过基于互信息改进的Tag-LDA来获得词对文档的语义信息表达,用于文档排序,从而提升检索效果。
  本文第四章还提出了一种基于动态词语贡献度的文档排序方法。该方法针对现有的查询扩展方法的不足之处,提出了几点改进。首先提出了动态地计算和更新语义知识库中词语语义信息的方法,然后将这种语义信息融入到查询词扩展和词义消歧的过程中,将扩展检索提升到支持动态语义分析的检索上,从而提高检索结果的准确率和查全率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号