现代信息检索中的文本分类及图像恢复研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

信息化的飞速发展使各种信息呈现爆炸式增长，这给人们的工作、学习和生活提供了极大便利，但淹没于大量无用、重复信息之中的有用信息很难通过人工的方法被全面准确地提取出来，人们陷于信息提取的泥潭中，快速有效的信息检索技术成为了唯一的解决方案。信息检索主要包含两个部分：按照科学的体系结构对信息进行归类和获取用户真实意图，反馈给用户所需的信息。前者是提高效率的关键，本文的研究则集中于信息归类，围绕中文文本分词、特征选择和分类方法以及图像检索中的模糊图像恢复等关键技术展开探索。研究过程使用了理论分析和计算机实验验证两种主要方法。以理论分析确定实验目的，指导实验方法；以实验数据支持理论分析，推动更深入的理论分析。本文首先介绍了信息检索的发展现状，结合本论文的主要研究内容论述了信息检索中的关键技术，对本论文的内容安排和主要创新作了说明。而后，从总体上介绍了自动文本分类系统的组成结构和功能，为后面的研究打下了基础。本论文所作的创新主要包括以下几个部分：现有机械分词方法准确率偏低，对后续特征选择和分类造成了破坏，影响了文本分类精度；非机械分词法虽然有较好的分词精度，但是时间和/或空间复杂度较高，不易实现。针对上述问题，本文提出了一种对最大匹配法进行改进得到的预测最大匹配分词方法。预测最大匹配法通过对长词出现可能性和起始位置进行预测，使分词过程更符合长词优先准则。通过对新方法分词性能和时间复杂度的分析，证明了该方法以较小的复杂度增加为代价明显提高了分词准确性，接近全局最大匹配的性能。以词为特征表示中文文本时特征维数较高，需要剔除对分类贡献小的特征。现有特征选择方法基于词与词之间相互独立的假设，属于标量特征选择。实际上词与词之间存在很强的的相关性，本文提出了基于期望交叉熵的向量特征选择方法，兼顾了词与类别及词与词之间的相关性。本文还研究了使用K-L变换和奇异值分解特征生成的方法。实验证明在相同的分词和分类法基础上，相对于标量特征选择，向量特征选择法配合K-L变换和奇异值分解的特征生成方法有效提高了文本分类的精度。分类器是文本分类系统的核心，经典的Rocchio分类法实现简单，但分类性能欠佳。在分析了Rocchio法对样本统计特性利用的片面性的基础上，本文提出了基于方差的文本分类算法，利用了不同类别文本在分布上的差别。为了同时发挥Rocchio法的速度优势和SVM法的性能优势，本文提出了使用Rocchio法粗分类结合SVM细分类的新分类方法。计算机实验表明在使用相同的分词和特征选择方法的基础上，本文提出的分类法，特别是Rocchio结合SVM的分类法显著改进了分类器的性能。多媒体信息的检索是未来信息检索的发展方向，本文对图像检索系统中的图像样本预处理技术进行了探索。借鉴通信领域应用的EVA算法，提出了一种在无先验知识的情况下对图像进行盲恢复的方法。通过这种方法可以有效提高图像样本的质量，进而提高图像检索的效率和准确性。未来智能信息检索技术的发展是无可限量的，本文的最后对全文内容进行了总结，概括了其主要的贡献及意义，并提出了今后的研究方向。

著录项

作者
刘涛;
展开▼
作者单位

北京邮电大学;

展开▼
授予单位北京邮电大学;
学科信号与信息处理
授予学位博士
导师姓名郭军;
年度 2006
页码
总页数
原文格式 PDF
正文语种中文
中图分类信息处理（信息加工）;
关键词
信息检索技术; 文本分类; 特征选择; 图像检索; 图像预处理;

相似文献

中文文献
外文文献
专利

1. 文本分类技术在信息检索中的应用 [J] . 刘冬雪 . 科技资讯 . 2010,第018期
2. 传统信息检索与现代信息检索的比较研究 [J] . 黄媛 . 中小学图书情报世界 . 2005,第009期
3. 基于特征恢复的中文残缺文本分类研究 [J] . 徐璐 ,周亚建 . 北京电子科技学院学报 . 2011,第004期
4. 现代信息检索技术在高校教育教学中的应用研究 [J] . 李心颖 ,李峰 . 软件 . 2017,第007期
5. 网络信息检索中的图像检索技术 [J] . 杨丽 . 中国管理信息化 . 2013,第003期
6. Web文本分类及其维、哈、柯多文种信息检索中的应用研究 [C] . 海丽且木·艾沙 ,维尼拉·木沙江 . 第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会 . 2010
7. 基于潜在语义索引的文本分类及其在科技信息检索中的研究 [A] . 彭毅 . 2009

现代信息检索中的文本分类及图像恢复研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅