首页> 中文学位 >现代信息检索中的文本分类及图像恢复研究
【6h】

现代信息检索中的文本分类及图像恢复研究

代理获取

目录

文摘

英文文摘

独创性(或创新性)声明及关于论文使用授权的说明

第一章绪论

第二章自动文本分类系统

第三章文本预处理

第四章特征选择

第五章文本分类器

第六章图像检索

第七章总结与展望

博士期间发表的论文

致谢

展开▼

摘要

信息化的飞速发展使各种信息呈现爆炸式增长,这给人们的工作、学习和生活提供了极大便利,但淹没于大量无用、重复信息之中的有用信息很难通过人工的方法被全面准确地提取出来,人们陷于信息提取的泥潭中,快速有效的信息检索技术成为了唯一的解决方案。信息检索主要包含两个部分:按照科学的体系结构对信息进行归类和获取用户真实意图,反馈给用户所需的信息。前者是提高效率的关键,本文的研究则集中于信息归类,围绕中文文本分词、特征选择和分类方法以及图像检索中的模糊图像恢复等关键技术展开探索。研究过程使用了理论分析和计算机实验验证两种主要方法。以理论分析确定实验目的,指导实验方法;以实验数据支持理论分析,推动更深入的理论分析。 本文首先介绍了信息检索的发展现状,结合本论文的主要研究内容论述了信息检索中的关键技术,对本论文的内容安排和主要创新作了说明。而后,从总体上介绍了自动文本分类系统的组成结构和功能,为后面的研究打下了基础。本论文所作的创新主要包括以下几个部分: 现有机械分词方法准确率偏低,对后续特征选择和分类造成了破坏,影响了文本分类精度;非机械分词法虽然有较好的分词精度,但是时间和/或空间复杂度较高,不易实现。针对上述问题,本文提出了一种对最大匹配法进行改进得到的预测最大匹配分词方法。预测最大匹配法通过对长词出现可能性和起始位置进行预测,使分词过程更符合长词优先准则。通过对新方法分词性能和时间复杂度的分析,证明了该方法以较小的复杂度增加为代价明显提高了分词准确性,接近全局最大匹配的性能。 以词为特征表示中文文本时特征维数较高,需要剔除对分类贡献小的特征。现有特征选择方法基于词与词之间相互独立的假设,属于标量特征选择。实际上词与词之间存在很强的的相关性,本文提出了基于期望交叉熵的向量特征选择方法,兼顾了词与类别及词与词之间的相关性。本文还研究了使用K-L变换和奇异值分解特征生成的方法。实验证明在相同的分词和分类法基础上,相对于标量特征选择,向量特征选择法配合K-L变换和奇异值分解的特征生成方法有效提高了文本分类的精度。 分类器是文本分类系统的核心,经典的Rocchio分类法实现简单,但分类性能欠佳。在分析了Rocchio法对样本统计特性利用的片面性的基础上,本文提出了基于方差的文本分类算法,利用了不同类别文本在分布上的差别。为了同时发挥Rocchio法的速度优势和SVM法的性能优势,本文提出了使用Rocchio法粗分类结合SVM细分类的新分类方法。计算机实验表明在使用相同的分词和特征选择方法的基础上,本文提出的分类法,特别是Rocchio结合SVM的分类法显著改进了分类器的性能。 多媒体信息的检索是未来信息检索的发展方向,本文对图像检索系统中的图像样本预处理技术进行了探索。借鉴通信领域应用的EVA算法,提出了一种在无先验知识的情况下对图像进行盲恢复的方法。通过这种方法可以有效提高图像样本的质量,进而提高图像检索的效率和准确性。 未来智能信息检索技术的发展是无可限量的,本文的最后对全文内容进行了总结,概括了其主要的贡献及意义,并提出了今后的研究方向。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号