首页> 中文学位 >面向智能信息检索的Web挖掘关键技术研究
【6h】

面向智能信息检索的Web挖掘关键技术研究

代理获取

目录

文摘

英文文摘

独创性声明及学位论文版权使用授权书

第一章前言

第二章相关概念与技术

第三章支持信息检索的数据预处理技术

第四章中文页面与Web用户分类技术

4.1问题提出

4.2常用分类方法

4.3维数约减方法

4.4改进的基于k近邻的中文文本分类方法

4.5基于神经网络的Web用户分类

4.6本章小结

第五章面向页面和用户聚类的聚类分析技术

第六章智能信息检索系统原型

第七章总结与展望

参考文献

致谢

攻博期间发表的文章

攻博期间参加和完成的科研项目

作者简介

展开▼

摘要

WWW自从1991年问世以来得到了非常迅速的发展,为人们获取各种信息提供了方便。随着Internet技术的不断发展和完善,WWW将会逐步成为人们获取信息的一个重要渠道。如果说,在信息量相对较少的时候,Internet为人们获取信息提供了方便的话,随着Internet上信息量的急剧增加,人们却感觉到查找所需要的信息越来越困难了,其原因就在于传统的信息检索方式已越来越不适应网上的海量信息,人们希望有更加智能化的信息检索方式出现,以应对海量信息的检索。 本文对面向智能信息检索的Web挖掘的若干关键技术进行研究,重点研究了数据预处理、Web页面分类/聚类及Web用户分类/聚类、概念检索、个性化服务等问题,提出或改进了一些应用于智能信息检索的Web挖掘算法,应用研究成果实现了一个小型智能化信息检索的系统原型。 数据预处理包括基于PDF文件的信息抽取、中文文本分词和Web日志预处理。对于PDF文件信息抽取,提出了基于格式注入的规则抽取和基于树模型的信息抽取算法,在人工标注指导下学习信息抽取规则,取得了较高的信息抽取准确率。对于中文文本分词,提出了基于固定词典和统计相结合的渐进式丰富词典的中文文本分词方法,较好地解决了新词识别问题,相对于单纯的词典方法或统计方法,具有更好的分词效果。Web日志预处理包括数据清洗、用户识别、会话识别和路径补充等工作,在分析已有工作的基础上,重点讨论了路径补充问题并提出了新的路径补充算法,使Web日志预处理工作更加完善。 在中文页面分类研究中,讨论了用于文本分类的各种方法,重点讨论了对文本分类具有较高分类准确率的k-近邻方法。针对k-近邻方法分类效率不高的问题,提出了基于密度的训练样本集约减、渐进式分类等算法。通过计算训练样本集中各类别的类别密度及整个训练集的平均密度,去掉高密度类别中的部分样本;渐进式分类模式模拟人工分类文本的智能化形式,分为按标题分类、按关键段落分类和按全文分类三个层次,尽量减少分析全文的比例。实验表明,这两个方面的改进,不仅提高了k-近邻方法的分类效率,而且对其分类准确率也有一定程度的提高,这说明训练样本集的约减使其具有更好的代表性,渐进式文本分类更符合人工智能分类文本的模式。同时还讨论了基于遗传算法学习获得k值和通过领域本体对文本进行语义转换等问题。 在针对Web用户分类的讨论中,考虑到Web日志数据含有较多噪音及用户分类特征不明显的特性,利用神经网络方法具有较强抗噪音能力的特点,把神经网络方法用于Web用户分类,取得了较好的分类效果。 在聚类研究中,对各种常用的聚类方法进行了讨论分析,改进了k-means聚类方法和DBSCAN聚类方法。针对k-means算法,提出了一种新的基于数据样本分布选取初始聚类中心的方法,提高了k-means算法的聚类准确率;针对DBSCAN算法,实现了邻域半径Eps和邻域内数据对象个数MinPts两个重要参数的自动选取,改进后的算法不仅提高了其自动化程度,而且更符合数据的实际分布,拓展了原有算法的聚类能力。 结合智能信息检索系统原型的建立,讨论了概念检索和个性化服务问题。通过信息抽取把PDF文档转换成具有标题、摘要、关键字等语义信息的文档;我们引入了本体的概念,通过领域本体的建立实现对用户兴趣模型和用户检索词的概念描述,从而实现基于概念的信息检索;页面分类、用户分类能够有效的支持个性化的信息服务。 总之,我们在信息抽取、Web日志预处理、中文分词、中文页面分类、Web用户分类/聚类、个性化服务、概念检索等方面的研究能够有效地支持信息检索的智能化。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号