面向智能信息检索的Web挖掘关键技术研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

WWW自从1991年问世以来得到了非常迅速的发展，为人们获取各种信息提供了方便。随着Internet技术的不断发展和完善，WWW将会逐步成为人们获取信息的一个重要渠道。如果说，在信息量相对较少的时候，Internet为人们获取信息提供了方便的话，随着Internet上信息量的急剧增加，人们却感觉到查找所需要的信息越来越困难了，其原因就在于传统的信息检索方式已越来越不适应网上的海量信息，人们希望有更加智能化的信息检索方式出现，以应对海量信息的检索。本文对面向智能信息检索的Web挖掘的若干关键技术进行研究，重点研究了数据预处理、Web页面分类/聚类及Web用户分类/聚类、概念检索、个性化服务等问题，提出或改进了一些应用于智能信息检索的Web挖掘算法，应用研究成果实现了一个小型智能化信息检索的系统原型。数据预处理包括基于PDF文件的信息抽取、中文文本分词和Web日志预处理。对于PDF文件信息抽取，提出了基于格式注入的规则抽取和基于树模型的信息抽取算法，在人工标注指导下学习信息抽取规则，取得了较高的信息抽取准确率。对于中文文本分词，提出了基于固定词典和统计相结合的渐进式丰富词典的中文文本分词方法，较好地解决了新词识别问题，相对于单纯的词典方法或统计方法，具有更好的分词效果。Web日志预处理包括数据清洗、用户识别、会话识别和路径补充等工作，在分析已有工作的基础上，重点讨论了路径补充问题并提出了新的路径补充算法，使Web日志预处理工作更加完善。在中文页面分类研究中，讨论了用于文本分类的各种方法，重点讨论了对文本分类具有较高分类准确率的k-近邻方法。针对k-近邻方法分类效率不高的问题，提出了基于密度的训练样本集约减、渐进式分类等算法。通过计算训练样本集中各类别的类别密度及整个训练集的平均密度，去掉高密度类别中的部分样本；渐进式分类模式模拟人工分类文本的智能化形式，分为按标题分类、按关键段落分类和按全文分类三个层次，尽量减少分析全文的比例。实验表明，这两个方面的改进，不仅提高了k-近邻方法的分类效率，而且对其分类准确率也有一定程度的提高，这说明训练样本集的约减使其具有更好的代表性，渐进式文本分类更符合人工智能分类文本的模式。同时还讨论了基于遗传算法学习获得k值和通过领域本体对文本进行语义转换等问题。在针对Web用户分类的讨论中，考虑到Web日志数据含有较多噪音及用户分类特征不明显的特性，利用神经网络方法具有较强抗噪音能力的特点，把神经网络方法用于Web用户分类，取得了较好的分类效果。在聚类研究中，对各种常用的聚类方法进行了讨论分析，改进了k-means聚类方法和DBSCAN聚类方法。针对k-means算法，提出了一种新的基于数据样本分布选取初始聚类中心的方法，提高了k-means算法的聚类准确率；针对DBSCAN算法，实现了邻域半径Eps和邻域内数据对象个数MinPts两个重要参数的自动选取，改进后的算法不仅提高了其自动化程度，而且更符合数据的实际分布，拓展了原有算法的聚类能力。结合智能信息检索系统原型的建立，讨论了概念检索和个性化服务问题。通过信息抽取把PDF文档转换成具有标题、摘要、关键字等语义信息的文档；我们引入了本体的概念，通过领域本体的建立实现对用户兴趣模型和用户检索词的概念描述，从而实现基于概念的信息检索；页面分类、用户分类能够有效的支持个性化的信息服务。总之，我们在信息抽取、Web日志预处理、中文分词、中文页面分类、Web用户分类/聚类、个性化服务、概念检索等方面的研究能够有效地支持信息检索的智能化。

著录项

作者
袁方;
展开▼
作者单位

东北大学;

展开▼
授予单位东北大学;
学科计算机软件与理论
授予学位博士
导师姓名于戈;
年度 2006
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.13;
关键词
智能信息检索; 数据挖掘; Web挖掘; 个性化服务; 数据预处理; 信息抽取;

相似文献

中文文献
外文文献
专利

1. 基于语义web的智能信息检索关键技术研究 [J] . 贾保先 ,徐建良 ,姚文琳 . 微计算机信息 . 2006,第033期
2. 基于语义Web的智能信息检索关键技术研究 [J] . 贾保先 ,徐建良 ,姚文琳 . 微计算机信息 . 2006,第11X期
3. 基于电子商务中web挖掘关键技术研究 [J] . 刘国雄 . 湖北农机化 . 2017,第005期
4. Web数据挖掘系统的设计及关键技术研究 [J] . 刘敏钰 ,薛鸿民 . 航空计算技术 . 2005,第001期
5. Web文本挖掘系统及其关键技术研究 [J] . 钟艳花 ,余伟红 ,余永权 . 计算机工程与应用 . 2003,第034期
6. 面向天涯论坛的Web挖掘的初步研究 [C] . 张泽代 ,唐锡晋 . 第十一届全国青年系统科学与管理科学学术会议暨第七届物流系统工程学术研讨会 . 2011
7. 面向智能信息检索技术的Web挖掘关键技术的研究 [A] . 周方 . 2011

面向智能信息检索的Web挖掘关键技术研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅