智能搜索中的中文网页分类研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网技术突飞猛进的发展,网络规模正以指数级增长。为了更加快捷的找到所需的信息,而不被庞大无序且结构类型多样的信息海洋所淹没,智能搜索已成为人们获取信息的主要途径。然而,当前的全文搜索引擎虽然提供了信息检索服务,但是自身存在着种种缺陷导致了诸如信息孤岛、主题偏向性等问题的出现。而如果对搜索信息按照所属类别进行分类,便可以在很大程度上满足用户搜索的需求,网页自动分类便应运而生。目前,中文网页自动分类技术在搜索引擎的目录导航服务、信息过滤、主题搜索、个性化信息检索、主动信息推送服务领域得到了广泛地应用。本研究主要内容包括以：
　　 ⑴通过分析网页中包含的“噪声”,结合网页内容的视觉信息和几何布局,使用改进的网页DOM树结构和可视化分析方法识别出主题型网页的内容块,然后在得到的内容块中提取出网页的主要内容,利用统计学的方法来去除网页中与主题不相关的内容,最终达到有效去除网页噪声的目的。实验表明,该方法可以在很大程度上净化网页文本,删除网页中与主题不相关的信息。
　　 ⑵针对余弦距离在计算文本相似度时,没有考虑文本特征词之间的语义信息,结合《知网》对词汇间概念的语义定义,使用一种基于改进的最优指派模型计算文本的最大相似度。该方法通过模型将网页文本中每个特征词对文本间语义相似度的贡献值聚合在一起,得到网页文本间的相似度值。
　　 ⑶通过研究网页自动分类的一般常用模型,并结合网页类别定义的自身特点,构建了一种基于支持向量机的层次分类模型。该模型首先用支持向量机识别出所有的顶层类别,然后进行二次特征选择,去除子类间的无关特征,再对每个顶层类别用K-NN识别出子类别。实验表明,该层次分类方法可以得到较好的分类效果。

著录项

作者
邓科;
展开▼
作者单位

兰州理工大学;

展开▼
授予单位兰州理工大学;
学科计算机应用技术
授予学位硕士
导师姓名张永;
年度 2011
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.13;TP391.12;
关键词
数据挖掘; 中文网页; 信息分类; 汉字处理;

相似文献

中文文献
外文文献
专利

1. 中文网页分类中特征提取的研究 [J] . 程传鹏 ,李钜 . 中原工学院学报 . 2005,第006期
2. 组合降维技术在中文网页分类中的应用 [J] . 李新福 . 计算机工程与应用 . 2007,第024期
3. 中文网页分类中的网页特征提取方法 [J] . 江祥奎 ,原思聪 . 电脑开发与应用 . 2005,第010期
4. 可分性判据在中文网页分类中的应用 [J] . 秦兵 ,郑实福 ,刘挺 . 微处理机 . 2002,第001期
5. 基于向量空间模型中文农业网页分类技术研究 [J] . 段园磊 ,张太红 . 新疆农业大学学报 . 2012,第002期
6. 智能搜索引擎中的中文信息分类过滤方法 [C] . 段米毅 ,钱晓军 . 全国信息技术高级研讨会 . 2001
7. 智能搜索中中文网页分类和聚类的初步研究 [A] . 高超 . 2007

智能搜索中的中文网页分类研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅