网页分类特征选择方法研究及系统实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

互联网技术的蓬勃发展不仅体现在传统互联网行业的日新月异，更体现在“互联网+”的日益兴起，它正在悄然地改变着更多的行业和领域。这也导致，各行各业的信息资源都大量散落在Internet上，且主要以文本形式存在，并呈现指数级的增长趋势。行业用户要想获取这些资源或者查询所需行业信息主要通过网络搜索，但是，用户往往需要从大量的搜索结果中排除掉许多无用信息，才能找到自己真正需要的那一小部分信息，这样不仅效率不高，还导致用户查询信息的体验不够理想，如何从庞大繁杂的互联网资源中挖掘出有价值的行业信息，一直是领域研究的热点。本文关于中文网页的特征选择方法与分类研究首先抽取出中文网页中的标题、正文等代表网页主题的文本信息，再研究并改进相关文本特征选择和表示方法对网页文本信息进行特征提取，将中文网页表示成计算机能够识别与处理的网页中间形式，最后设计实现一个中文网页分类系统对爬虫采集的生物医学领域相关中文网页进行分类，将其细分为六个子类别，为后续建立主题信息系统提供领域知识，使得面向主题的信息查询范围更加专业化，查询效率和准确率更高，满足生物医学领域对于知识查询的需求。
　　本文完成的主要工作及创新点如下：
　　(1)基于课题的研究内容，对爬虫采集的生物医学领域相关中文网页进行“去噪”处理，运用正则表达式技术设计一种匹配模型抽取出中文网页中的标题、正文等代表网页主题的文本信息，便于从中提取出网页特征，以用于网页分类。
　　(2)研究分析了常用文本特征选择和表示方法，针对 CHI方法的不足，提出一种改进的CHI方法，通过消除特征词负相关性引起的干扰，并引入词频、类内离散度来对CHI值进行适当修正。
　　(3)设计实现了基于SVM分类算法的中文网页分类系统，分别采用信息增益方法、CHI方法与本文改进后的CHI方法进行性能测试分析与对比，验证了其正确有效。
　　(4)将实现的分类系统应用在生物医学领域相关中文网页的分类，计算分类结果查全率、准确率以及F1值，证明了系统的实用价值。

著录项

作者
陈斌;
展开▼
作者单位

武汉理工大学;

展开▼
授予单位武汉理工大学;
学科信息与通信工程
授予学位硕士
导师姓名聂明新;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
网页分类; 文本挖掘; 特征选择; CHI方法;

相似文献

中文文献
外文文献
专利

1. 基于特征选择的网页分类方法研究 [J] . 原福永 ,于歌 ,崔春华 . 计算机工程与设计 . 2007,第017期
2. 网页分类中特征选择方法的研究 [J] . 唐喆 ,曹旭东 . 电子设计工程 . 2016,第005期
3. 一种改进的文本网页分类特征选择方法 [J] . 李粤 ,李星 ,刘辉 . 计算机应用 . 2004,第007期
4. 中文网页分类研究与系统实现 [J] . 段军峰 ,黄维通 ,陆玉昌 . 计算机科学 . 2007,第006期
5. 中文网页分类查询系统的设计与实现 [J] . 崔伟东 ,李星 . 计算机工程与应用 . 2000,第011期
6. 网页分类技术研究及系统实现 [C] . 沈抖 ,孙建涛 ,丛艳 . 全国搜索引擎和网上信息挖掘学术讨论会 . 2003
7. 基于VSM的中文网页分类特征选择技术研究与实现 [A] . 周帆 . 2012

网页分类特征选择方法研究及系统实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅