面向Web文本检索的归一化一分类算法

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

信息检索作为互联网应用的重要组成部分，与人们的日常生活密不可分；而作为文本形式的web应用仍然是互联网的主流应用。如何从大量的Web文本中更加有效的检索信息，依然是许多科研人员所面临的难题。文本自动分类技术，不仅是自然语言处理领域的一个重要分支，而且是信息检索和数据挖掘的基础和重要组成部分。
　　面对每天数以亿计的互联网Web文本页面的更新，针对Web信息检索的文本分类技术，不能仅仅考虑分类算法的正确性，还要考虑分类算法的效率。本文从分类的精度和时间性能两方面作为切入点，提出了一种分类精度高，训练和分类时间代价小的归一化向量(Normalized Vector，简记NLV)文本分类算法。
　　本文首先介绍了信息检索和文本分类的背景知识和相关过程，然后对已有的典型特征选择方法和文本分类算法做了较详细描述。通过对已有方法与技术的总结，提出了一种基于矩阵投影(MP)运算的特征选择方法和归一化向量(NLV)分类算法。
　　 MP方法属于概率模型的特征选择方式，不仅考虑词的文档频率，并且还考虑了词的平均出现频率。对信息增益(IG)、卡方校验(CHI)、文档频率(DF)、互信息(MI)和矩阵投影(MP)特征选择做了对比分析；并且采用多种分类算法验证MP特征选择方式是可行有效的。
　　 NLV分类算法通过压缩运算将高维的单类别向量空间压缩成低维的归一化向量，并通过归一化函数(方根型或对数型)对归一化向量的特征权重进行调整，较好地训练出分类模型。本文分别采用三套不同平衡性和语种的较大规模Web文本型语料库(20-Newgroups、TanCorpV1.0、SogouC)，五种特征选择方法(DF、CHI、IG、MI、MP)和四种分类算法(kNN、MBNB、MNNB、SVM)做了大量而全面的对比实验来验证NLV算法的实用性和高效性。NLV算法训练和分类速度是五种算法中最快的，分类精度在中文语料库上略低于SVM，但是速度方面与SVM相比占有绝对优势；而在20-Newgroups语料库上NLV算法能够取得最优的分类精度和时间性能。

著录项

作者
孙启干;
展开▼
作者单位

重庆大学;

展开▼
授予单位重庆大学;
学科计算机软件与理论
授予学位硕士
导师姓名钟将;
年度 2012
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
信息检索; Web文本检索; 分类算法; 文本分类; 归一化向量法;

相似文献

中文文献
外文文献
专利

1. 面向Web信息检索的虚核文本分类算法 [J] . 李静 ,杨小帆 ,孙启干 . 计算机工程 . 2012,第010期
2. 结合批归一化的轻量化卷积神经网络分类算法 [J] . 张百川 ,赵佰亭 . 哈尔滨商业大学学报（自然科学版） . 2021,第003期
3. 结合批归一化的直通卷积神经网络图像分类算法 [J] . 朱威 ,屈景怡 ,吴仁彪 . 计算机辅助设计与图形学学报 . 2017,第009期
4. 基于归一化向量的文本分类算法 [J] . 钟将 ,孙启干 ,李静 . 计算机工程 . 2011,第008期
5. 基于Web的文本检索位置加权模型研究 [J] . 刘海峰 ,王倩 ,王元元 . 情报科学 . 2007,第3期
6. Web文本检索中信息的分布特性与检索策略研究 [C] . 张敏 ,马少平 . 全国搜索引擎和网上信息挖掘学术讨论会 . 2003
7. 学科学术评价归一化方法与归一化指标研究 [A] . 叶超 . 2011

面向Web文本检索的归一化一分类算法

摘要

著录项

相似文献

相关主题

期刊订阅