中文文本分类特征提取方法的研究与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着计算机网络技术的迅猛发展，文本信息数量呈现指数级的增长。文本分类作为一种有效的文本信息组织管理技术能很好地组织管理海量、异构的信息。在文本分类基础上通过信息检索、过滤等技术可以帮助人们从海量信息中快速，准确地查找相关知识信息，提高生活工作效率，因此对文本分类技术的研究具有较大的研究意义和实用价值。
　　本文首先对文本分类关键技术进行研究分析，在此基础上对特征提取方法进行了重点研究，提出了新特征提取方法，并利用新特征提取方法设计开发了一个中文文本分类系统，实验结果分析表明文中提出的特征提取方法取得了良好的实验效果。本文主要的研究工作如下：
　　①分析了对文本分类过程及关键技术，研究了文本特征特征提取方法。通过对基于过滤模型的几种常用特征提取方法分析比较后，发现文本特征提取过程中负相关特征与弱相关特征对特征提取质量好坏易产生较大的干扰。为了避免这种干扰，本文提出一个基于类别正相关和类别强相关的特征提取方法SP(StrongCorrelationandPositiveCorrelation，正相关与强相关)，SP方法通过优先选择正相关特征和强相关特征，有效地减少了负相关特征和弱相关特征的干扰，从而保证高质量文本特征的提取。
　　②设计与实现了一个中文文本分类系统，把文本分类的特征提取方法SP应用到中文文本分类系统。文中对中文文本分类系统进行了总体设计和功能模块设计，分析研究汉语语法分析工具包ICTCLAS与全文检索工具包Lucene，并将二者结合作为中文文本分类系统搭建解决方案，最终实现了中文文本分类系统。
　　③在中文文本分类系统上对特征提取方法进行大量的实验。把本文提出的新特征提取方法与常用的DF、CHI、CC等特征提取方法进行对比实验，利用多项常用的分类效果评价指标对实验结果进行综合性评价分析。实验结果表明SP方法通过提取高质量的特征词，构造低维的特征向量，能够有效地降低特征空间维度，在中文文本分类中表现出良好的特征提取效果，反映了类别间的差异度。

著录项

作者
林少波;
展开▼
作者单位

重庆大学;

展开▼
授予单位重庆大学;
学科计算机软件与理论
授予学位硕士
导师姓名杨丹;
年度 2011
页码
总页数
原文格式 PDF
正文语种中文
中图分类模式识别与装置;
关键词
中文文本分类; 特征提取方法; 过滤模型; 特征向量;

相似文献

中文文献
外文文献
专利

1. 中文文本分类中特征提取方法的比较与改进 [J] . 王明令 . 兰州工业学院学报 . 2010,第006期
2. 中文文本分类中基于词性的特征提取方法研究 [J] . 胡燕 ,吴虎子 ,钟珞 . 武汉理工大学学报 . 2007,第4期
3. 基于互信息的特征提取方法在中文法律案情文本分类中的改进及应用 [J] . 李文 ,王炜立 ,洪胜华 . 科技广场 . 2006,第011期
4. 中文文本分类中基于概念屏蔽层的特征提取方法 [J] . 廖莎莎 ,江铭虎 . 中文信息学报 . 2006,第003期
5. 中文文本分类相关算法的研究与实现 [J] . 徐沛娟 ,李雄飞 ,惠玥 . 吉林大学学报（理学版） . 2009,第004期
6. 中文文本分类中一种基于语义的特征降维方法 [C] . 胡涛 ,刘怀亮 . 《图书情报工作》杂志社、图书情报工作研究会第25次图书馆学情报学学术研讨会 . 2011
7. 中文文本分类特征选择方法的研究与实现 [A] . 林艳峰 . 2014

中文文本分类特征提取方法的研究与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅