基于统计方法的中文文本自动分类研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着信息技术的发展,人们已经从信息缺乏的时代过渡到信息极为丰富的数字化的时代.如何从这些海量信息中迅速有效地获得所需信息也就成为一项很重要的研究课题.为此目的,文本自动分类被研究者提出并进行了应用研究.研究文本自动分类具有重要意义,它可以大大的缩短了对资料的整理时间,为信息检索提供方便,有利于现实文档的存档管理.该文主要是应用统计的方法对文本自动分类进行理论和实践的探讨.我们的工作主要从以下方面进行:1.探讨了基于统计方法的文本自动分类的定义、常用模型和常用算法.2.讨论了文本自动分类器一般方法、步骤及有关技术细节.3.在向量空间模型下,实现了向量距离加权算法、代表向量算法、中心向量算法构造的三种分类器.对三种分类器分别以字、词为特征进行分类测试、分析发现:①使用相同的分类算法,用词作为特征项,比以字作为特征的分类效果好;②用不同的算法构造分类器对分类效果的影响很大,如中心向量算法在字、词特征下的分类效果优于其他两算法;在以字为特征的情况下,该算法的平均查全率80.73％,平均查准率82.94％;在以词为特征的情况下,该算法的平均查全率83.6％,平均查准率85.97％;③选用语料不同对分类效果也有影响,如用新浪网(www.sina.com.cn)网页语料进行测试,使用中心向量法分类器和词作为特征的情况下,平均准确率为89.31％,平均查全率为88.33％.4.基于改进后的中心向量法重构自动分类器,测试取得了开放测试平均查全率90.35％、平均准确率90.87％和封闭测试平均查全率98.36％、平均准确率98.74％的分类效果,说明改进后的算法适合中文文本分类.该文所得到的这些实验数据对于开发实际的文本分类系统具有指导意义.该研究可应用于网络信息检索、信息过滤、中文文本自动分类、中文网页自动分类等应用领域.

著录项

作者
骆昌日;
展开▼
作者单位

华中师范大学;

展开▼
授予单位华中师范大学;
学科计算机应用技术
授予学位硕士
导师姓名何婷婷;
年度 2004
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP391.12;
关键词
中心向量法; 文本自动分类; 向量空间模型; 统计方法;

相似文献

中文文献
外文文献
专利

1. 基于机器学习的中文文本自动分类的实践研究 [J] . 韦灵 ,黎伟强 . 智库时代 . 2019,第045期
2. 基于机器学习的中文文本自动分类的实践研究 [J] . 韦灵 ,黎伟强 . 智库时代 . 2019,第046期
3. 基于KNN的中文文本自动分类研究 [J] . 花洁 ,刘涛 . 教育技术导刊 . 2008,第002期
4. 基于支持向量机的中文文本自动分类研究 [J] . 马金娜 ,田大钢 . 系统工程与电子技术 . 2007,第003期
5. 基于SVM的中文文本自动分类研究 [J] . 马金娜 ,田大钢 . 计算机与现代化 . 2006,第008期
6. 一种基于EP的中文文本自动分类算法 [C] . 许红涛 ,范明 ,昝红英 . 2005第一届中国分类技术与应用研讨会（CSCA） . 2005
7. 基于VSM模型和特征选择算法的中文文本自动分类研究 [A] . 朱坤红 . 2011

基于统计方法的中文文本自动分类研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅