首页> 中文学位 >基于SVM的多层次大类别数文本分类系统(HJ-TCM)的设计与实现
【6h】

基于SVM的多层次大类别数文本分类系统(HJ-TCM)的设计与实现

代理获取

目录

文摘

英文文摘

第一章绪论

§1.1文本分类的定义

§1.2主要研究内容和目的

§1.3技术现状分析

§1.4研究工作背景

§1.4.1项目背景

§1.4.2项目目标

第二章HJ-TCM系统总体设计

§2.1设计考虑

§2.2总体结构

§2.3功能模块说明

第三章文本分类预处理

§3.1中文文本分词

§3.1.1最大概率分词法

§3.1.2词性标注

§3.2特征抽取

§3.2.1传统特征抽取方法分析

§3.2.2组合特征抽取方法

§3.3文档表示

第四章HJ-TCM分类器算法

§4.1概述

§4.2 SVM简介

§4.2.1统计学习理论

§4.2.2支持向量机

§4.3三元解析优化训练算法

§4.3.1现有训练算法

§4.3.2 3SAO详述

§4.3.3实验与分析

第五章HJ-TCM系统的实现

§5.1多类别分类的实现

§5.2多层次分类的实现

§5.2.1多层次分类树的构造

§5.2.2多层次分类的实施

§5.3系统集成实现

§5.3.1系统流程

§5.3.2项目测试

第六章结束语

6.1本文的工作总结

6.1今后的研究方向

致谢

参考文献

展开▼

摘要

该文对建立多层次大类别数文本分类系统进行了研究,分析了其中的各种关键技术和难点,并提出了相应的解决方案.文章首先针对特征抽取问题进行深入研究,比较了目前常用的几种特征抽取方法,并提出了一种适合中文环境的DF+CHI的组合特征抽取方法,进一步提高了分类器的性能.针对项目采用《中图图书馆图书分类法》的分类体系,其中各个分类类别按层次树状结构组织且分类数目很大,而且对分类的速度和精度都有很高的要求的特点,选择性能好的支持向量机(SVM)作为分类器,能够有效地避免经典学习方法中过学习、维数灾难、局部极小等问题,而且在小样本条件下仍然具有良好的泛化能力.文章同时采用有向无环图支持向量机(DAGSVM)和最大投票法(Max Wins)相结合的技术实现分类器的组合,既能准确定位分类类别,又能形成分类类别的相似度列表,为分类系统提供了更高的灵活性,同时采用有效的缓存机制解决了资源管理问题.为了进一步提高SVM的训练速度,该文在分析现有训练算法的基础上提出了三元序贯解析优化(3SAO)训练算法.由于该算法选择了比SMO更大的工作集而没有增加过多的计算,总的优化步骤减少,收敛速度也更快,平均训练速度约为SMO的两倍.文章最后用真实语料进行测试,系统表现出了很好的召回率和准确率.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号