首页> 中文学位 >基于科技文献的中文文本分类算法研究
【6h】

基于科技文献的中文文本分类算法研究

代理获取

目录

文摘

英文文摘

声明

第1章绪论

1.1文本自动分类研究的背景和意义

1.2文本自动分类技术的发展现状

1.2.1国外研究状况

1.2.2国内研究状况

1.3文本自动分类技术的应用价值

1.4课题研究内容及论文的组织结构

第2章中文文本分类关键技术

2.1文本分类概述

2.2基于统计的分类模型

2.3文本的向量空间模型(VSM)表示

2.3.1向量空间模型的基本概念和特点

2.3.2特征项的选择和特征权重

2.4文本预处理

2.4.1文本半结构化

2.4.2自动分词

2.4.3特征选择和提取

2.5本章小结

第3章中文文本分类算法的评价与分析

3.1朴素贝叶斯算法

3.2 KNN算法

3.3类中心向量最近距离判别算法

3.4基于聚类粒度原理的分类算法

3.5支持向量机

3.5.1线性支持向量机

3.5.2实际的线性支持向量机

3.5.3非线性向量机

3.6潜在语义索引

3.7 Boosting分类方法

3.8使用最大熵模型分类

3.9评价和比较分类算法性能的定理和方法

3.10本章小结

第4章基于科技文献的中文文本分类算法

4.1关于科技文献

4.1.1科技文献行文规范特点

4.1.2关键词集抽取算法

4.2算法提出背景

4.3分类模型构建算法

4.3.1属性选择

4.3.2算法实现

4.4自动文本分类算法

4.4.1层次化分类

4.4.2算法实现

4.5本章小结

第5章对比实验

5.1开发测试环境数据集

5.2实验设计

5.2.1实验方法

5.2.2评估方式

5.3实验结果和分析

5.3.1传统文本分类算法比较

5.3.2科技文献文本分类算法

5.4本章小结

结论

参考文献

攻读硕士学位期间承担的科研任务与主要成果

致谢

作者简介

展开▼

摘要

文本分类最初是应文本信息检索的要求出现的,但是随着文本数据的激增,传统的分类研究方法己经不适合大规模文本分类,于是文本数据挖掘应运而生。作为文本数据挖掘的一个重要功能,文本分类技术日益成为研究热点。 科技文献的行文和格式都有规范的特点,但其科技文献的自动分类问题却没有得到足够的关注;与此同时,科技文献分类问题的需求却与日俱增。针对这一现实需求,本文以计算机类科技文献为例,对科技文献的分类问题进行了深入研究。 首先,对中文文本分类算法进行了深入研究,从分类算法的应用和分类效果角度出发,分析了各个算法的分类思想、文本预处理方法、特征项的选择和特征提取方法以及算法实现关键步骤等,并提出了评价和分析几个分类算法的定理和方法。 其次,分析了科技文献的行文规范特点,提出了关键词抽取算法。科技文献的标题、关键词和摘要部分很精简的反映了文章的核心内容,同时与文档主题内容不相关的描述很少,算法直接从该部分内容抽取关键词集,取代了传统文本分类算法的中文分词。 然后,提出了一种基于科技文献的文本分类算法,实现了对计算机类科技文献的层次化分类。应用科技文献自身明显的层次关系结构特点,抽取各个类别文档的关键词集,构建层次化分类模型,有效地提高了科技文献的分类精度。 实验结果充分表明,所提出的层次化分类算法的分类效果明显优于传统的平面化分类算法,有更高的准确率和查全率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号