基于科技文献的中文文本分类算法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

文本分类最初是应文本信息检索的要求出现的，但是随着文本数据的激增，传统的分类研究方法己经不适合大规模文本分类，于是文本数据挖掘应运而生。作为文本数据挖掘的一个重要功能，文本分类技术日益成为研究热点。科技文献的行文和格式都有规范的特点，但其科技文献的自动分类问题却没有得到足够的关注；与此同时，科技文献分类问题的需求却与日俱增。针对这一现实需求，本文以计算机类科技文献为例，对科技文献的分类问题进行了深入研究。首先，对中文文本分类算法进行了深入研究，从分类算法的应用和分类效果角度出发，分析了各个算法的分类思想、文本预处理方法、特征项的选择和特征提取方法以及算法实现关键步骤等，并提出了评价和分析几个分类算法的定理和方法。其次，分析了科技文献的行文规范特点，提出了关键词抽取算法。科技文献的标题、关键词和摘要部分很精简的反映了文章的核心内容，同时与文档主题内容不相关的描述很少，算法直接从该部分内容抽取关键词集，取代了传统文本分类算法的中文分词。然后，提出了一种基于科技文献的文本分类算法，实现了对计算机类科技文献的层次化分类。应用科技文献自身明显的层次关系结构特点，抽取各个类别文档的关键词集，构建层次化分类模型，有效地提高了科技文献的分类精度。实验结果充分表明，所提出的层次化分类算法的分类效果明显优于传统的平面化分类算法，有更高的准确率和查全率。

著录项

作者
王俊英;
展开▼
作者单位

燕山大学;

展开▼
授予单位燕山大学;
学科计算机软件与理论
授予学位硕士
导师姓名郭景峰;
年度 2007
页码
总页数
原文格式 PDF
正文语种中文
中图分类计算机情报检索系统;
关键词
文本分类; 向量空间模型; 分词; 特征选择; 权重; 科技文献;

相似文献

中文文献
外文文献
专利

1. 基于三支决策的中文文本分类算法研究 [J] . 靳义林 ,胡峰 . 南京大学学报：自然科学版 . 2018,第4期
2. 面向社区问答的中文短文本分类算法研究 [J] . 赵辉 ,刘怀亮 . 现代情报 . 2013,第010期
3. 面向中文文本分类的C4.5Bagging算法研究 [J] . 张翔 ,周明全 ,耿国华 . 计算机工程与应用 . 2009,第026期
4. 中文文本分类中的特征选择算法研究 [J] . 胡佳妮 ,徐蔚然 ,郭军 . 光通信研究 . 2005,第003期
5. 基于文本分类领域中文本分类和主题分析 [J] . 郭艳芳 ,郑金芳 ,赵连荣 . 中国科技财富 . 2008,第011期
6. 提高核心中文科技期刊影响力的途径——以被《中国科技期刊引证报告(核心版)》收录文献指标分析 [C] . ZHOU Lizhong ,周立忠 . 2013年（第五届）科技期刊发展创新研讨会 . 2013
7. 中文文本分类中文本表示及分类算法研究 [A] . 蒋红 . 2007

基于科技文献的中文文本分类算法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅