基于引力场模型的文本分类方法

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

随着I工业的发展，特别是互联网的应用普及，信息处理已成为人们获取有用信息不可或缺的一项关键技术，而自动文本分类技术又是信息处理的重要研究课题，它是指在预定义分类体系下，根据文本的内容，自动判别文本类别的过程。
　　本文首先介绍中文文本自动分类系统框架，然后介绍几种中文文本分类相关技术，接着介绍几种经典文本分类方法并总结其优缺点，最后本文提出一种新的文本分类算法。
　　该方法是受引力场启发而设计的一个基于引力场模型的“虚核”(Virtual Kernel，简记VK)文本分类方法。其基本思想：首先，在训练阶段，通过对单个类别下已标记文本的特征词频进行某种数学变换，计算该类别“虚核”在各个特征处的特征引力场强，从而获得单个类的类别“虚核”，以此类推，得到所有预定义类别的“虚核”，至此，分类模型构建完成；然后，在测试阶段，当未标记文本到来时，按照一定规则，计算各个类的类别“虚核”对该未标记文本产生的引力；最后，将引力大小排序来最终确定该文本所属类别。究其本质，该方法是按照预定义类别与文本特征之间的相关性进行自动分类的。
　　为了验证VK分类方法的实用性，本文做了大量精心设计的实验，实验采用向量空间模型来表示文本，采用两种特征选择方法-文档频率(DF)、信息增益(IG)，与两种经典的文本分类方法-kNN、朴素贝叶斯做比较，在两个语料库上进行测试，得出了一些有意义的结论：
　　 1)VK分类方法不论在分类效果还是分类时间方面均优于kNN与朴素贝叶斯。
　　 2)VK分类方法在非平衡语料库上也能表现出很好的分类效果。
　　 3)VK分类方法对训练样本集的大小没有很强的依赖性。
　　 4)就特征选择方法而言，IG优于DF。
　　 5)语料集的质量对分类结果有着直接影响。

著录项

作者
李静;
展开▼
作者单位

重庆大学;

展开▼
授予单位重庆大学;
学科计算机软件与理论
授予学位硕士
导师姓名杨小帆;
年度 2012
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
文本分类; 特征选择; 向量空间模型; 引力场模型; 中文文本;

相似文献

中文文献
外文文献
专利

1. 基于LSTM-Attention与CNN混合模型的文本分类方法 [J] . 滕金保 ,孔韦韦 ,田乔鑫 . 计算机工程与应用 . 2021,第014期
2. 基于BERT-TextCNN模型的临床试验筛选短文本分类方法 [J] . 杨飞洪 ,王序文 ,李姣 . 中华医学图书情报杂志 . 2021,第001期
3. 一种基于主题模型与迁移学习的文本分类方法 [J] . 包翔 ,汪满容 ,刘桂锋 . 山东科技大学学报（自然科学版） . 2021,第003期
4. 基于改进ERNIE模型的中文文本分类方法 [J] . 邢照野 ,刘晓群 . 信息与电脑 . 2021,第008期
5. 基于ERNIE-BiGRU模型的中文文本分类方法 [J] . 雷景生 ,钱叶 . 上海电力大学学报 . 2020,第004期
6. 一种基于聚类的主题模型短文本分类方法 [C] . 黄鑫 ,樊兴华 . 第十届中国Rough集与软计算、第四届中国Web智能、第四届中国粒计算联合会议 . 2010
7. 基于CNN混合模型的中文新闻文本分类方法研究 [A] . 刘亚培 . 2021

基于引力场模型的文本分类方法

摘要

著录项

相似文献

相关主题

期刊订阅