基于扩展的VSM中文文本分类方法

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着因特网的迅猛发展，作为网络主要资源的文本信息也在高速增长。如何有效组织和管理这些信息，并快速、准确、全面的从中找到用户所需要的信息是当前信息科学和技术领域面临的重要问题。文本分类作为处理和组织大量文本数据的关键技术，可以在较大程度上解决信息杂乱现象的问题，帮助人们准确高效的定位信息和分流信息，因此具有广泛的应用前景。
　　文本自动分类最常用的方法是基于向量空间模型。通常采用关键词作为向量构建向量空间模型。早期研究是基于知识的，通过人工建立分类规则确定特征项，随着统计机器学习理论和统计自然语言处理技术的发展，使用机器学习的方法确定特征项得到应用，并取得了良好的效果。可是由于受到训练语料库资源和训练时间的限制，机器学习能力也有局限性。有很多对类别有贡献的特征项，通过常规的机器学习是得不到的。用这样的特征向量集生成的向量空间模型在进行文本分类时就不会达到满意的效果，所以机器学习生成的向量空间模型是需要重新构造的。
　　本文提出了一种基于扩展空间向量模型（VSM）的方法用于中文文本分类。该方法对每类文本特征项进行分析，并通过合适的舰则抽取了最能代表主题的特征义原，然后用Hownet对这些特征义原扩展，并赋予扩展的特征项适当权值来说明其描述能力。接着联合同义词典将原始向量空间模型，和扩展的向量空间模型融合成新的特征向量空间。最后选择合适的分类器用重构的VSM模型进行分类。本文重点研究了抽取特征义原，设定特征项合适的权值和重构向量空间模型方法。实验表明，该方法能增加有效的向量空间维数，使分类正确率和稳定性均得到提高。最后对论文进行了总结和展望，指出基于扩展VSM的文本分类尚需研究和改进的问题。

著录项

作者
井志强;
展开▼
作者单位

哈尔滨工程大学;

展开▼
授予单位哈尔滨工程大学;
学科信号与信息处理
授予学位硕士
导师姓名陈立伟;
年度 2010
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.13;TP393.09;
关键词
中文; 文本分类; 扩展的向量空间模型; 机器学习理论; 特征项; 信息科学; 统计自然语言处理技术; 特征向量空间; 空间向量模型; 有效组织; 自动分类; 资源; 重新构造; 重构; 早期研究; 训练时间; 学习能力; 文本信息; 文本数据; 同义词典;

相似文献

中文文献
外文文献
专利

1. 基于特征项扩展的中文文本分类方法 [J] . 陈立伟 ,井志强 ,葛秘蕾 . 应用科技 . 2010,第003期
2. 一种基于传统VSM和词共现概念的中文文本聚类的研究 [J] . 耿焕同 ,陈少军 . 安徽师范大学学报（自然科学版） . 2005,第001期
3. 一种基于模糊VSM和神经网络的文本分类方法 [J] . 潘俊辉 ,王辉 . 科学技术与工程 . 2011,第009期
4. 基于改进VSM的Web文本分类方法 [J] . 胡晓 ,王理 ,潘守慧 . 情报杂志 . 2010,第005期
5. 一种基于VSM的中文网页分类方法 [J] . 孔令成 ,郑诚 ,吴永俊 . 微型机与应用 . 2009,第017期
6. 浅谈基于VSM的非结构化中文文本分类方法 [C] . 尚振辉 ,孙会 . 2011全国教育技术博士生学术论坛 . 2011
7. 基于VSM的中文文本分类算法研究 [A] . 余伟中 . 2018

基于扩展的VSM中文文本分类方法

目录

摘要

著录项

相似文献

相关主题

期刊订阅