首页> 中文学位 >一种有效的文本分类方法MDCC的实现及应用
【6h】

一种有效的文本分类方法MDCC的实现及应用

代理获取

目录

声明

摘要

1.1 研究背景及意义

1.2 国内外研究发展现状

1.3 主要工作

1.4 组织结构

第二章 相关理论知识

2.1 文本分类主要流程

2.2 文本预处理

2.2.1 去除语料中的格式标记

2.2.2 去停用词

2.2.3 中文分词

2.3 文本特征提取

2.3.1 文档频率

2.3.2 TF-IDF

2.3.3 信息增益

2.3.4 互信息

2.3.5 卡方校验

2.3.6 Word2Vec模型

2.4 文本特征表示模型

2.4.1 布尔模型

2.4.2 概率模型

2.4.3 主题模型

2.4.4 向量空间模型

2.5 文本分类方法

2.5.1 朴素贝叶斯

2.5.2 K近邻分类

2.5.3 支持向量机

2.6 分类性能评价指标

2.7 本章小结

第三章 结合最大化差异和类别贡献度的文本分类方法(MDCC)

3.1 基于最大化差异的特征选择方法

3.2 类别贡献度文本特征表示模型

3.3 结合最大化差异和类别贡献度的文本分类方法

3.4 实验结果及分析

3.4.1 评价指标和实验数据集

3.4.2 对比实验分析

3.5 本章小结

第四章 基于多源数据的高校话题评论系统

4.1 系统架构

4.2 系统功能设计

4.3 系统核心模块

4.3.1 数据采集存储

4.3.2 话题主题分类

4.3.3 评论情感分析

4.3.4 高校话题标签提取

4.4 系统实现

4.4.1 应用展示模块

4.4.2 后台管理模块

4.5 本章小结

第五章 总结与展望

5.1 总结

5.2 展望

参考文献

附录

致谢

攻读硕士学位期间参与的科研项目

攻读硕士学位期间的成果

展开▼

摘要

海量的信息资源以文本形式存在,如何在海量信息中快速获得用户感兴趣的内容,是当前互联网环境下信息处理必须解决的问题。文本分类技术(Text Categorization,TC)是分析挖掘大量文本信息的有效途径之一。TC技术以计算机为工具,通过机器自动学习,使计算机具有对文本的自动分类功能;当任意输入一篇文本时,计算机能够根据已经掌握的知识,自动将该文本分类到某一类别中,从而帮助用户更快定位自己感兴趣的主题信息。
  文本特征主要由向量空间模型表示,模型中以文档中的词作为分类特征构造特征向量。由于文档中包含大量词语,很多词对于文本分类没有太大贡献,如全部保留会造成“维度成灾”的问题,因此,需要通过特征选择来解决特征向量维度较高的问题。TF-IDF、信息增益、卡方校验和互信息等方法都是目前常用的经典特征选择算法。传统的特征选择方法在分类过程中都存在一些不足,如TF-IDF算法无法将特征词与类别信息相结合,而信息增益、卡方校验方法却忽略了特征词在文本中的语义信息,这些特征选择方法中的不足,都会成为分类性能的影响因素。本文分析、对比了多种经典文本特征选择方法的特点,从结合特征词的类别特征和语义特征的角度出发,同时考虑特征词与多个类别之间的关系,提出了结合最大化差异和词类别贡献度(Max Difference Category Contribution,MDCC)的文本分类方法,该方法根据特征词在文本中的词频和不同类别中最大化差异值计算出词的权重,结合特征词与不同类别之间的关系,对文本特征表示方法进行了优化。
  本文的具体工作如下:
  1.提出一种结合最大化差异和类别贡献度的文本分类方法。本文将最大化差异应用于文本特征词选择,并根据词和类别之间的关系建立类别贡献度模型,二者结合应用于文本分类。该方法在特征选择过程中根据最大化差异选择文档中最重要且最具语义特征的词作为特征项,在文本特征表示过程中根据词在不同类别中的贡献度分布的不同计算出特征词的类别贡献度向量,最后累加文本中的特征词的特征向量,得出文本特征向量进行分类。通过在三个公开的语料库20Newsgroup,Reuters和WebKb上的对比实验表明,该方法在多类别文本分类器性能指标MircoF1和MarcoF1值上都有显著的提高。
  2.开发实现了一个基于多源数据的高校话题评论系统,以具体的系统实例验证了本文所提文本分类方法的有效性。本系统主要通过最大化差异(MD)的特征词选择方法与其他文本分类方法相结合分别实现了高效话题标签的自动生成、评论情感倾向分析和话题类别判定等功能。其中高校话题标签的自动生成使用最大化差异结合TF-IDF的算法实现;话题信息的类别判定则直接由MDCC算法实现;评论倾向分析功能使用MD算法选择特征构造特征向量后,通过朴素贝叶斯分类器进行情感判定实现。整个系统围绕MDCC算法对高校话题信息进行对方面挖掘,有效、实时、直观的展示了高校相关的话题信息。

著录项

  • 作者

    乔嘉琪;

  • 作者单位

    安徽大学;

  • 授予单位 安徽大学;
  • 学科 计算机技术
  • 授予学位 硕士
  • 导师姓名 张燕平,钱付兰;
  • 年度 2018
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP311.131;
  • 关键词

    文本挖掘; 特征词; 类别特征; 语义特征;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号