首页> 中文学位 >利用非广延最大熵模型进行文本分类
【6h】

利用非广延最大熵模型进行文本分类

代理获取

目录

文摘

英文文摘

声明

第一章 绪论

1.1项目背景及研究意义

1.1.1项目背景

1.1.2研究意义

1.2文本分类国内外现状

1.2.1国际研究概况

1.2.2国内研究概况

1.3本文的研究内容及论文结构

1.3.1论文研究内容

1.3.2论文结构安排

第二章 相关概念综述

2.1文本分类简述

2.1.1问题描述

2.1.2文本分类流程

2.2熵的概念

2.2.1信息熵

2.2.2条件熵

2.3最大熵原理

2.3.1基于香农熵的最大熵模型

2.3.2基于香农熵的最大条件熵模型

2.3.3应用于文本分类的最大条件熵模型

第三章 非广延最大熵模型

3.1非广延熵的概念和性质

3.1.1非广延熵的概念

3.1.2非广延熵的性质

3.2非广延熵模型的建立

3.2.1非广延熵模型建模流程

3.2.2确定目标函数

3.2.3文本预处理

3.2.4特征生成

3.2.5建模约束关系

3.2.6建立非广延熵模型

3.3模型求解

3.4参数估计

第四章 带有高阶约束的非广延最大熵模型

4.1高阶约束的意义和形式

4.1.1高阶约束的意义

4.1.2高阶约束的形式

4.2建模带有高阶约束的非广延模型

4.2.1非广延熵扩展模型建模流程

4.2.2文本预处理

4.2.3特征生成

4.2.4建模约束关系

4.2.5建立带有高阶约束的非广延熵模型

4.3模型求解

4.4参数估计

第五章 分类器性能评估

5.1非广延熵模型分类器性能评估

5.1.1分类器性能评估流程

5.1.2特征生成

5.1.3文本类别预测

5.1.4分类器性能评估

5.1.5实验

5.2带有高阶约束的非广延熵模型性能评估

5.2.1分类器性能评估流程

5.2.2特征生成

5.2.3文本类别预测

5.2.4分类器性能评估

5.2.5实验

5.3两种非广延熵模型的性能对比

5.4和最大熵模型的性能对比

第六章 结束语

6.1论文总结

6.2下一步工作展望

参考文献

致谢

展开▼

摘要

在线资源的迅速增长、互联网信息量的急剧增加使得人们从信息匮乏的时代过渡到了信息极为丰富的时代。面对日益膨胀的、异构的信息资源,如何快速、准确地从海量信息中寻找到所需的相关内容变得十分棘手。因此,研究利用计算机进行自动文本分类成为自然语言处理和人工智能领域中一项具有重要应用价值的课题。目前文本分类领域中已经存在多种具有良好分类效果的理论技术,本文主要介绍如何利用非广延熵模型进行文本分类。非广延熵模型建立在最大熵模型的基础上,最大熵模型是一项概率分布估计技术,它的基本思想是拟合所有已知事实,保持未知事件的未知状态,已被广泛应用于语言建模、词性标注、文本分割等自然语言处理领域。
   本文在最大熵模型的基础上提出了两个用于文本分类的扩展模型。第一个模型利用非广延熵代替香农熵作为最大熵模型中的目标函数,以期简化分类器的表达形式,称之为非广延熵模型;第二个模型在非广延熵模型的基础上引入实体间的高阶约束,试图通过增加文本中单词间的共现关系约束提高文本分类的正确率,称为带有高阶约束的非广延熵模型。成功建模后利用拉格朗日乘子法求解模型,得到分类器的表达形式并进行参数估计,最终得到文本分类器。
   本文选用20 Newsgroups作为语料库进行文本分类,并进行了两组分类器性能评价对比实验。第一组对比实验比较基于本文提出的两个扩展模型的文本分类器,实验结果表明在非广延熵模型中添加高阶约束后文本分类的正确率有一定程度的提高;第二组对比实验比较两个非广延熵模型和最大熵模型,实验结果表明本文提出的两个扩展模型均具有更高的分类正确率。以上两组对比实验证实了非广延熵模型和带有高阶约束的非广延熵模型的有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号