利用非广延最大熵模型进行文本分类

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

在线资源的迅速增长、互联网信息量的急剧增加使得人们从信息匮乏的时代过渡到了信息极为丰富的时代。面对日益膨胀的、异构的信息资源，如何快速、准确地从海量信息中寻找到所需的相关内容变得十分棘手。因此，研究利用计算机进行自动文本分类成为自然语言处理和人工智能领域中一项具有重要应用价值的课题。目前文本分类领域中已经存在多种具有良好分类效果的理论技术，本文主要介绍如何利用非广延熵模型进行文本分类。非广延熵模型建立在最大熵模型的基础上，最大熵模型是一项概率分布估计技术，它的基本思想是拟合所有已知事实，保持未知事件的未知状态，已被广泛应用于语言建模、词性标注、文本分割等自然语言处理领域。
　　本文在最大熵模型的基础上提出了两个用于文本分类的扩展模型。第一个模型利用非广延熵代替香农熵作为最大熵模型中的目标函数，以期简化分类器的表达形式，称之为非广延熵模型；第二个模型在非广延熵模型的基础上引入实体间的高阶约束，试图通过增加文本中单词间的共现关系约束提高文本分类的正确率，称为带有高阶约束的非广延熵模型。成功建模后利用拉格朗日乘子法求解模型，得到分类器的表达形式并进行参数估计，最终得到文本分类器。
　　本文选用20 Newsgroups作为语料库进行文本分类，并进行了两组分类器性能评价对比实验。第一组对比实验比较基于本文提出的两个扩展模型的文本分类器，实验结果表明在非广延熵模型中添加高阶约束后文本分类的正确率有一定程度的提高；第二组对比实验比较两个非广延熵模型和最大熵模型，实验结果表明本文提出的两个扩展模型均具有更高的分类正确率。以上两组对比实验证实了非广延熵模型和带有高阶约束的非广延熵模型的有效性。

著录项

作者
付琳;
展开▼
作者单位

天津大学;

展开▼
授予单位天津大学;
学科计算机应用技术
授予学位硕士
导师姓名侯越先;
年度 2009
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
非广延熵; 高阶约束; 文本分类; 语料库; 自然语言处理;

相似文献

中文文献
外文文献
专利

1. 使用最大熵模型进行中文文本分类 [J] . 李荣陆 ,王建会 ,陈晓云 . 计算机研究与发展 . 2005,第001期
2. 使用最大熵模型进行文本分类 [J] . 陈雪天 ,李荣陆 . 计算机工程与应用 . 2004,第035期
3. 非广延性对传统广延统计力学的几点修正 [J] . 杨斌 ,王亚妮 ,李鹤龄 . 西南师范大学学报（自然科学版） . 2013,第011期
4. 非广延统计中的双原子气体热容 [J] . 于海宁 ,石家榕 ,李红玉 . 科学技术创新 . 2021,第007期
5. 非广延统计中的双原子气体热容 [J] . 于海宁 ,石家榕 ,李红玉 . 黑龙江科技信息 . 2021,第007期
6. 基于改进非广延熵特征提取的双随机森林实时入侵检测方法 [C] . YAO Dong ,姚东 ,LUO Jun-yong . 第四届全国智能信息处理学术会议 . 2013
7. 非广延统计在幂律非麦克斯韦等离子体中的应用研究 [A] . 刘枝朋 . 2010

利用非广延最大熵模型进行文本分类

目录

摘要

著录项

相似文献

相关主题

期刊订阅