首页> 中文学位 >基于条件随机场的中文短文本分类算法研究
【6h】

基于条件随机场的中文短文本分类算法研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1 课题背景及意义

1.2 短文本分类的国内外现状

1.3 本文的创新性工作

1.4 本文的研究内容以及结构安排

第二章 文本分类方法

1.1 文本分类的一般过程

1.2 预处理

1.3 特征选择

1.4 特征权重

1.5 文本表示模型

1.6 文本分类器

1.7 本章小结

第三章 条件随机场的理论模型研究

3.1 有向图模型

3.2 条件随机场模型

3.3 本章小结

第四章 基于条件随机场的短文本分类系统

4.1 特征项选择

4.2 文本预处理

4.3 序列标注

4.4 分类结果的判断

4.5 特征模版的定义和特征函数的生成

4.6 特征模版选择

4.7 本章小结

第五章 实验结果及分析

5.1实验设计

5.2 评估指标

5.3 新闻语料库的实验过程和结果分析

5.4 微博语料库的实验过程与结果分析

5.5 本章小结

第六章 总结与展望

6.1 论文结论

6.2 研究展望

参考文献

致谢

攻读硕士学位期间已发表或录用的论文

攻读硕士学位期间参加的课题与项目

展开▼

摘要

随着互联网的迅速发展,网上生活已经成为了人们必生活中不可少的一部分。互联网上的人们使用的信息很多是以短文本的形式存在的。短文本就是内容较短的文本(一般长度不超过140字符),通常的新闻标题、微博、手机短信、电子邮件、购物评价等都是短文本。面对互联网中的海量信息,利用计算机技术自动地进行短文本分类可以帮助人们在有限的时间内阅读更多感兴趣的信息。本文对基于条件随机场的短文本分类的算法进行了较深入的研究和讨论,在特征选择与文本表示方面进行了改进。
  与通常的文本相比,短文本有许多特性。本文介绍了短文本的特点并对国内外相关领域的研究现状进行了分析。目前短文本分类方法大多采用的是传统文本分类方法的改进。本文回顾了文本分类方法的一般过程,列举了中文分词、特征选择、特征权重计算、文本表示、文本分类器等文本分类领域的重要知识。
  条件随机场是一个给定输入序列条件下计算出输出序列的无向图模型,是对传统的有向图概率模型的改进。将条件概率模型应用于文本分类领域是目前短文本分类的新思路。
  本文系统地描述了条件随机场理论和如何将序列标注的方法用于短文本分类领域。针对短文本所面临的特征稀疏等问题,本文提出了将语料预处理和分词后,用类别作为标注使用条件随机场模型进行标注预测的短文本分类方法。重点介绍了序列标注方法、分类结果的判断与特征模版的选择问题。
  对比实验表明,基于条件随机场的短文本分类算法是一种有效的文本分类方法,在新闻的主题分类、微博的主客观分类和情感倾向性分类中都取得了不错的分类效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号