首页> 中文学位 >考虑特征有效扩展的中文短文本分类研究
【6h】

考虑特征有效扩展的中文短文本分类研究

代理获取

目录

声明

摘要

第一章 绪论

1.1 论文选题背景与意义

1.2 国内外研究现状及分析

1.3 论文主要工作

1.4 论文组织结构

第二章 短文本分类技术和角色关系的划分及其抽取技术

2.1 文本分类

2.1.1 文本分类的定义及一般过程

2.1.2 文本的表示模型与特征加权

2.1.3 特征选择和特征提取

2.1.4 文本的分类算法

2.1.5 评估指标

2.2 词语语义角色关系的划分及其应用

2.2.1 语义角色的划分

2.2.2 语义角色的应用

2.3 应用于短文本分类的语义关系抽取方法

2.3.1 应用于短文本分类的上下位关系抽取方法

2.3.2 一种面向短文本分类的施事受事关系抽取方法

2.4 小结

第三章 特征有效扩展的约束指标及相关实验

3.1 引言

3.2 分析问题

3.3 解决问题

3.3.1 信息完整度的确立

3.3.2 语义约束的确立

3.3.3 统计约束的确立

3.4 相关实验及其分析

3.4.1 实验语料及相关指标

3.4.2 实验方法及结果分析

3.5 小结

第四章 一种考虑特征有效扩展的中文短文本分类方法

4.1 引言

4.2 考虑特征有效扩展的中文短文本分类方法流程

4.3 使用多种语义角色关系词对扩展测试文本

4.4 相关实验及分析

4.4.1 实验语料及相关指标

4.4.2 实验方法及结果分析

4.5 小结

第五章 结论及未来的工作

5.1 结论

5.2 未来的工作

致谢

攻读硕士期间从事的科研工作及取得的研究成果

参考文献

展开▼

摘要

近年来,越来越多的以短文本(通常文本长度小于160字符)形式存在的信息逐渐成为了人们获取消息的主要途径之一,如:微信,微博,网络评论,网络聊天以及搜索引擎返回的网络片段等等。所以,如何有效地管理这些海量信息成为了亟待解决的问题,是一个十分重要的研究课题。
   短文本具有长度短,描述概念信号弱,类别模糊度高等固有特点,致使当前主流的文本分类技术无法很好地运用于短文本分类领域,目前,对于短文本分类问题,一种较为有效的方法是借助外部资源中的额外信息辅助短文本分类,通过引入特定的语义关系信息或是统计信息,充分挖掘短文本含有的信息量。鉴于此,本文采用了引入外部资源的研究思路,考虑同时引入多种语义角色关系信息来辅助分类,围绕着如何能够更好地利用这些信息对短文本进行有效的特征扩展的问题展开研究,提出一种考虑扩展语义约束和统计约束的中文短文本分类方法,本文的核心和贡献在于:
   (1)提出两个衡量特征有效扩展的约束指标:语义约束以及统计约束,用以判断使用含有角色关系的词对对中文短文本进行的特征扩展是否为有效扩展。当同时利用多种角色关系辅助短文本分类时,将面临着容易引入大量噪音的风险。针对这个问题,本文通过分析不同角色关系辅助中文短文本分类时的作用特点,提出衡量相似概念词对有效扩展的语义约束和衡量不同概念词对有效扩展的统计约束,并根据训练文本中的宿主-属性关系词对信息以及词语间的互信息分别获取语义约束和统计约束的相关参数。实验表明,使用语义约束或统计约束均能够在一定程度上减小特征扩展时引入噪音的概率,从而提高分类性能。
   (2)提出一种考虑特征有效扩展的中文短文本分类方法;将抽取出的所有词语角色关系分为两大类,一类是具有的角色关系为相似概念的词对,另一类为不同概念的词对,在用它们对文本进行特征扩展前,分别判断其对应约束信息是否满足条件。由于如此一来获取的词语角色关系信息较多,为能够更好地充分利用这些信息,本文采用了利用关系词对增加特征权重以及增加新特征两种方法扩展测试集的特征向量,进而将有效扩展后的测试集进行文本分类。通过实验证明了该方法的可行性及有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号