首页> 中文学位 >大规模短文本的分类过滤方法研究
【6h】

大规模短文本的分类过滤方法研究

代理获取

目录

文摘

英文文摘

声明

第一章绪论

1.1引言

1.2研究的背景和意义

1.2.1选题背景

1.2.2研究意义和内容

1.2.3系统概述

1.3论文内容安排

第二章基于规则的短文本过滤模型

2.1基于规则的方法

2.2文本过滤模型及评估方法

2.3基于规则进行过滤的思想

2.3.1方法提出背景

2.3.2正则表达式

2.4系统的实现及实验

2.4.1规则集的生成

2.4.2系统结构及实现方法

2.4.3测试数据和实验结果

第三章统计语言模型的理论基础

3.1语言模型简述

3.2 N-gram统计语言模型

3.2.1统计语言建模

3.2.2 N-gram语言模型

3.3数据稀疏问题及其解决方法

3.3.1数据稀疏性问题

3.3.2经典平滑算法

3.3.3词相似度法及词聚类法

3.4语言模型的性能评价

第四章基于语言模型的短文本分类系统

4.1短文本分类体系的研究

4.1.1基本分类方法研究

4.1.2短信息的分类体系

4.2基于语言模型的分类系统

4.2.1短文本建模

4.2.2程序结构

4.3实验及讨论

4.3.1数据准备及实验

4.3.2结果分析

第五章总结及展望

5.1本文完成的工作

5.2下一步研究方向

参考文献

致谢

展开▼

摘要

本文对大规模短文本的分类过滤方法进行了研究。文章在对短文本的语言特点和语料构成进行研究的基础上,结合课题背景提出基于规则的方法对大规模特定短文本进行过滤,并采用正则表达式作为规则生成及匹配的工具,以便最大化地将那些格式固定且表达方式类似的无意义短文本准确快速地匹配进而过滤。探索并建立了短文本的分类体系,针对大规模短文本提出了有效的过滤和分类方法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号