首页> 中文学位 >大规模短文本的分类过滤方法研究

【6h】

大规模短文本的分类过滤方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

目录

文摘

英文文摘

声明

第一章绪论

1.1引言

1.2研究的背景和意义

1.2.1选题背景

1.2.2研究意义和内容

1.2.3系统概述

1.3论文内容安排

第二章基于规则的短文本过滤模型

2.1基于规则的方法

2.2文本过滤模型及评估方法

2.3基于规则进行过滤的思想

2.3.1方法提出背景

2.3.2正则表达式

2.4系统的实现及实验

2.4.1规则集的生成

2.4.2系统结构及实现方法

2.4.3测试数据和实验结果

第三章统计语言模型的理论基础

3.1语言模型简述

3.2 N-gram统计语言模型

3.2.1统计语言建模

3.2.2 N-gram语言模型

3.3数据稀疏问题及其解决方法

3.3.1数据稀疏性问题

3.3.2经典平滑算法

3.3.3词相似度法及词聚类法

3.4语言模型的性能评价

第四章基于语言模型的短文本分类系统

4.1短文本分类体系的研究

4.1.1基本分类方法研究

4.1.2短信息的分类体系

4.2基于语言模型的分类系统

4.2.1短文本建模

4.2.2程序结构

4.3实验及讨论

4.3.1数据准备及实验

4.3.2结果分析

第五章总结及展望

5.1本文完成的工作

5.2下一步研究方向

参考文献

致谢

展开▼

摘要

本文对大规模短文本的分类过滤方法进行了研究。文章在对短文本的语言特点和语料构成进行研究的基础上，结合课题背景提出基于规则的方法对大规模特定短文本进行过滤，并采用正则表达式作为规则生成及匹配的工具，以便最大化地将那些格式固定且表达方式类似的无意义短文本准确快速地匹配进而过滤。探索并建立了短文本的分类体系，针对大规模短文本提出了有效的过滤和分类方法。

著录项

作者
吴薇;
展开▼
作者单位

北京邮电大学;

展开▼
授予单位北京邮电大学;
学科信号与信息处理
授予学位硕士
导师姓名郭军;
年度 2007
页码
总页数
原文格式 PDF
正文语种中文
中图分类移动通信;文字处理软件;
关键词
移动通信; 手机短信; 文本过滤;

相似文献

中文文献
外文文献
专利

1. 基于关键词相似度的短文本分类方法研究 [J] . 张振豪 ,过弋 ,韩美琪 . 计算机应用研究 . 2020,第001期
2. LDA特征扩展的多类SVM短文本分类方法研究 [J] . 郑腾 ,吴雨川 . 武汉纺织大学学报 . 2019,第002期
3. 基于混合神经网络的电力短文本分类方法研究 [J] . 曹湘 ,李誉坤 ,钱叶 . 计算机与数字工程 . 2019,第005期
4. LDA特征扩展的多类SVM短文本分类方法研究 [J] . 郑腾1 ,吴雨川1 . 武汉纺织大学学报 . 2019,第002期
5. 基于MCNN的铁路信号设备故障短文本分类方法研究 [J] . 周庆华 ,李晓丽 . 铁道科学与工程学报 . 2019,第011期
6. 基于低秩重构领域自适应的大规模遥感图像分类方法研究 [C] . ZHENG Xinwei ,郑歆慰 ,SUN Xian . 《第三届高分辨率对地观测学术年会》 . 2014
7. 大规模短文本摘要数据集的构建与自动过滤方法 [A] . 祝方泽 . 2015

代理获取

客服邮箱：kefu@zhangqiaokeyan.com

京公网安备：11010802029741号 ICP备案号：京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有

客服微信
服务号