首页> 中文学位 >移动平台下的中文短信内容过滤技术的研究与实现
【6h】

移动平台下的中文短信内容过滤技术的研究与实现

代理获取

目录

文摘

英文文摘

声明

第一章 引言

1.1论文的研究背景

1.1.1短信服务的发展

1.1.2遏制垃圾短信的技术手段

1.2论文的研究内容及组织

1.2.1论文的内容及组织

1.2.2课题中所做工作介绍

第二章短信内容过滤技术综述

2.1本章概述

2.2多模式串匹配技术

2.2.1单模式匹配

2.2.2多模式匹配

2.2.3多模式串匹配的一些基本概念

2.3过滤技术简介

2.3.1决策树模型

2.3.2最大熵模型

2.3.3轻量级规则库的设计

2.4本章总结

第三章短信过滤系统规则匹配算法

3.1本章概述

3.2 KMP算法

3.3 Aho-Corasick多模式串匹配算法

3.4 UIAC算法

3.4.1UIAC主要思想

3.4.2预处理

3.4.3 UIAC搜索过程

3.5其他规则匹配算法

3.5.1高危标点匹配

3.5.2普通多个标点符号的匹配

3.5.3短信长度的匹配

3.5.4电话号码的匹配

3.5.5网址的匹配

3.5.6回复模式的匹配

3.6各规则对轻量级规则库过滤的影响分析

3.6.1规则影响因子预估

3.6.2规则影响因子修正

3.7本章总结

第四章短信过滤系统的研究与实现

4.1短信过滤系统开发系统的配置

4.1.1 Symbian操作系统及开发环境简介

4.1.2 Series 60 C++软件开发包

4.2系统架构设计

4.3短信监视模块

4.4黑名单过滤模块

4.5轻量级规则库过滤模块

4.5.1中文关键词匹配过滤算法的设计和实现

4.6本章总结

第五章短信过滤方法在PC平台上的模拟

5.1概述

5.2实验设计和实验结果分析

5.2.1实验目的

5.2.2实验语料准备

5.2.3实验第一阶段:规则匹配实验

5.2.4实验第二阶段:过滤实验

5.2.5实验结果分析

5.3 PC平台模拟实验总结

第六章结论

6.1论文的主要工作

6.2未来工作展望

参考文献

致 谢

攻硕期间取得的研究成果

展开▼

摘要

面向中文的短信过滤技术是中文移动市场迫切需要的一种技术。目前移动平台上的中文短信过滤技术以黑名单过滤和关键词过滤为主。本论文主要介绍了一个与当前主流中文短信过滤不同的新型过滤技术。该技术是便于在移动设备上实现,结合了中文短信的内容特征,以规则库过滤为基础的内容过滤技术。该技术提高了短信过滤准确率、垃圾短信召回率,降低了正常短信错判率。 短信内容过滤是文本分类技术的一种,目前应用最广泛的文本分类技术有很多,最大熵和决策树两种算法分别作为基于统计的和基于规则的文本分类技术的代表算法大量应用于内容过滤。本文也将这两种算法与本文提出的基于轻量级规则库的内容过滤技术进行对比实验,以验证本文提出的基于轻量级规则库的内容过滤技术是否满足实际要求。本文提出的基于轻量级规则库的内容过滤技术由两部分构成:第一部分,规则匹配。规则匹配是短信内容过滤的第一阶段。在该阶段中关键词规则匹配是核心。关键词规则的匹配需要使用中文多模式字符串匹配算法。国际上经典的字符串匹配算法都是针对英文字符串进行匹配的。多模式串匹配算法也是如此,例如,AC,WM等等。本文提出一种针对中文的多模式串匹配算法UIAC。同时,与UIAC算法配合还有其他规则匹配方法:短信文本长度,文本中含有的标点,电话号码,URL等等特征。另外,在该阶段还要做手机平台上中文编码的转换等处理工作。该阶段的输出是中间向量文件。第二部分,过滤。过滤是短信过滤处理的第二阶段。本文提出了轻量级规则库过滤算法。该算法与最大熵和决策树两种经典算法相比,更加有利于在资源有限的移动设备上实现。 作为对比,在规则匹配的试验阶段除了产生轻量级规则库过滤中间向量文件外还产生了最大熵中间向量文件和决策树中间向量文件,并且分别用最大熵模型和决策树模型进行处理。之后对比了轻量级规则库和其他两种算法的准确率、召回率以及正常短信误判率。 实验使用的短信条数为1000条,正常短信和垃圾短信各500条。对轻量级规则库、最大熵、决策树分别进行了实验,并且将三种算法结果进行比较。实验结果显示,轻量级规则库与其它两种方法相比,性能接近,在正常短信误判率方面有较大提高,并且更便于在手机平台上实现。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号