首页> 中文会议>第七届全国Web信息系统及其应用学术会议、第五届全国语义Web与本体论学术研讨会、第四届全国电子政务技术及应用学术研讨会 >一个基于分层的网页文本过滤系统

一个基于分层的网页文本过滤系统

页面导航

摘要
著录项
相似文献
相关主题

摘要

设计并实现了一种高效率、高性能的网页文本过滤系统,该系统采用分层过滤策略,包括实时过滤和事后分析。实时过滤模块是基于Linux下的IP Queue机制实现的,采用高效的过滤策略,在保证过滤实时性的同时也保证了过滤的准确性;事后分析模块研究过滤系统经过协议还原后备份的网页文本,通过网页预处理、非法关键词抽取、特征选择等步骤,实现了基于二元模型的文本过滤方法,该方法在一定大小的词语距离窗口内,采用包含非法关键词的二元词串作为特征,解决了使用二元词串带来数据稀疏的问题,同时保留了二元词串的强类别分辨能力的特征。实验表明,文章实现的过滤系统有较高的效率和准确率,用于事后分析的基于二元模型的文本过滤方法达到了较高的性能,其准确率、召唤率和F1的值分别为:96.98%,85.75%和91.02%。

著录项

来源
《第七届全国Web信息系统及其应用学术会议、第五届全国语义Web与本体论学术研讨会、第四届全国电子政务技术及应用学术研讨会》|2010年|18-21|共4页
会议地点呼和浩特
作者
周聚; 李培峰; 朱巧明;
展开▼
作者单位

中国计算机学会;

展开▼
会议组织
正文语种
原文格式 PDF
中图分类 TP393.09;
关键词
分层过滤; 文本过滤; 二元词串; 抽取窗口;

相似文献

中文文献
外文文献
专利

1. 一个基于分层的网页文本过滤系统 [J] . 周聚 ,李培峰 ,朱巧明 . 计算机与数字工程 . 2010,第008期
2. 一个基于人工神经网络的Web文本过滤系统 [J] . 孙铁利 ,王圆 . 计算机时代 . 2006,第006期
3. 一种基于二元模型的分层文本过滤方法 [J] . 周聚 ,李培峰 ,朱巧明 . 计算机应用与软件 . 2011,第007期
4. TTFS:一个倾向性文本过滤系统的设计与实现 [J] . 金峰 ,刘永丹 ,江宝林 . 计算机工程与应用 . 2003,第030期
5. 基于文本过滤技术的网络安全数据检测实验系统设计 [J] . 姚琨 ,王昕 . 现代电子技术 . 2020,第016期
6. 一个改进的中文文本过滤系统的设计与实现 [C] . 李东林 ,迟呈英 ,战学刚 . 第二届全国信息检索与内容安全学术会议 . 2005
7. 基于网页文本过滤的关键词匹配算法研究和实现 [A] . 史森林 . 2009

一个基于分层的网页文本过滤系统

摘要

著录项

相似文献

相关主题

期刊订阅