基于内容的网络不良文本信息过滤若干关键技术研究

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

围绕着网络不良文本的信息过滤,作者在以下几个方面深入展开了自己的工作:第一、网页文本的文本表达虽然可以使用传统(普通)文本的表达方法,但是它并不完全等同于传统文本.对于处理网页信息而言,如何得到网页正文是预处理的第一步.论文针对这一目的,提出了对Web网页文本去噪得到正文处理的相应算法.第二、文本特征有很多,例如文件的名称、大小、日期、类型、主题、类别、词等.这些特征或者由信息的生成者提供,或者可以从文本内容中自动抽取.研究抽取算法和开发抽取程序的研究者和开发者很多,所开发系统的输出都有着各式各样的规定.这给使用这些特征抽取程序进行后续信息处理的系统开发带来了很多麻烦.针对这个问题,论文提出了一个层次清晰、易于扩展的XML统一文本自动处理描述接口(UTRAP)规范.应用它,系统能使用统一的规范对文本的特征进行描述,对各种各样的特征进行统一的处理.该规范不仅仅是信息处理系统中的一个统一接口,还可以在开放式的文本处理大平台中有所作为.第三、已有的匹配算法在处理中文字符时性能欠佳,并存在不能良好的同时处理中英文信息、不能对中文字符进行有效的排序等等缺点.论文提出了一种面向中文的匹配算法——CDSA算法,并通过实验验证了该算法在克服已有算法不足的同时,并不影响算法的效率和空间复杂度.第四,应用我们提出的

著录项

作者
苏贵洋;
展开▼
作者单位

上海交通大学;

展开▼
授予单位上海交通大学;
学科通信与信息系统
授予学位博士
导师姓名李建华;
年度 2004
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP393.07;
关键词
信息过滤; 文本过滤; 内容安全; 信息检索; 文本表达; 特征选择;

相似文献

中文文献
外文文献
专利

1. 基于文本内容的敏感词决策树信息过滤算法 [J] . 邓一贵 ,伍玉英 . 计算机工程 . 2014,第009期
2. 基于Web文本内容的信息过滤系统的设计 [J] . 蒋志伟 . 中国电子商务 . 2012,第007期
3. 基于内容理解的不良信息过滤技术研究 [J] . 彭昱忠 ,元昌安 ,王艳 . 计算机应用研究 . 2009,第002期
4. 基于内容的网络不良文本信息动态过滤技术探析 [J] . 彭昱忠 ,元昌安 ,覃晓 . 广西师范学院学报（自然科学版） . 2008,第004期
5. 基于网络文本信息的敏感信息过滤算法 [J] . 薛朋强 ,努尔布力 ,吾守尔·斯拉木 . 计算机工程与设计 . 2016,第009期
6. 基于Naive Bayes的网络文本信息过滤 [C] . 刘斐 ,杨波 ,曾广周 . 1999年青岛-香港国际计算机会议 . 1999
7. 基于内容的Web不良文本信息过滤技术研究 [A] . 令晓卓 . 2011

基于内容的网络不良文本信息过滤若干关键技术研究

摘要

著录项

相似文献

相关主题

期刊订阅