首页> 中文学位 >基于内容的网络不良文本信息过滤若干关键技术研究
【6h】

基于内容的网络不良文本信息过滤若干关键技术研究

代理获取

摘要

围绕着网络不良文本的信息过滤,作者在以下几个方面深入展开了自己的工作:第一、网页文本的文本表达虽然可以使用传统(普通)文本的表达方法,但是它并不完全等同于传统文本.对于处理网页信息而言,如何得到网页正文是预处理的第一步.论文针对这一目的,提出了对Web网页文本去噪得到正文处理的相应算法.第二、文本特征有很多,例如文件的名称、大小、日期、类型、主题、类别、词等.这些特征或者由信息的生成者提供,或者可以从文本内容中自动抽取.研究抽取算法和开发抽取程序的研究者和开发者很多,所开发系统的输出都有着各式各样的规定.这给使用这些特征抽取程序进行后续信息处理的系统开发带来了很多麻烦.针对这个问题,论文提出了一个层次清晰、易于扩展的XML统一文本自动处理描述接口(UTRAP)规范.应用它,系统能使用统一的规范对文本的特征进行描述,对各种各样的特征进行统一的处理.该规范不仅仅是信息处理系统中的一个统一接口,还可以在开放式的文本处理大平台中有所作为.第三、已有的匹配算法在处理中文字符时性能欠佳,并存在不能良好的同时处理中英文信息、不能对中文字符进行有效的排序等等缺点.论文提出了一种面向中文的匹配算法——CDSA算法,并通过实验验证了该算法在克服已有算法不足的同时,并不影响算法的效率和空间复杂度.第四,应用我们提出的

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号