首页> 中文学位 >多页面特殊网页文字提取与合并技术研究
【6h】

多页面特殊网页文字提取与合并技术研究

代理获取

摘要

网页中的文字,包含的信息量大、易于复用、占用空间小,是网页种类信息中占绝对比例的信息形式,也是人们从网页提取的所有信息中最多的形式。目前,Web挖掘的研究正处于发展阶段,在普通网页的文字提取研究领域也已形成众多理论。
   然而有一类网页,由于采用了脚本,导致网页在打开时执行脚本而使计算机软件系统受到恶意代码入侵,或打开后的网页文字受广告因素等影响而无法被正常浏览,或被脚本限制而使文字无法被复制提取。这类特殊网页的文本相对普通网页更有价值,特别是此类网页经常被网络犯罪份子利用来为他们的活动隐匿证据,网络监察部门进行网络犯罪的取证,必须采用一定的技术。
   本文深入分析了网页脚本的编制及工作原理,采用运行期类型信息技术和扩展脚本技术从手工提取和自动提取两个角度提出了特殊网页文本的提取与合并方案,并解决了过滤干扰码问题。其主要工作为:
   研究发现所有特殊网页的限制功能都来源于其源代码中的脚本,研究采用扩展脚本屏蔽其限制功能,将特殊网页普通化;网页中的干扰码都是在正文中插入的颜色为背景色的其他字符,研究扩展脚本限制干扰码发挥作用,达到过滤干扰码的目的;提出运行期类型信息技术,开发软件,绕过恶意脚本,并自动提取文本;研究多页面的相似性,通过记录第一页面的提取点和搜索链接地址,自动提取多页面文本进行合并;开发出软件模型,测试其对普通网页、特殊网页中的文字的自动提取能力和自动过滤干扰码的能力。
   实验证明,论文提出的所有方法均能有效抵制对文本提取的限制,而基于RTTI技术的软件自动提取法是功能最强的方法。
   文中对特殊网页的分析及其文本提取方法的研究,对网页信息挖掘技术研究和网络应用、网络监察具有重要的实际意义。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号