多页面特殊网页文字提取与合并技术研究

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

网页中的文字,包含的信息量大、易于复用、占用空间小,是网页种类信息中占绝对比例的信息形式,也是人们从网页提取的所有信息中最多的形式。目前,Web挖掘的研究正处于发展阶段,在普通网页的文字提取研究领域也已形成众多理论。
　　然而有一类网页,由于采用了脚本,导致网页在打开时执行脚本而使计算机软件系统受到恶意代码入侵,或打开后的网页文字受广告因素等影响而无法被正常浏览,或被脚本限制而使文字无法被复制提取。这类特殊网页的文本相对普通网页更有价值,特别是此类网页经常被网络犯罪份子利用来为他们的活动隐匿证据,网络监察部门进行网络犯罪的取证,必须采用一定的技术。
　　本文深入分析了网页脚本的编制及工作原理,采用运行期类型信息技术和扩展脚本技术从手工提取和自动提取两个角度提出了特殊网页文本的提取与合并方案,并解决了过滤干扰码问题。其主要工作为:
　　研究发现所有特殊网页的限制功能都来源于其源代码中的脚本,研究采用扩展脚本屏蔽其限制功能,将特殊网页普通化；网页中的干扰码都是在正文中插入的颜色为背景色的其他字符,研究扩展脚本限制干扰码发挥作用,达到过滤干扰码的目的；提出运行期类型信息技术,开发软件,绕过恶意脚本,并自动提取文本；研究多页面的相似性,通过记录第一页面的提取点和搜索链接地址,自动提取多页面文本进行合并；开发出软件模型,测试其对普通网页、特殊网页中的文字的自动提取能力和自动过滤干扰码的能力。
　　实验证明,论文提出的所有方法均能有效抵制对文本提取的限制,而基于RTTI技术的软件自动提取法是功能最强的方法。
　　文中对特殊网页的分析及其文本提取方法的研究,对网页信息挖掘技术研究和网络应用、网络监察具有重要的实际意义。

著录项

作者
刘典型;
展开▼
作者单位

湖南大学;

展开▼
授予单位湖南大学;
学科软件工程
授予学位硕士
导师姓名欧阳柳波,刘金朝;
年度 2010
页码
总页数
原文格式 PDF
正文语种中文
中图分类模式识别与装置;
关键词
特殊网页; 文字提取; 运行期类型信息; RTTI技术;

相似文献

中文文献
外文文献
专利

1. 基于RTTI的特殊网页文本提取技术研究 [J] . 刘典型 ,欧阳柳波 . 计算机应用与软件 . 2010,第009期
2. 一种基于页面赋权的网页内容提取方法 [J] . 余杨奎 ,王旅 ,李婉茹 . 通化师范学院学报 . 2021,第010期
3. 基于Web页面结构的网页数据提取技术探究 [J] . 郭晓宇 ,彭浩 . 产业与科技论坛 . 2020,第018期
4. 基于文字密度提取网页正文 [J] . 石锦涛 . 福建电脑 . 2017,第004期
5. 巧用Snagit提取禁止复制的网页中的文字 [J] . 郭成贺 . 网友世界 . 2010,第023期
6. 以移动手持设备为载体的网页页面设计 [C] . 刘棣 . 第5届全国新媒体艺术系主任/院长论坛 . 2011
7. 基于Web页面结构的网页数据提取研究 [A] . 胡瑞 . 2016

多页面特殊网页文字提取与合并技术研究

摘要

著录项

相似文献

相关主题

期刊订阅