首页> 中文学位 >基于NLP的Web页面隐私输入识别与泄露检测方法
【6h】

基于NLP的Web页面隐私输入识别与泄露检测方法

代理获取

目录

展开▼

摘要

近年来数据泄露事件不断发生,数据量级不断增大,其中从网站泄露的数据也日益增加。浏览器作为大多数用户连接世界的窗口,用户通过访问Web页面实现社交、娱乐、学习等多种功能。用户在此过程中会产生大量的数据信息:用户手动提交的身份信息、浏览行为产生的信息、用户的环境信息等。网站拥有者可以以提供服务为由获取用户信息;恶意攻击者可通过注入JavaScript(JS)脚本、流量嗅探、扩展程序等方式获取信息。目前隐私相关研究主要关注通过系统接口可获取的信息,但是却没有关注用户在页面上的输入隐私信息。此类信息与用户个人息息相关,一旦泄露可能造成钓鱼、恶意营销、诈骗、撞库等攻击。谷歌扩展因其用户多、开发简单、审核机制松散导致其成为了一个收集用户信息的强大工具。综上所述,如何检测谷歌扩展获取用户隐私信息,防止信息泄露是一个值得研究的问题。  本文深入研究Web页面上这类非结构化的文本信息,利用NLP(NaturalLanguageProcessing)技术进行分析,理解文本语义信息,识别该信息是否隐私相关,并在此基础上运用动态污点追踪技术跟踪谷歌扩展中的敏感信息数据流,检测隐私泄露行为。本文具体工作如下:  1)研究Web页面的隐私信息表示方式,利用NLP技术识别隐私相关本文信息,得到一个涵盖中英文隐私词汇的数据库,提出了一个基于隐私词汇库构建模拟分析环境的方法;  2)研究谷歌扩展内部的通信机制和数据发送机制,设计了一个基于动态污点分析技术检测谷歌扩展泄露用户输入隐私信息的方案。该方法不受扩展中JS代码执行条件的限制,提高了JS分析覆盖率,还可对抗混淆技术,且能为用户提供自主分析接口,实现柔性行为分析。  3)分析大量扩展发现有3.56%的谷歌扩展会获取用户输入隐私并发送,超过11%的扩展存在获取用户输入行为。此外,扩展还存在修改网络请求、修改默认页面、访问恶意域名等危险行为。实验验证了方法的有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号