首页> 中文学位 >基于Web的事件检测与评价系统的研究分析
【6h】

基于Web的事件检测与评价系统的研究分析

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1 研究背景及意义

1.2 网页信息自适应抽取研究现状

1.3 网络事件检测研究现状

1.3 网络事件评价研究现状

1.4本文的主要工作和结构安排

第二章 基于Hadoop的事件检测与评价系统

2.1 Hadoop 介绍

2.2基于Hadoop 的事件检测与评价系统

2.3 数据存储

2.4 总结

第三章 基于博弈论的Web网页抽取

3.1 背景及动机

3.2 博弈论介绍

3.3 基于博弈论的抽取算法

3.4 实验分析与对比

3.5 总结

第四章 在线新闻事件检测

4.1背景动机

4.2文本聚类算法介绍

4.3 基于文本摘要的文本特征抽取算法

4.4实验对比与分析

4.5 总结

第五章 基于文本摘要的微博情感评价算法

5.1 背景动机

5.2 最大熵句法分析算法

5.3 基于文本摘要的情感评价算法

5.4 实验分析

5.5总结

第六章 总结与展望

参考文献

致谢

在学校期间的研究成果及发表的学术论文

展开▼

摘要

随着互联网的发展社交网络的流行,网络中存在海量用户数据,但是这些数据以半结构化形式呈现,目前新闻网站每天产生大量数据。提取出网络中有效数据并对事件的检测以及该事件中用户的态度分析成为热门研究问题。
  本文主要针对中文网站及微博作为研究对象,实现在中文网站中快速获取有效数据并通过事件发现算法进行新事件检测,针对微博用户评论实现当前话题下用户态度分析。详细工作如下:
  (1)对于海量数据下半结构化网页数据快速提取有效文本内容,本文提出了基于博弈论的有效文本抽取算法。首先通过标签分块后形成博弈策略两个玩家寻找纳什均衡确定潜在文本块,实验表明本文提出方法优于基于DOM树分析算法和基于视觉分割算法,尤其在效率上。因此对于屏幕阅读等及时应用可以使用该方法。
  (2)本文提出了基于TextRank算法从文本中提取关键词作为特征向量。首先将文本进行分词操作,分词后通过TextRank算法提取出权值较大的60个特征向量然后进行单遍聚类用以检测新事件。实验通过对比tf-idf方法发现效果优于tf-idf方法,说明TextRank在计算词语权重上更加合理。
  (3)本文提出了基于TextRank算法从文本中提取关键词作为候选词。首先通过TextRank算法提取出关键词然后提取评价对象与评价词,然后根据情感字典计算互信息后得出情感极性。实验通过对比最大熵句法分析法发现虽然在准确率上本文提出方法略低于最大熵句法分析法,但是时间效率上高于最大熵句法分析法。对于处理海量数据本算法具有很大优势。

著录项

  • 作者

    于渤海;

  • 作者单位

    南京航空航天大学;

  • 授予单位 南京航空航天大学;
  • 学科 软件工程
  • 授予学位 硕士
  • 导师姓名 夏正友;
  • 年度 2016
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP391.12;
  • 关键词

    中文网站; 事件检测; 用户态度; 微博评论;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号