首页> 中文学位 >基于粒度与内容质量的个人微博摘要研究
【6h】

基于粒度与内容质量的个人微博摘要研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

1 绪论

1.1 研究背景

1.2 国内外研究现状

1.3 本文的主要研究内容

1.4 本文的组织结构

2 相关工作和概念

2.1 自动摘要基础工作

2.2 自动摘要方法

2.3 基于图模型的算法

2.4 评测方法

2.5 本章小结

3 基于CR-PageRank算法的个人事件自动摘要

3.1 微博文本特征

3.2 微博内容质量

3.3 CR-PageRank算法

3.4 个人事件自动摘要

3.5 实验

3.6 本章小结

4 基于微博文本内容质量的微博自动摘要研究

4.1 微博文本内容质量

4.2 自动摘要过程

4.3 实验

4.4 本章小结

5 总结与展望

5.1 已完成工作总结

5.2 工作展望

参考文献

在学研究成果

致谢

展开▼

摘要

随着时代的迅猛发展,互联网、移动终端等得到了快速的发展和普及,导致了人们对社交的方式进行重新的定义,从过去通过面对面、写信等手段进行社会交际变成了现如今通过互联网、移动终端等方式进行。正因为社交手段的变化,导致微博成为了当今最流行的应用软件,它可以让用户随心所欲的表达自己,也可以关注和了解他人的信息,让社交变的更为主动,而且可以忽略时间和空间的限制。
  微博发展至今,使得微博数据已经达到海量,其中包含着大量有用信息,而且现如今微博进入了高速发展的阶段,其产生的数据的速度也会更快,使数据量更加庞大。微博作为一种社交工具,它不仅记录着生活的点点滴滴、最热最新话题、人生感悟等,而且还有广告信息、商品信息等垃圾信息,而且微博没有格式要求,导致微博数据形式多样、口语化严重,造成了严重的数据稀疏,导致在挖掘微博数据的过程中产生了很大的困难。本文对微博的文本数据资源分析,定义了微博的内容质量,同时在个人微博事件的基础上进行个人微博自动摘要的研究,本文旨在自动摘要具有更好可读性,而且包含更全面的信息。
  本文首先对微博的文本特征和社会特征进行分析研究,将微博的特征量化,并且定义了微博的文本内容质量,同时根据微博的特征量化得到微博文本内容质量;紧接着提出了两种微博自动摘要的方法:一种是基于 CR-PageRank算法的个人微博自动摘要方法,它根据微博特征的量化确定微博文本的内容质量,同时将文本内容质量与 PageRa nk算法相结合,提出了一种 C R-Page Ra nk算法,从而对微博文本进行自动摘要;另一种是基于文本内容质量的个人微博自动摘要方法,它是基于微博特征量化的基础上,首先提取出内容质量高的微博作为摘要集,然后在使用Le xRa nk算法对摘要集中的文本句子进行打分,提取出摘要句;最后通过人工方式提取不同事件的摘要,同时对摘要进行评分,将人工摘要作为对比,测试本文提出的两种方法以及已有的自动摘要方法在不同的事件的F-Measur e值。
  实验结果表明,本文提取的两种方法在提取个人事件自动摘要上都优于已有自动摘要方法,而且摘要包含的信息量更全面,可读性更好。

著录项

  • 作者

    王宇;

  • 作者单位

    内蒙古科技大学;

  • 授予单位 内蒙古科技大学;
  • 学科 软件工程
  • 授予学位 硕士
  • 导师姓名 高永兵;
  • 年度 2016
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP393.09;
  • 关键词

    内容质量; 自动摘要; 微博文本; 数据稀疏;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号