首页> 中文学位 >中文社交媒体话题关键词抽取算法
【6h】

中文社交媒体话题关键词抽取算法

代理获取

目录

声明

致谢

摘要

1 引言

1.1 研究背景及意义

1.2 国内外研究现状

1.3 论文主要研究内容

1.4 论文组织结构

2 相关技术和理论介绍

2.1 文本表示模型

2.1.1 向量空间模型

2.1.2 基于图的文本表示模型

2.1.3 其他主流的文本表示模型

2.2 PageRank算法

2.3 Word2vec的理论发展

2.3.2 神经网络语言模型

2.3.3 Word2vec基础知识介绍

2.4 关键词抽取的特征选择

2.4.1 基于词语权重的特征

2.4.2 基于词语位置的特征

2.4.3 他的关键词特征

2.5 本章小结

3 中文社交媒体话题关键词抽取算法设计

3.1 微博特征

3.2 文本预处理

3.2.1 数据清洗

3.2.2 分词及去除停用词

3.3 基于图模型的话题关键词抽取方法

3.3.1 微博文本型图模型建立

3.3.2 基于TextRank算法的顶点权值计算

3.3.3 基于Word2vec的话题关键词生成方法

3.4 基于低秩矩阵分解的话题关键词抽取方法

3.4.1 低秩矩阵恢复相关理论

3.4.2 话题关键词矩阵构建

3.4.3 问题描述

3.4.4 基于RPCA算法的话题关键词低秩矩阵分解

3.5 本章小结

4 实验设计分析与应用系统实现

4.1 语料库及测试数据集的构建

4.1.1 基于Python的微博采集系统

4.1.2 语料库详情与测试数据集的建立

4.2 实验设置与分析

4.2.1 图的类型及参数确定

4.2.2 Word2vec训练参数确定

4.2.3 对比试验

4.3 系统构建

4.3.1 系统框架

4.3.2 微博关键词可视化示例

4.4 本章小结

5.1 总结

5.2 展望

参考文献

作者简历及攻读硕士学位期间取得的研究成果

学位论文数据集

展开▼

摘要

据2013年互联网数据中心报告显示,预计到2020年全球的数据总量将超过40ZB,这一数据量是2011年的22倍,如何从海量数据中快速抽取出用户所需要的信息是一个重要的研究课题。关键词抽取是快速获得文档核心语义的重要手段,是自然语言处理和信息检索等领域的重要组成部分,有着很高的理论和应用价值。现有的关键词抽取算法多集中于处理学术论文以及新闻等具有一定长度的文本,然而随着社交媒体的蓬勃发展,类似于新浪微博的微型博客在人们生活中发挥着越来越重要的作用。传统的长文本关键词提取方法不再适用于这样的短文本,并且也没有提取社交媒体话题关键词的现有方法。为了解决类似于新浪微博之类的中文社交媒体话题关键词的抽取问题,本文做了如下几个方面的工作:
  提出了基于图模型的话题关键词抽取方法。根据词语的同现关系构建微博文本的图模型,采用改进的TextRank算法,即根据顶点的词性以及是否为命名实体赋予其不同的初始权重,抽取出排名靠前的N个词语。接着使用基于改进神经网络语言模型而来的词向量工具:Word2vec进行话题级别的训练,充分利用话题下所有微博之间的语义信息,概括生成最终的微博话题关键词。根据多个基于经典的、非监督的关键词抽取方法而设计的多组对比实验结果来看,该方法有效的提高了微博话题关键词抽取的性能,尤其提高了查全率。
  提出基于低秩矩阵分解的话题关键词抽取方法。本文创造性地将低秩矩阵分解理论应用于话题关键词的抽取。构造微博话题的关键词矩阵,采用鲁棒性主成分分析(RPCA)算法进行矩阵的分解,获得关键词矩阵的低秩矩阵,得出微博话题的关键词。实验证明,该方法在所有的方法中获得了最高的准确率。
  构建了微博话题语料库及测试数据集。本文设计了微博文本采集系统,构造了首个微博话题关键词抽取语料库。语料库含有100个热门话题,每个话题下约有12万条有效微博条目。采用人工标注的方式构建了话题关键词抽取测试数据集,总共标注了涵盖社会、娱乐等不同类型的30个话题。
  设计开发了微博话题关键词抽取与展示系统。利用本文提出的基于图模型的话题关键词提取方法抽取话题关键词,采用B/S架构开发话题关键词展示系统。融入HTML5技术实现了关键词的可视化,建立了微博话题的关键词云。

著录项

  • 作者

    何伟名;

  • 作者单位

    北京交通大学;

  • 授予单位 北京交通大学;
  • 学科 计算机科学与技术
  • 授予学位 硕士
  • 导师姓名 郎丛妍;
  • 年度 2017
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP311.13;
  • 关键词

    社交媒体; 海量数据; 话题关键词; 抽取算法;

  • 入库时间 2022-08-17 10:18:57

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号