基于词向量和主题模型的生物医学摘要技术

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着科学技术的快速发展，因特网上的在线资源和文献数量都在呈指数性的增长。这些资源在给人类带来海量信息的同时，也带来数据冗余和垃圾信息等问题，用户往往需要花费更多的时间才能找到所需要的信息。而文本摘要技术可以快速抽取文档集中的重要信息，并用指定长度的一段话反映原文信息，实现为用户节省搜索时间，提高工作效率的目的。在生物医学领域，如MEDLINE数据库中，一个概念能检索到上万篇相关文献。因此文本摘要技术的研究对于生物医学领域的研究人员具有重大意义。　　自2013年word2vec工具被提出以来，由于其高效性和简易性，该模型被广泛使用，另外由于近些年深度学习出色的性能效果，使得词向量的研究受到文本挖掘领域研究人员的重视。如何将词向量的研究加入到文本摘要技术方法中，使得摘要性能有进一步的提升，是本文的研究重点。本文将语料集划分为句子集合，每条句子作为图中结点并赋予平均初始权重，利用词向量计算句子间的语义相似性作为两两句子间边的权重，基于PageRank思想对图中结点迭代计算结点权重直至收敛。最终结点权重反映句子的重要性，最后利用最大边缘相关算法消除句子中的冗余信息生成摘要。为充分验证词向量在计算句子相似性的性能效果，本文采用多种方式利用词向量，如采用特征词均值、特征词对应维的最大值、结合语义相似性计算等，以找到最适合本文摘要方法的使用方式。本文通过三组实验，对比发现结合语义相似性计算的方式能够更大程度地提升文本摘要性能。　　尽管文本摘要技术可以使用户快速浏览大量信息，但是由于不同角色的用户会有不同的信息需求。如对于某一疾病，医生想了解的是相关的最新研究成果等，而病人则关注的是该疾病的症状、治疗方案等。因此本文针对不同类用户，提出面向用户角色的自动文本摘要技术。以医生和病人为研究对象，首先搜集两类用户关于疾病“HIVInfections”的评论信息，生成两个用户评论集，然后分别利用pLSA和LDA对评论集进行主题建模，找到用户对该疾病关注的主题词，并加入到句子权重计算过程中最终生成摘要。通过评价系统摘要性能以及计算摘要和主题词间的相似性，实验结果证明了本文方法在生成面向用户的疾病摘要的有效性。

著录项

作者
郝辉辉;
展开▼
作者单位

大连理工大学;

展开▼
授予单位大连理工大学;
学科计算机应用技术
授予学位硕士
导师姓名林鸿飞;
年度 2015
页码
总页数
原文格式 PDF
正文语种 chi
中图分类
关键词
文本摘要,生物医学领域,词向量,主题模型,深度学习;

相似文献

中文文献
外文文献
专利

1. 基于主题模型和词向量融合的微博文本主题聚类研究 [J] . 颜端武 ,梅喜瑞 ,杨雄飞 . 现代情报 . 2021,第010期
2. 基于双语主题模型和双语词向量的跨语言知识链接 [J] . 余圆圆 ,巢文涵 ,何跃鹰 . 计算机科学 . 2019,第001期
3. 基于上下文词向量和主题模型的实体消歧方法 [J] . 王瑞 ,李弼程 ,杜文倩 . 中文信息学报 . 2019,第011期
4. 基于词向量和变分自动编码器的短文本主题模型 [J] . 张青 ,韩立新 ,勾智楠 . 河北工业科技 . 2018,第006期
5. 基于主题模型与信息熵的中文文档自动摘要技术研究 [J] . 李然 ,张华平 ,赵燕平 . 计算机科学 . 2014,第0z2期
6. 基于主题模型LDA的多文档自动摘要 [C] . 杨潇 ,马军 ,杨同峰 . 第五届全国信息检索学术会议CCIR2009 . 2009
7. 基于主题模型和词向量的IPTV用户行为研究 [A] . 李晓雪 . 2019

基于词向量和主题模型的生物医学摘要技术

目录

摘要

著录项

相似文献

相关主题

期刊订阅