Web医疗咨询数据的检索技术研究与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

Web已成为世界上最大的信息数据源，如何从海量 Web数据中检索用户感兴趣的信息已成为工业界和学术界日益关注的热点问题之一。医疗一直是人们关注的热点话题，与人们的生活紧密相关，人们利用互联网检索和咨询病情也愈加频繁。研究大规模医疗咨询数据的查询检索技术具有重要的应用价值和实际意义。
　　本文研究了信息检索领域中的文本检索方法，尤其是向量空间模型和 TFIDF算法。向量空间模型用向量表示文本，用向量间的余弦相似度表示文本间的相似度，模型方法简单、直观。TFIDF算法是计算文本中特征项权重的经典算法，算法简单、有效，但该算法统一根据特征项在文本和文本集中的出现频率来计算其权重。然而，Web医疗咨询数据具有明显的语义分段结构特点，且咨询文本中的部分特征项具有明确的专业领域意义，不适合用向量空间模型和 TFIDF算法来处理。针对上述问题，本文首先提出了一个分段向量空间模型，接着将其应用于 Web医疗咨询数据的检索中，最后从不同的视角对Web医疗咨询数据进行了分析。本文主要做了以下几方面的工作：
　　(1)研究了文本检索领域中的向量空间模型及TFIDF算法，提出了一个分段向量空间模型。根据文本固有的语义分段结构特点，将文本表示成分段向量，分段向量的各部分可以用不同的方法分别计算分量值和相似度，最后计算各部分相似度的加权和作为两向量的总相似度。分段向量空间模型具有表示灵活性，从而提高检索结果的准确率和时空效率。
　　(2)研究了Web医疗咨询数据的特点，接着对Web医疗咨询数据进行预处理，然后将SVSM模型应用于Web医疗咨询数据的检索中，在真实 Web医疗咨询数据集上的实验结果验证了本文所提出的分段向量空间模型在提升检索结果准确率方面的有效性。
　　(3)从不同的视角对Web医疗咨询数据进行了分析。一是从用户的基本信息的视角，其中又包括用户性别、年龄和地区的分析，分析目标是探究疾病在性别、年龄和地区上的分布情况，分析工具采用SAP HANA内存数据库；二是从病情描述的视角，其中又包括病症和药物的分析，分析目标是探究与疾病最相关的症状和药物，采用统计学方法进行分析。

著录项

作者
郭成伟;
展开▼
作者单位

东华大学;

展开▼
授予单位东华大学;
学科计算机科学与技术
授予学位硕士
导师姓名丁祥武;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类检索机;
关键词
文本检索; TFIDF算法; 分段向量空间模型; 医疗咨询; Web数据预处理; 内存数据库;

相似文献

中文文献
外文文献
专利

1. 基于Hadoop的Web医疗咨询数据分析系统的实现 [J] . 张国锋 . 智能计算机与应用 . 2018,第004期
2. 基于Hadoop的Web医疗咨询数据分析系统的实现 [J] . 张国锋 . 智能计算机与应用 . 2018,第4)期
3. 基于分段向量模型的Web医疗咨询数据检索 [J] . 郭成伟 ,丁祥武 . 智能计算机与应用 . 2015,第001期
4. 基于分段向量模型的Web医疗咨询数据检索 [J] . 郭成伟 ,丁祥武 . 智能计算机与应用 . 2015,第001期
5. 中文Web文档库全文检索技术研究与实现 [J] . 杨文清 ,黄宜华 . 中文信息学报 . 1999,第004期
6. 基于ArcGIS Server 9.3的WebGIS遥感影像数据检索技术研究与实现 [C] . 陈赞 ,李子扬 ,汪超亮 . 现代测量技术与地理信息系统科技创新及产业发展研讨会 . 2009
7. 基于Webcam的照片检索技术的研究与实现 [A] . 程敏 . 2003

Web医疗咨询数据的检索技术研究与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅