首页> 中文学位 >Web医疗咨询数据的检索技术研究与实现
【6h】

Web医疗咨询数据的检索技术研究与实现

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1研究背景

1.2研究目的与意义

1.3研究现状

1.4研究内容

1.5本文组织结构

第二章 相关技术研究

2.1信息检索

2.2文本相似度

2.3文本表示模型

2.4 TFIDF算法及其改进算法

2.5 SAP HANA内存数据库

2.6本章小结

第三章 分段向量空间模型

3.1向量空间模型及其局限性

3.2分段向量空间模型

3.3本章小结

第四章 Web医疗咨询数据的检索方案

4.1 Web医疗咨询数据的特点

4.2 Web医疗咨询数据的预处理

4.3 SVSM模型在Web医疗咨询数据检索中的应用

4.4实验验证

4.5本章小结

第五章 Web医疗咨询数据的分析

5.1实验环境

5.2数据集

5.3用户的基本信息分析

5.4用户的病情描述分析

5.5本章小结

第六章 总结与展望

6.1本文研究工作总结

6.2未来工作展望

参考文献

攻读学位期间的研究成果目录

致谢

展开▼

摘要

Web已成为世界上最大的信息数据源,如何从海量 Web数据中检索用户感兴趣的信息已成为工业界和学术界日益关注的热点问题之一。医疗一直是人们关注的热点话题,与人们的生活紧密相关,人们利用互联网检索和咨询病情也愈加频繁。研究大规模医疗咨询数据的查询检索技术具有重要的应用价值和实际意义。
  本文研究了信息检索领域中的文本检索方法,尤其是向量空间模型和 TFIDF算法。向量空间模型用向量表示文本,用向量间的余弦相似度表示文本间的相似度,模型方法简单、直观。TFIDF算法是计算文本中特征项权重的经典算法,算法简单、有效,但该算法统一根据特征项在文本和文本集中的出现频率来计算其权重。然而,Web医疗咨询数据具有明显的语义分段结构特点,且咨询文本中的部分特征项具有明确的专业领域意义,不适合用向量空间模型和 TFIDF算法来处理。针对上述问题,本文首先提出了一个分段向量空间模型,接着将其应用于 Web医疗咨询数据的检索中,最后从不同的视角对Web医疗咨询数据进行了分析。本文主要做了以下几方面的工作:
  (1)研究了文本检索领域中的向量空间模型及TFIDF算法,提出了一个分段向量空间模型。根据文本固有的语义分段结构特点,将文本表示成分段向量,分段向量的各部分可以用不同的方法分别计算分量值和相似度,最后计算各部分相似度的加权和作为两向量的总相似度。分段向量空间模型具有表示灵活性,从而提高检索结果的准确率和时空效率。
  (2)研究了Web医疗咨询数据的特点,接着对Web医疗咨询数据进行预处理,然后将SVSM模型应用于Web医疗咨询数据的检索中,在真实 Web医疗咨询数据集上的实验结果验证了本文所提出的分段向量空间模型在提升检索结果准确率方面的有效性。
  (3)从不同的视角对Web医疗咨询数据进行了分析。一是从用户的基本信息的视角,其中又包括用户性别、年龄和地区的分析,分析目标是探究疾病在性别、年龄和地区上的分布情况,分析工具采用SAP HANA内存数据库;二是从病情描述的视角,其中又包括病症和药物的分析,分析目标是探究与疾病最相关的症状和药物,采用统计学方法进行分析。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号