首页> 中文学位 >生物医学文本的标注与检索研究
【6h】

生物医学文本的标注与检索研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1 研究的背景和意义

1.2 国内外研究的历史与现状

1.3 本文研究的主要内容与贡献

1.4 本文的结构

第二章 相关理论及工具

2.1 信息检索的基本流程

2.2 基本检索模型

2.3 检索性能的评价

2.4 多标签学习基本理论

2.5 医学本体

2.6 使用平台工具

2.7 本章小结

第三章 基于本体查询扩展的噪声控制

3.1 基于本体查询扩展存在的问题

3.2 三种噪声控制方法

3.3 实验

3.4 实验结论与分析

3.5 本章小结

第四章 基于CCA的医学文本标注

4.1 CCA基本理论

4.2 基于CCA标注方法

4.3 CCA实验

4.4 实验结论与分析

4.5 本章小结

第五章 结论与展望

5.1 本文的主要工作与结论

5.2 工作的展望

致谢

参考文献

展开▼

摘要

随着生物医学技术的快速发展,生物医学方面的文献也快速增长。例如Medline数据库2013包含超过两千万的生物医学文献,而到了2015年,包含的医学文献增加到了二千四百万。对于研究人员,从如此巨大的数据库中检索需要的信息所面临的挑战可想而知。此外生物医学文献的特殊性更增加了检索的难度。例如医学文章中大量使用的的专业词和缩写词,使得一般的检索方法在医学文本检索领域效果很差。
  本文主要从查询扩展的三种噪声控制和多标签的标注两方面研究生物医学文本的检索。论文首先介绍了生物医学研究的发展及现状,然后介绍了检索领域的基本理论和多标签标注的基本理论。通过抑制查询扩展技术中存在的噪声提高生物医学信息检索的性能。本文还将CCA用于多标签的标注,并利用基于CCA标注算法提取医学文献的MeSH短语,然后将提取的MeSH短语用于查询扩展。
  本文的主要工作包括:
  第一,分析了前人在运用基于本体的查询扩展方法时得出的不同结论,得出了查询扩展效果不理想是因为在查询扩展过程中引入了噪声。
  第二,针对查询扩展的噪声问题,提出了三种控制噪声的方法,并在短语的基础上提出了基于单词,基于短语和混合三大检索模型。实验结果表明我们的噪声控制方法是非常有效的,能够显著提高检索的性能。
  第三,将CCA方法应用到了多标签标注领域,对于未知样本标签的预测,提出了自己的CCA标注方法。通过在多个多标签数据集上测试表明,基于CCA的标注算法在多个性能指标上取得了不错的效果,并将该标注算法应用到了医学文本和查询的MeSH的标注,从而进一步提高检索的性能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号