生物医学文本的标注与检索研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着生物医学技术的快速发展，生物医学方面的文献也快速增长。例如Medline数据库2013包含超过两千万的生物医学文献，而到了2015年，包含的医学文献增加到了二千四百万。对于研究人员，从如此巨大的数据库中检索需要的信息所面临的挑战可想而知。此外生物医学文献的特殊性更增加了检索的难度。例如医学文章中大量使用的的专业词和缩写词，使得一般的检索方法在医学文本检索领域效果很差。
　　本文主要从查询扩展的三种噪声控制和多标签的标注两方面研究生物医学文本的检索。论文首先介绍了生物医学研究的发展及现状，然后介绍了检索领域的基本理论和多标签标注的基本理论。通过抑制查询扩展技术中存在的噪声提高生物医学信息检索的性能。本文还将CCA用于多标签的标注，并利用基于CCA标注算法提取医学文献的MeSH短语，然后将提取的MeSH短语用于查询扩展。
　　本文的主要工作包括：
　　第一，分析了前人在运用基于本体的查询扩展方法时得出的不同结论，得出了查询扩展效果不理想是因为在查询扩展过程中引入了噪声。
　　第二，针对查询扩展的噪声问题，提出了三种控制噪声的方法，并在短语的基础上提出了基于单词，基于短语和混合三大检索模型。实验结果表明我们的噪声控制方法是非常有效的，能够显著提高检索的性能。
　　第三，将CCA方法应用到了多标签标注领域，对于未知样本标签的预测，提出了自己的CCA标注方法。通过在多个多标签数据集上测试表明，基于CCA的标注算法在多个性能指标上取得了不错的效果，并将该标注算法应用到了医学文本和查询的MeSH的标注，从而进一步提高检索的性能。

著录项

作者
钟廷伟;
展开▼
作者单位

电子科技大学;

展开▼
授予单位电子科技大学;
学科计算机应用技术
授予学位硕士
导师姓名吴洪;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类主题法;
关键词
生物医学文本; 查询扩展; 噪声控制; MeSH主题词; 多标签学习; CCA标注算法;

相似文献

中文文献
外文文献
专利

1. 借助词类标注提高文本检索效率的可行性分析 [J] . 刘伟权 ,钟义信 . 情报理论与实践 . 1996,第006期
2. 中国生物医学文献分析和检索系统(六) 情报检索和文献统计的基本设想 [J] . 胡铁军 . 医学信息学杂志 . 1989,第006期
3. 作为文件管理手段的标准通用标注语言(SGML)和超文本标注语言(HTML) [J] . 杨则正 . 管理观察 . 1998,第011期
4. 基于文本的图像检索与基于内容的图像检索技术的比较研究 [J] . 阿斯艳·哈米提 ,阿不都热西提·哈米提 . 首都师范大学学报（自然科学版） . 2012,第004期
5. 基于PubMed和预印本网站的生物医学检索课分层设计研究——以新型冠状病毒的认识特点为例 [J] . 郑蕊 . 科技创新与生产力 . 2020,第009期
6. 生物医学文献中模糊限制语的辖域标注规则研究 [C] . ZHANG Jing ,张静 ,KANG Shiyong . 中国中文信息学会2015学术年会（CIPS2015）暨第十四届全国计算语言学学术会议（CCL2015）、第三届基于自然标注大数据的自然语言处理国际学术研讨会（NLP-NABD2015） . 2015
7. 基于领域本体的生物医学文本检索 [A] . 孙贶恺 . 2013

生物医学文本的标注与检索研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅