首页> 中文会议>2015中国计算机应用大会暨2015年大数据与物联网在工业中的应用会议 >天河2号上一种大规模生物医学文献挖掘技术

天河2号上一种大规模生物医学文献挖掘技术

页面导航

摘要
著录项
相似文献
相关主题

摘要

生物医药领域呈现出“大数据”的趋势,而海量的医药文献信息的快速、自动、高效获取成为医药和各领域专家的挑战.目前基于半自动化的专业数据库大量在大规模命名实体识别、计算效率与数据全面性方面有很大限制.针对该问题,本文提出了一种全新高效的可扩展性大规模文本挖掘方法,并基于一种高效文本挖掘工具PWTEES设计了针对疾病的命名实体识别组件DNorm.完成了生物医学文献库PubMed上全部2000多万篇MEDLINE生物医学文献以及PWTEES在天河-2上的大规模部署和挖掘,在天河上实现了数据库的动态部署，可以应对1000进程的并发存取，并探索了分布式可伸缩NoS QL数据库MongoDB的部署测试。将平时在普通服务器上需要3个月才能完成的计算处理缩短至1个小时,从而实现了对大规模生物医学文献文本的高效挖掘和快速知识获取.同时在天河2号上利用200进程对实际头颈癌相关的共约7万篇文献数据进行了并行挖掘分析,取得了80％以上的并行效率.而且随着生物医学文献文本数量的增加,并行效率始终保持在80％左右.

著录项

来源
《2015中国计算机应用大会暨2015年大数据与物联网在工业中的应用会议》|2015年|1-9|共9页
会议地点广东茂名
作者
PENG Shaoliang; 彭绍亮; WU Chengkun; 吴诚堃; LIAO Xiangke; 廖湘科; LU Yutong; 卢宇彤; FANG Lin; 方林; WANG Xuefei; 汪雪飞; LI Wentao; 李文涛;
展开▼
作者单位

中国计算机学会;

展开▼
会议组织
正文语种
原文格式 PDF
中图分类情报资料的分析和研究;
关键词
生物医学文献; 大规模文本挖掘; 并行效率; 数据库; 动态部署;

相似文献

中文文献
外文文献
专利

1. 文本挖掘技术在生物医学文献管理中的应用 [J] . 楼婷渊 ,孟志青 ,胡强 . 现代营销 . 2012,第010期
2. 外文生物医学期刊文献服务系统和NSTL外文生物医学文献数据库比较分析 [J] . 杨久英 . 医学信息学杂志 . 2008,第008期
3. 利用Internet上的生物医学文献检索系统方法 [J] . 朱凯 ,薛美莲 ,杨少敏 . 海峡预防医学杂志 . 2003,第2期
4. 面向生物医学文献挖掘的一种改进的贝叶斯算法 [J] . 陆才奇 ,郑浩然 ,张敏 . 中国生物医学工程学报 . 2009,第002期
5. 天河超级计算机上超大规模高精度计算流体力学并行计算研究进展 [J] . 徐传福 ,车永刚 ,李大力 . 计算机工程与科学 . 2020,第010期
6. “天河二号”上一种新型DNA序列de novo拼接方法的并行优化策略 [C] . ZHANG Feng ,张峰 ,LIAO Xiangke . 2013全国高性能计算学术年会 . 2013
7. 面向生物医学文献的文本挖掘技术研究 [A] . 袁毅 . 2008

天河2号上一种大规模生物医学文献挖掘技术

摘要

著录项

相似文献

相关主题

期刊订阅