首页> 中文学位 >PubMed生物医学工程文献数据挖掘
【6h】

PubMed生物医学工程文献数据挖掘

代理获取

目录

前言

第一部分1数据挖掘技术研究概述

1.1基本概念

1.2数据挖掘与知识发现的关系

1.3数据挖掘的分析方法和算法

第一部分2文本自动聚类算法

2.1基于主题词表的聚类算法

2.2向量空间模型(Vector Space Model,VSM)

2.3潜在语义索引(Latent Semantic Indexing)

2.4 BIRCH算法

2.5 K-means算法

2.6 DBSCAN算法

2.7 STING算法

第一部分3面向MEDLINE数据库的数据挖掘研究进展

3.1 Swanson:非相关文献的知识发现

3.2主题词和副主题词进行的式样·配对规则的研究

3.3从MEDLINE记录的自由文本(文摘)中抽取知识的研究

3.4共词分析

3.4.1包容指数和邻近指数

3.4.2密度、向心度和战略坐标

3.4.3网络比较

3.5共篇分析

第二部分4 XML研究概述

4.1 XML文档

4.2 PubMed记录的XML格式

4.3 XML用于数据组织和管理

4.3.1用于归档和备份数据

4.3.2使用XML进行信息封装

4.3.3使用XML作为数据的基本存储

4.3.4 XML用于显示

4.3.5 XML用于数据挖掘

第三部分5 PUBMED生物医学工程文献的数据挖掘研究

5.1 PubMed生物医学工程文献数据挖掘研究的总体设想

5.2研究数据的选取

5.3按照出版年份的文件分割处理

5.4生物医学工程文献自动聚类

5.4.1医学主题词表和树形结构

5.4.2建立生物医学工程预定义类

5.4.3抽取特征项与词频统计

5.4.4文本自动聚类

5.5文献主题分布分析

5.5.1高频主题词

5.5.2各类目的词频分布分析

5.5.3统计分析结果总结

5.6依据主题词表提取文献题名

5.7相关文献聚类统计分析网站的建立

第三部分6建议

6.1词表可进一步完善并精确

6.2采用更精确的聚类算法

6.3加快程序运行速度

6.4建立专题文献数据库

参考文献

致谢

附录

附录1 12种生物医学工程期刊的高频主题词分布表

附录2生物医学工程预定义类(一级类目及二级类目)表

附录3诊断技术类目下二级类目词频统计表

附录4研究技术类目下二级类目词频统计表

附录5设备和物资类目下二级类目词频统计表

附录6生物材料类目下二级类目词频统计表

附录7理论模型类目下二级类目词频统计表

附录8生物力学类目下二级类目词频统计表

附录9生物医学相关技术类目下二级类目词频统计表

附录10医学信息学及信息服务类目下二级类目词频统计表

展开▼

摘要

生物医学工程学,是20世纪50年代以来,随着电子学、材料学、信息科学和电子计算机等多种学科的进步并广泛应用于医学和生物学领域而逐渐形成和发展的,是生物学、工程学和医学紧密相结合的一个交叉学科。其为医学创造出来的新技术、新方法、新材料、新仪器设备推动医学向更高层次更快地发展,显著提高了医学水平。  作为21世纪的重点研究领域,该学科文献增长速度十分惊人,但文献信息组织无序、数量庞大。为了向生物医学工程专业人员提供有序化的信息、挖掘隐藏在文献内部的隐性知识,建立专业的生物医学工程文献自动分析系统具有重大意义。  本文概述了数据挖掘技术的基本概念、分析方法和算法,文本自动聚类算法的分析与比较;综述了国内外面向MEDLINE文献数据库的数据挖掘、知识提取研究;简述了可扩展标识语言(XML)的基本概念、文档格式及其在数据管理及数据挖掘中的应用。利用自建的生物医学工程主题词表聚类XML文献集中包含的生物医学工程文献,统计分析了二十年的文献主题分布,并设计了生物医学工程数据挖掘研究的发布网站,检索主题词表及其下聚类的相关文献。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号