前言
第一部分1数据挖掘技术研究概述
1.1基本概念
1.2数据挖掘与知识发现的关系
1.3数据挖掘的分析方法和算法
第一部分2文本自动聚类算法
2.1基于主题词表的聚类算法
2.2向量空间模型(Vector Space Model,VSM)
2.3潜在语义索引(Latent Semantic Indexing)
2.4 BIRCH算法
2.5 K-means算法
2.6 DBSCAN算法
2.7 STING算法
第一部分3面向MEDLINE数据库的数据挖掘研究进展
3.1 Swanson:非相关文献的知识发现
3.2主题词和副主题词进行的式样·配对规则的研究
3.3从MEDLINE记录的自由文本(文摘)中抽取知识的研究
3.4共词分析
3.4.1包容指数和邻近指数
3.4.2密度、向心度和战略坐标
3.4.3网络比较
3.5共篇分析
第二部分4 XML研究概述
4.1 XML文档
4.2 PubMed记录的XML格式
4.3 XML用于数据组织和管理
4.3.1用于归档和备份数据
4.3.2使用XML进行信息封装
4.3.3使用XML作为数据的基本存储
4.3.4 XML用于显示
4.3.5 XML用于数据挖掘
第三部分5 PUBMED生物医学工程文献的数据挖掘研究
5.1 PubMed生物医学工程文献数据挖掘研究的总体设想
5.2研究数据的选取
5.3按照出版年份的文件分割处理
5.4生物医学工程文献自动聚类
5.4.1医学主题词表和树形结构
5.4.2建立生物医学工程预定义类
5.4.3抽取特征项与词频统计
5.4.4文本自动聚类
5.5文献主题分布分析
5.5.1高频主题词
5.5.2各类目的词频分布分析
5.5.3统计分析结果总结
5.6依据主题词表提取文献题名
5.7相关文献聚类统计分析网站的建立
第三部分6建议
6.1词表可进一步完善并精确
6.2采用更精确的聚类算法
6.3加快程序运行速度
6.4建立专题文献数据库
参考文献
致谢
附录
附录1 12种生物医学工程期刊的高频主题词分布表
附录2生物医学工程预定义类(一级类目及二级类目)表
附录3诊断技术类目下二级类目词频统计表
附录4研究技术类目下二级类目词频统计表
附录5设备和物资类目下二级类目词频统计表
附录6生物材料类目下二级类目词频统计表
附录7理论模型类目下二级类目词频统计表
附录8生物力学类目下二级类目词频统计表
附录9生物医学相关技术类目下二级类目词频统计表
附录10医学信息学及信息服务类目下二级类目词频统计表
北京协和医学院;
清华大学医学部;
中国协和医科大学;
中国医学科学院;