文摘
英文文摘
声明
致谢
1 引言
1.1 文献知识发现
1.1.1 海量的信息
1.1.2 文献知识发现的含义
1.1.3 知识发现的方法:文本挖掘
1.2 生物医学文献知识发现
1.2.1 生物医学文献知识发现的背景
1.2.2 生物医学文本挖掘的国内外研究现状
1.3 中医文献知识发现
1.4 本文的研究内容
1.5 本文的结构组织
2 理论基础
2.1 文本挖掘
2.1.1 文本挖掘的定义
2.1.2 文本挖掘的过程
2.2 中医药和生物医学文献文本挖掘
2.2.1 生物医学文献文本挖掘
2.2.2 中医药文献文本挖掘
2.2.3 整合文本挖掘
2.3 信息抽取
2.3.1 信息抽取的基本概念
2.3.2 信息抽取的发展
2.3.3 信息抽取的分类
2.4 命名实体识别
2.4.1 命名实体识别简介
2.4.2 生物医学命名实体识别
2.4.3 生物医学命名实体识别方法
2.4.4 中医药文献命名实体识别
2.5 本章小结
3 两种基于统计方法的命名实体识别模型
3.1 问题的形式化描述
3.2 概率模型
3.3 两种基于统计方法的判别式模型
3.3.1 MEMM
3.3.2 CRF
3.4 本章小结
4 基于CRF的基因实体识别
4.1 基因实体识别流程
4.2 实验数据集
4.2.1 生物医学语料库资源
4.2.2 JNLPBA2004 数据集
4.2.3 BioCreAtIvE数据集
4.2.4 数据集处理
4.3 实验结果与分析
4.3.1 测评指标
4.3.2 实验结果
4.4 基于CRF的基因实体识别系统
4.5 本章小结
5 基于CRF的疾病实体识别
5.1 问题的提出
5.2 Bubble-bootstrapping方法介绍
5.2.1 Bootstrapping技术
5.2.2 Bubble-bootstrapping算法
5.3 Bubble-bootstrapping生成数据集
5.3.1 Bubble-bootstrapping语料标注的意义
5.3.2 Bubble-bootstrapping语料标注
5.3.3 数据集处理
5.4 基于CRF模型的中文疾病名称识别
5.4.1 基于CRF模型的中文疾病名称识别流程
5.4.2 实验数据集
5.5 实验结果与分析
5.6 基于CRF的疾病实体识别系统
5.7 本章小结
6 总结与展望
参考文献
作者简历
北京交通大学;