声明
摘要
主要符号表
1 绪论
1.1 研究背景与意义
1.2 生物医学文本挖掘研究进展
1.2.1 信息检索
1.2.2 实体识别
1.2.3 指代消解
1.3 生物医学关系抽取的研究现状和存在的问题
1.3.1 蛋白质关系抽取
1.3.2 化合物疾病关系抽取
1.3.3 药物关系抽取
1.3.4 事件抽取
1.3.5 关系抽取任务中目前存在的问题
1.4 词表示和深度学习技术的研究进展
1.4.1 词表示
1.4.2 文本挖掘领域的深度学习
1.5 本文主要研究思路与内容
2 融合丰富信息的词表示模型
2.1 引言
2.1.1 分布式词表示
2.1.2 神经网络语言模型
2.1.3 RNNLM
2.1.4 Skip-gram和CBOW模型
2.1.5 GloVe模型
2.2 融合丰富信息的分布式词表示模型
2.2.1 生物医学文本的获取
2.2.2 切词
2.2.3 生物医学文本解析
2.2.4 词向量的训练
2.2.5 扩展目标
2.3 实验及分析
2.3.1 词向量训练设置
2.3.2 蛋白质关系抽取的语料与方法
2.3.3 性能度量
2.3.4 不同领域词向量的比较
2.3.5 同领域不同规模背景语料对词向量的影响
2.3.6 与其他蛋白质关系抽取方法的比较
2.4 本章小结
3 针对蛋白质关系抽取的二分类实例表示模型
3.1 引言
3.1.1 逻辑回归
3.1.2 支持向量机
3.1.3 神经网络
3.2 基于实例表示的蛋白质间二分类关系抽取模型
3.2.1 预处理
3.2.2 蛋白质关系实例表示
3.2.3 分类器
3.3 实验与分析
3.3.1 任务及评价方法介绍
3.3.2 蛋白质关系抽取任务上的实验
3.3.3 化合物疾病关系抽取任务上的评价
3.3.4 药物关系抽取任务上的评价
3.4 本章小结
4 针对药物关系抽取的两阶段方法
4.1 引言
4.1.1 LSTM
4.1.2 双向LSTM
4.1.3 Dropout
4.1.4 Maxout
4.1.5 Highway
4.2 基于LR-LSTM的两阶段药物关系抽取
4.2.1 第一阶段:基于LR的二类分类
4.2.2 第二阶段:基于LSTM的多类分类
4.3 实验与分析
4.3.1 任务介绍
4.3.2 评价方法
4.3.3 基线系统
4.3.4 LSTM层数和词性向量的影响
4.3.5 双向LSTM的影响
4.3.6 过采样和两阶段的影响
4.3.7 多层双向LSTM和Dropout的影响
4.3.8 与其他方法的比较
4.4 本章小节
5 结论与展望
5.1 结论
5.2 创新点
5.3 展望
参考文献
攻读博士学位期间科研项目及科研成果
致谢
作者简介
大连理工大学;