首页> 中文学位 >跨语言医学信息挖掘中关键词提取方法的研究
【6h】

跨语言医学信息挖掘中关键词提取方法的研究

代理获取

目录

文摘

英文文摘

第一章 绪论

1.1 课题研究背景

1.2 生物医学信息挖掘

1.2.1 飞速增长的生物医学文献信息

1.2.2 目前主流的生物医学文本挖掘技术

1.2.3 跨语言信息检索的兴起

1.2.4 跨语言生物医学信息挖掘的研究进展

1.3 论文研究内容与章节安排

第二章 中文生物医学文本关键词提取

2.1 中文分词

2.1.1 中文分词的研究现状

2.1.2 词语粗切分

2.1.3 未登录词识别

2.1.4 常用的歧义处理方法介绍

2.2 词类标注

2.2.1 中文标记集

2.2.2 词性标注

2.3 语法处理和语义分析

2.3.1 语法成分提取

2.3.2 生物医学实体的语义识别

2.4 实验结果

2.5 本章小结

第三章 生物医学关键词汉英翻译

3.1 查询翻译

3.1.1 基于双语词典的翻译方法

3.1.2 基于平行语料库的翻译方法

3.1.3 基于词典和语料库混合的翻译方法

3.2 利用Google API实现翻译

3.3 实验结果

3.4 本章小结

第四章 跨语言医学信息关键词提取系统(CMKES)设计

4.1 跨语言医学信息关键词提取系统的设计实现

4.1.1 跨语言医学信息关键词提取系统概述

4.1.2 文献获取和自动中文分词

4.1.3 关键词的自动翻译

4.2 跨语言医学信息关键词提取系统的结构

4.2.1 系统的文件架构和数据库

4.2.2 系统的更新和维护

4.3 实验结果和分析

4.3.1 评估方法

4.3.2 实验结果和分析

4.4 本章小结

第五章 总结与展望

5.1 论文工作总结

5.2 展望

文章发表情况

致谢

参考文献

展开▼

摘要

随着国内外生物医学信息研究的飞速发展,生物医学文献已成指数级别增长,其中绝大多数文献都可在网络上检索。互联网检索生物医学文献已成为研究人员获取最新研究成果的主要途径,然而部分汉语用户要获取最新英语文献时却存在一些困难:首先由于生物医学名词的缩略性、模糊性和多义性,用户难以直接输入准确的生物医学术语进行检索;其次将大量汉语信息人工翻译成英语信息也是很困难的。因此如何从输入文本中自动提取出关键信息和汉英信息的自动翻译成为解决跨语言用户信息检索难题,也是近年来跨语言文本检索研究的热点。
   本文利用自然语言处理和机器翻译获取中文文本的关键词信息,并进行了汉英翻译。具体地说,本文主要的研究内容有以下几点:
   考察中文分词技术的研究现状后,引入了基于层叠隐马尔可夫模型的中文分词工具ICTCLAS。详细介绍了中文分词的处理思路和部分算法,并利用其接口实现中文分词,同时引入生物医学用户词典,提取生物医学关键词。由于散落的词语仍然具有上下文关联特征,为了更准确的获得关键词信息,本文从一系列词性标记集中遴选出效果最优的对象,对中文词语进行了词性标记(POS)。利用词性特征和设定的语法规则进行语法处理,提取到准确的中文关键词。
   在机器翻译模块中,评估了Google Translate API的翻译性能,根据其较高的准确率和用户友好性,选择其对中文生物医学关键词进行汉英翻译。
   基于上述研究,设计开发了跨语言医学信息关键词提取系统(CMKES),运用自然语言处理和自动翻译技术对中文生物医学文本进行挖掘,提取英文关键词以供后续的知识发现。该平台实现了对文本的智能挖掘,配合信息检索工具后可以为生命科学相关领域研究的科研工作者或医务工作者提供实时的在线服务。
   在大规模的检索结果测试中,与单语检索相比,CMKES准确率可以达到70%-80%,在实际的运用中,由于用户将更多地参考检索结果的前几页信息,在这种条件下CMKES准确率可以达到95%以上。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号