首页> 中文学位 >基于自然语言处理的专利文档自动语义标注方法研究
【6h】

基于自然语言处理的专利文档自动语义标注方法研究

代理获取

目录

文摘

英文文摘

图目录

表目录

第1章 绪论

1.1 引言

1.2 国内外的专利研究现状

1.3 本文研究目标与主要工作

1.4 本文结构

第2章 相关技术背景综述

2.1 本体与语义

2.1.1 本体概念及其相关研究

2.1.2 本体描述语言

2.1.3 本体与语义网

2.1.4 语义标注

2.2 自然语言处理

2.3 GATE

2.4 本章小结

第3章 基于自然语言处理的专利文档自动语义标注方法

3.1 现有的语义标注方法概述

3.1.1 基于内容的方法

3.1.2 基于结构的方法

3.2 专利文档的特点

3.3 本文所采用的方法

3.4 本章小结

第4章 专利文档的语义建模

4.1 专利文档的语义模型层次

4.1.1 专利基本语义信息

4.1.2 专利核心语义

4.1.3 专利核心语义模型实例分析

4.2 专利语义描述语言

4.3 本章小结

第5章 专利文档自动语义标注关键技术

5.1 专利文档的预处理

5.2 专利文档分词

5.3 专利的类型与文档模式识别

5.3.1 专利文档的模式定义

5.3.2 基于名称分析的专利分类

5.4 专利文档语义信息提取

5.5 实例分析

5.6 本章小结

第6章 基于GATE的专利文档语义标注系统设计与实现

6.1 自动语义标注系统设计

6.2 基于GATE的专利文档自动语义标注系统实现

6.2.1 开发环境与相关技术

6.2.2 系统实现与效果分析

6.3 本章小结

第7章 总结与展望

7.1 总结

7.2 展望

参考文献

攻读硕士学位期间主要的研究成果

致谢

展开▼

摘要

随着信息社会的不断发展,人们所产出的知识以几何级数递增。在当今知识管理体系中,文档仍为一个主要的知识存在形式,它包括了图书、报纸、期刊和万维网上数以亿记的各种格式文本文件。这种非结构化的文档中的知识很难为一些工具所利用以达到快速获取信息的目的,因此我们十分需要一种有效的从非结构化、半结构化文档中获取知识的方法。常见的信息抽取方案有基于网页结构、基于文档结构的,也有基于文档内容分析的,但缺乏领域语义的支持。
   本文分析了一种非结构化文档:专利文档的特点,研究了国内外经典的语义标注方法,并提出了一种基于自然语言处理的专利文档自动语义标注方法,用于从专利文档中自动的抽取出语义信息,生成结构化文档。方法首先对专利文本进行预处理,提取专利头部信息和对正文信息进行专利分词;然后通过专利名称进行文档模式发现,加载对应的标注规则将正文切分、识别、标注。最终用轻量化本体描述语言OWL Lite描述专利的语义,生成标注片段。
   本文建立了自动语义标注框架,并对其中的关键技术做了研究,包括:专利头部信息预处理方法、专利文档的中文分词技术、标注规则的获取、基于专利名称的文档模式发现、基于语义规则的语义信息提取方法。为了完善专利语义的框架,本文对专利领域进行语义建模,通过引入通用本体、领域本体建立对专利语义信息的完整支持。
   最后,本文在英国谢菲尔德大学(The University of Sheffield)提出的一个广为应用的知识抽取与文档处理开源框架GATE的基础之上,对提出的基于自然语言处理的专利文档自动语义标注方法的关键部分进行了实现,并与GATE中的原有中文处理系统ANNIE做出比对。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号