基于自然语言处理的专利文档自动语义标注方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着信息社会的不断发展，人们所产出的知识以几何级数递增。在当今知识管理体系中，文档仍为一个主要的知识存在形式，它包括了图书、报纸、期刊和万维网上数以亿记的各种格式文本文件。这种非结构化的文档中的知识很难为一些工具所利用以达到快速获取信息的目的，因此我们十分需要一种有效的从非结构化、半结构化文档中获取知识的方法。常见的信息抽取方案有基于网页结构、基于文档结构的，也有基于文档内容分析的，但缺乏领域语义的支持。
　　本文分析了一种非结构化文档：专利文档的特点，研究了国内外经典的语义标注方法，并提出了一种基于自然语言处理的专利文档自动语义标注方法，用于从专利文档中自动的抽取出语义信息，生成结构化文档。方法首先对专利文本进行预处理，提取专利头部信息和对正文信息进行专利分词；然后通过专利名称进行文档模式发现，加载对应的标注规则将正文切分、识别、标注。最终用轻量化本体描述语言OWL Lite描述专利的语义，生成标注片段。
　　本文建立了自动语义标注框架，并对其中的关键技术做了研究，包括：专利头部信息预处理方法、专利文档的中文分词技术、标注规则的获取、基于专利名称的文档模式发现、基于语义规则的语义信息提取方法。为了完善专利语义的框架，本文对专利领域进行语义建模，通过引入通用本体、领域本体建立对专利语义信息的完整支持。
　　最后，本文在英国谢菲尔德大学(The University of Sheffield)提出的一个广为应用的知识抽取与文档处理开源框架GATE的基础之上，对提出的基于自然语言处理的专利文档自动语义标注方法的关键部分进行了实现，并与GATE中的原有中文处理系统ANNIE做出比对。

著录项

作者
杨舟;
展开▼
作者单位

浙江大学;

展开▼
授予单位浙江大学;
学科计算机应用技术
授予学位硕士
导师姓名林兰芬;
年度 2011
页码
总页数
原文格式 PDF
正文语种中文
中图分类信息处理（信息加工）;
关键词
语义标注; 信息抽取; 专利文档; 自然语言处理;

相似文献

中文文献
外文文献
专利

1. 基于RDF语义标注的领域文档主题描述方法研究 [J] . 沙丽华 . 电子技术与软件工程 . 2015,第013期
2. 基于语义的文档标注方法研究 [J] . 张泽宇 ,李莉 ,谭凤 . 计算机工程与科学 . 2013,第009期
3. 基于语义标注的数据资源库元数据质量自动评估方法研究 [J] . 郭晓明 ,马良荔 ,苏凯 . 计算机应用与软件 . 2018,第006期
4. 基于本体的甲骨文专业文档语义标注方法 [J] . 吴琴霞 ,高峰 ,刘永革 . 计算机应用与软件 . 2013,第010期
5. 基于机器学习的生物多样性英文文档语义标注研究 [J] . 崔红 ,段宇锋 ,郦芳 . 图书情报知识 . 2011,第002期
6. 基于分层图像文档模型的图像语义自动标注 [C] . 陈恋 ,周向东 ,叶剑烨 . 第二十二届中国数据库学术会议 . 2005
7. 面向领域文档的自动语义标注方法研究 [A] . 张泓博 . 2012

基于自然语言处理的专利文档自动语义标注方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅