基于Bootstrapping的领域知识自动抽取技术的研究

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

随着互联网的高速发展及其各种Web应用的快速增长,网络上的信息规模急剧扩大。网络已经成为人们生活中重要的知识库,人们对高效地获取信息的需求尤为迫切。在网络的海量数据中,包含了大量的半结构化的领域知识,例如电影、书籍和酒店等等,这些领域知识与我们的生活秘密相关。目前,虽然可以通过搜索引擎从海量数据中进行信息检索,但是搜索的结果并不是非常可靠。而这些领域知识往往来自供应商的后台数据库,同时基于关键字匹配的搜索引擎由于自身的限制,不能索引这些嵌入在半结构化的HTML网页中的领域知识。如何从大规模的Web网站中自动抽取并组织这些领域知识成为信息抽取研究的热点。Web信息抽取技术(Web Information Extraction)可以从半结构化的网页中抽取数据,并以结构化的方式存储在数据库中。
　　本文在分析当前Web信息抽取技术的基础上,利用标签路径技术(Tag Path Technique)代替DOM树来表示HTML文档。该表示方法大大降低了标签的数量,提高了算法的性能。针对半结构化的网站,提出了一种新的基于Bootstrapping的自动抽取领域知识的算法:(D_)omain-specific(K_)nowledge(E_)xtractionfrom(W_)ebsites,DKEW。DKEW利用本体(Ontology)来统一标注同一领域中抽取的半结构化数据,便于存储和查询。DKEW首先利用基于标签路径技术的聚类算法对目标网页进行聚类,过滤掉噪音网页,DKEW只抽取包含详细信息的半结构化网页。根据标签路径技术,提出一种新的模式定义。对同一类别的网页,借助于机器学习方法和领域种子自动地进行模式学习。然后利用学习到的模式自动抽取领域知识并匹配到事先定义的领域本体,将匹配好的领域知识存储在结构化的、便于查询的知识库表格中。在知识抽取的同时,利用新抽取的具有高可信性的领域知识来扩充领域种子和Ontology,以便下次迭代应用。最后,通过Bootstrapping方法将相关的知识抽取过程结合起来,使之成为一套无需人工监督的自动抽取工具。DKEW只需要少量的人力进行领域种子的初始化。为了验证DKEW,本文利用自定义的网络爬虫爬取多个领域的网页数据。实验表明DKEW不仅在性能上优于现有的Web信息抽取方法RoadRunner,而且在效率上也远远高于RoadRunner。相比于RoadRunner需要手动匹配抽取的数据,DKEW利用自动的方式进行本体匹配,节省了大量的人力和时间。在多个领域上的实验表明,DKEW可以应用在大规模的Web信息抽取中。

著录项

作者
康琪;
展开▼
作者单位

山东大学;

展开▼
授予单位山东大学;
学科计算机系统结构
授予学位硕士
导师姓名马军;
年度 2012
页码
总页数
原文格式 PDF
正文语种中文
中图分类专家系统、知识工程;自动推理、机器学习;
关键词
领域知识; 自动抽取技术; 半结构化网站; 模式学习; 本体匹配; Bootstrapping技术;

相似文献

中文文献
外文文献
专利

1. 我国省域农业生产技术效率测度分析--基于四阶段DEA和Bootstrapped DEA的实证研究 [J] . 陈池波 ,盛国勇 . 科技进步与对策 . 2014,第003期
2. 基于xml的Deep Web信息自动抽取技术的研究 [J] . 彭媛媛 ,许建潮 . 科技信息 . 2009,第033期
3. 基于模板法的网页英语试卷自动抽取技术的研究 [J] . 熊惠荟 ,欧阳君 . 计算机与数字工程 . 2009,第004期
4. 基于统计和规则相结合的科技术语自动抽取研究 [J] . 刘豹 ,张桂平 ,蔡东风 . 计算机工程与应用 . 2008,第023期
5. 基于领域知识库的水生生物领域文献检索分类技术研究 [J] . 陈佳 . 湖北农业科学 . 2019,第S1期
6. 基于二维词汇化领域知识的日汉科技术语翻译方法研究 [C] . Ding Liang ,丁亮 ,Li Ying . 第十二届全国机器翻译研讨会 . -1
7. 领域知识库自动抽取系统的设计与实现 [A] . 黄建元 . 2019

基于Bootstrapping的领域知识自动抽取技术的研究

摘要

著录项

相似文献

相关主题

期刊订阅