首页> 中文学位 >从HTML文档中基于模式的信息提取
【6h】

从HTML文档中基于模式的信息提取

代理获取

目录

声明

ACKNOWLEDGEMENT

ABSTRACT

摘要

Table of Contents

1 Introduction

1.1 Motivation

1.2 Goal

1.3 Trends in the Field of lnformation Extraction

2 Information Extraction Techniques

2.1 Pattern-Based Extraction of Named Entities

2.1.1 Named Entity Recognition

2.1.2 Entity Relation Detection

2.2 Regular Expression

2.3 Analyses of HTML Documents

2.3.1 Document Code Modeling

2.3.2 HTML Code Analysis

2.3.3 Conceptual Modeling

2.3.4 Visual Analysis of HTML Documents

3 Visual Modeling Approach to Information Extraction

3.1 Visual Information Analysis

3.1.1 Page Layout Model

3.1.2 Text Attribute Model

3.1.3 Logical Document Structure

3.2 Information Extraction from the Logical Structure

4 Design and Implementation Pattern-Based IE System

4.1 Technologies Analysis

4.1.1 HTML Retrieval API

4.1.2 HTML Parser API

4.2 System Design

4.2.1 User Interaction

4.2.2 User Interface Interaction

4.2.3 Download HTML Documents

4.2.4 Extract Data

4.2.5 Interaction Process

4.3 System Implementation

4.3.1 Generate Search URL

4.3.2 Download HTML Files

4.3.3 Implement Data Extraction

4.3.4 Global Interaction

4.4 Input/Output of Pattern-Based IE System

5 Evaluation of Resuits

6 Conclusion and Future Possibilities

6.1 Summary

6.2 Future Possibilities

References

Curriculum Vitae of Author

学位论文数据集

展开▼

摘要

万维网是资讯的大量的未标记遍布不同源的不同格式来源。这既极大的机遇和挑战在利用这种大量的非结构化资料建立知识库,提取相关资讯。资讯提取(IE)系统作为前台的结束和核心阶段在不同的自然语言程式设计任务。由於IE已证明其效率在域特定的任务,这个专案侧重于一个域:商标资料提取。萃取模式然后是基于文本的运算式和在出现前後的文本中找到的元素後目标文本研究设计。
  有趣的是,web文档的大部分是写在超文字标记语言(HTML),不含任何手段在语义描述的内容,以及所包含的资讯不能直接处理。因此,这个系统中,基于模式的IE从HTML档案,重点基于一定的独立性的基础HTML代码和文档中的更改更好地抵抗的视觉资讯的HTML文档的逻辑结构。此外,也有适合与树匹配演算法提取资料,和这一专案中的应用建立在JAVA中使用“WebSphinx API&JsoupAPI”来检索HTML页和解析HTML文本。
  实验测试一般导致很高的性能,对於提取的所有任务。系统的执行具有较高的精度与实体,但要提取资料可能也失败,如果较大的文本元素介绍,伴随混合各种字元的未格式化的文本。
  可以得出结论,从HTML文档的基于模式的IE是能够以较高的精度,它真正地解决真正的问题的业务上下文供应商标资料。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号