从HTML文档中基于模式的信息提取

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

万维网是资讯的大量的未标记遍布不同源的不同格式来源。这既极大的机遇和挑战在利用这种大量的非结构化资料建立知识库，提取相关资讯。资讯提取(IE)系统作为前台的结束和核心阶段在不同的自然语言程式设计任务。由於IE已证明其效率在域特定的任务，这个专案侧重于一个域:商标资料提取。萃取模式然后是基于文本的运算式和在出现前後的文本中找到的元素後目标文本研究设计。
　　有趣的是，web文档的大部分是写在超文字标记语言(HTML)，不含任何手段在语义描述的内容，以及所包含的资讯不能直接处理。因此，这个系统中，基于模式的IE从HTML档案，重点基于一定的独立性的基础HTML代码和文档中的更改更好地抵抗的视觉资讯的HTML文档的逻辑结构。此外，也有适合与树匹配演算法提取资料，和这一专案中的应用建立在JAVA中使用“WebSphinx API&JsoupAPI”来检索HTML页和解析HTML文本。
　　实验测试一般导致很高的性能，对於提取的所有任务。系统的执行具有较高的精度与实体，但要提取资料可能也失败，如果较大的文本元素介绍，伴随混合各种字元的未格式化的文本。
　　可以得出结论，从HTML文档的基于模式的IE是能够以较高的精度，它真正地解决真正的问题的业务上下文供应商标资料。

著录项

作者
SENG SopheaK;
展开▼
作者单位

北京交通大学;

展开▼
授予单位北京交通大学;
学科软件工程
授予学位硕士
导师姓名李宇;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
超文字标记语言; 信息提取; 语义描述; 文本元素;

相似文献

中文文献
外文文献
专利

1. 基于HTML模式代数的Web信息提取方法 [J] . 李石君 ,于俊清 ,欧伟杰 . 计算机研究与发展 . 2006,第009期
2. 基于缩进轮廓的HTML文档重复模式挖掘方法 [J] . 朱沿旭 ,王怀民 ,史殿习 . 计算机科学 . 2011,第008期
3. SemreX中基于语义的文档参考文献元数据信息提取 [J] . 郭志鑫 ,金海 ,陈汉华 . 计算机研究与发展 . 2006,第008期
4. 基于主成分分析的植被掩模与模式滤波方法在中等植被区蚀变信息提取中的应用 [J] . 张晋开 ,崔承禹 ,支毅乔 . 中国图象图形学报 . 1996,第002期
5. 基于模式的XML文档在关系数据库中存储的设计 [J] . 王健兵 ,夏春和 . 计算机工程与设计 . 2005,第011期
6. 基于HtmlParser网页解析技术的信息提取实践 [C] . 刘小野 . 第二届中国石油石化产业“互联网+”应用发展大会 . 2016
7. 基于HTML Parser的Web信息提取技术 [A] . 王琳琳 . 2007

从HTML文档中基于模式的信息提取

目录

摘要

著录项

相似文献

相关主题

期刊订阅