Deep Web数据集成中的结果抽取及实体识别研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着Internet的发展和Web上信息的快速增加，人们越来越多地依赖搜索引擎来查找所需信息。目前的主流搜索引擎主要依靠爬虫爬行网页上的链接来抓取网页，因此基本上只索引了互联网上的静态页面，而Web上存在大量的在线数据库，这些数据库的信息通过提交查询实时产生，对于主流搜索引擎基本上是不可见的，如何有效利用这些Deep Web数据资源是一个值得研究的问题。
　　在Deep Web数据集成系统中，结果的抽取与实体识别是一个重要环节。由于Deep Web网站返回的结果页面主要通过HTML文档来展现，不同网站返回的结果页面无论在形式上或在内容上都存在着很大的差异，并且HTML着重于数据的表现而不是数据的描述，因此自动提取其中的数据并进行实体识别是一项比较困难的任务。
　　本文在分析Deep Web网站返回页面及其数据表现形式的基础上，提出了一种基于探测查询来提取Deep Web数据的方法，并根据提取出的数据利用文本相似度进行实体识别。该方法首先选取领域高频词建立查询词库，通过统一接口提交查询词，之后利用所提交的查询词在返回页面中的位置，提取Deep Web网站结果返回页面每个数据的标签结构，并记录其各属性的位置。对于待抽取的Deep Web页面，利用这个标签结构和属性位置实现数据抽取，并将抽取出的数据保存到XML文档。之后利用向量的余弦相似度计算文本相似程度，从而确定两个实体是否匹配。实验表明，该方法具有较高的实体识别准确率。

著录项

作者
李石生;
展开▼
作者单位

河北大学;

展开▼
授予单位河北大学;
学科计算机软件与理论
授予学位硕士
导师姓名袁方;
年度 2008
页码
总页数
原文格式 PDF
正文语种中文
中图分类国际互联网;
关键词
数据抽取; 实体识别; 搜索引擎; 在线数据库; Web数据集成;

相似文献

中文文献
外文文献
专利

1. Deep Web数据集成中的实体识别方法 [J] . 凌妍妍 ,刘伟 ,王仲远 . 计算机研究与发展 . 2006,第0z3期
2. 基于模板的Deep Web实体识别信息抽取方法研究 [J] . 王嵘冰 ,党小婉 ,徐红艳 . 辽宁大学学报（自然科学版） . 2017,第002期
3. Web招聘信息抽取中命名实体识别的研究 [J] . 王西锋 ,张晓孪 . 计算机与数字工程 . 2012,第005期
4. Deep Web数据集成中模式匹配算法的研究 [J] . 马玉祥 ,冯骁 . 西安欧亚学院学报 . 2009,第001期
5. Deep Web数据集成中查询处理的研究与进展 [J] . 姜芳艽 ,孟小峰 . 计算机科学与探索 . 2009,第002期
6. Deep Web数据集成中的实体识别方法 [C] . 凌妍妍 ,刘伟 ,王仲远 . 第二十三届中国数据库学术会议（NDBC2006） . 2006
7. Deep Web数据集成系统中数据抽取与语义标注研究 [A] . 高亚 . 2010

Deep Web数据集成中的结果抽取及实体识别研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅