您现在的位置: 首页> 研究主题> Deep Web

Deep Web

Deep Web的相关文献在2005年到2017年内共计177篇,主要集中在自动化技术、计算机技术、信息与知识传播、科学、科学研究 等领域,其中期刊论文157篇、会议论文18篇、专利文献2篇;相关期刊74种,包括电脑知识与技术、计算机工程与设计、计算机工程与应用等; 相关会议11种,包括《通信学报》学术论坛暨2011云计算学术会议、数字图书馆高层论坛2010年年会、第六届全国信息检索学术会议等;Deep Web的相关文献由356位作者贡献,包括崔志明、寇月、申德荣等。

Deep Web—发文量

期刊论文>

论文:157 占比:88.70%

会议论文>

论文:18 占比:10.17%

专利文献>

论文:2 占比:1.13%

总计:177篇

Deep Web—发文趋势图

Deep Web

-研究学者

  • 崔志明
  • 寇月
  • 申德荣
  • 聂铁铮
  • 于戈
  • 赵朋朋
  • 孟小峰
  • 左万利
  • 丁艳辉
  • 吴春明
  • 期刊论文
  • 会议论文
  • 专利文献

搜索

排序:

年份

期刊

    • 王嵘冰; 党小婉; 徐红艳; 冯勇
    • 摘要: Web技术的发展导致Web数据激增,其中Deep Web数据占主要部分.实体识别是开展模式识别、数据集成等Deep Web关键技术研究的首要前提.为提高实体识别的效率和准确性,提出了基于模板的Deep Web实体识别信息抽取方法.该方法拥有三个不同的处理阶段:其中基于DOM树抽取规则的模板训练阶段最为关键,抽取规则通过结构分析和语义分析两个阶段完成,此外该方法还包含着数据准备和实体信息抽取两个辅助阶段.最后经实验验证所提方法在提升实体识别准确性的同时具有较好的信息抽取效率.
    • 曹旻; 陈盼盼
    • 摘要: 为解决材料无库数据的CRUD和材料数据的安全性问题,在传统中间件形式的异构数据集成框架的基础上,设计结合中间件和数据仓库的多层架构的异构材料数据集成框架,实现对MongoDB、Deep Web数据、关系数据库、文档数据、XML等多种异构数据源的集成处理;实现框架缓存,通过缓存模块提高系统效率;完成满足安全性、包含无库数据源的异构材料数据集成系统的方案实现.
    • 乌尔柯西; 杨抒; 王业; 游香薷
    • 摘要: The information contained in DeepWeb is more and more huge with great value. But due to the factors that DeepWeb informa-tion is highly heterogeneous, autonomous, dynamic and incomplete, and the design style, page structure, display contents of DeepWeb theme website are different,and the use of JavaScript technology is widespread,the traditional extraction technology can’ t be effectively automated integration of high quality information contained in DeepWeb resources. Presents a DeepWeb extraction method based on knowledge engineering. The page mode,HTML structure and visual features of DeepWeb are analyzed and integrated. Applies HTML DOM tree parsing algorithm to match the template accorded with page mode,HTML structure and object information source by automatic or semi-automatic way,locating the information in DeepWeb to obtain the free text,structured and semi-structured data. Using a large number of site data with nested structure as data source,the effectiveness of extraction method is verified.%DeepWeb中蕴含的信息越发庞大并且价值可观。但是由于DeepWeb信息的高度异构性、自主性、动态性以及不完整性,DeepWeb主题性网站的设计风格、页面结构、显示内容的不同,JavaScript技术的广泛使用等因素,使传统的抽取技术无法有效自动化集成蕴含在DeepWeb中的高质量信息资源。提出一种基于KBE(知识工程)的DeepWeb信息抽取方法。通过对目标DeepWeb的页面模式、页面HTML结构、页面视觉信息等进行分析、整合,利用HTML DOM ( Document Object Model)树解析算法,自动或半自动方式匹配出符合页面模式、页面HTML结构以及目标信息源等元素的模板,来对Deep-Web中的信息进行定位,从而得到页面中的自由文本,结构化和半结构化数据。实验以大量嵌套结构的网站数据作为数据来源,验证了抽取方法的有效性。
    • 鲜学丰; 崔志明; 赵朋朋; 方立刚; 杨元峰; 顾才东
    • 摘要: 针对数据源新产生数据记录的增量爬取问题,提出了一种deep Web新数据发现策略,该策略采用一种新的属性值序列图模型表示deep Web数据源,将新数据发现问题转化为属性值序列图的遍历问题,该模型仅与数据相关,与现有查询关联图模型相比,具有更强的适应性和确定性,可适用于仅仅包含简单查询接口的deep Web数据源.在此模型的基础上,发现增长节点并预测其新数据发现能力;利用互信息计算节点之间的依赖关系,查询选择时尽可能地降低查询依赖带来的负面影响.该策略提高了新数据爬取的效率,实验结果表明,在相同资源约束前提下,该策略能使本地数据和远程数据保持最大化同步.
    • 孙璐; 陈军华; 廉德胜
    • 摘要: 随着Web数据库的不断增长,大量网络信息通过普通搜索引擎难以满足用户的需求,需要用户提交表单查询并从后台数据库中返回结果页面才能获取到想要的信息,称为Deep Web.因此如何有效地抽取这些实体信息成为一个值得研究的问题.论文通过分析Deep Web结果页面的特点,结合人的视觉特征,提出了一种基于视觉特征的Deep Web信息抽取方法.该方法充分利用了人的视觉特征,在解析器将Web文档解析成语法树之前,将Web页面一些与主题无关的信息(例如导航栏、广告)等去除,并对优化后的DOM树利用VIPS算法对其进行语义分块,分块后根据位置特征首先寻找到基准视觉块,以该基准视觉块作为中心位置逆序和顺序遍历DOM树寻找所有相似的视觉块并对其进行抽取.从实验效果来看,该方法从提取信息速度和提取信息的准确率和完整率方面与传统方法相比都有一定的提高.
    • 陈丽君
    • 摘要: 针对权重边剪枝(WEP)方法在准确率和匹配效率等方面的不足,通过引入自匹配和归并概念,提出一种基于二次归并的Deep Web实体匹配方法.首先,提取各对象的属性值,并按属性值重组对象,使具有相同属性值的对象聚集在一起,实现块的有效划分;其次,计算块内各对象间的匹配度,并据此进行剪枝、自匹配检测、归并,输出初步类簇;最后,以初步类簇为基础,利用簇内对象间传递的消息以及对象属性相似值,进一步挖掘匹配关系,触发新一轮的类簇归并与更新.实验结果表明,与WEP方法相比,所提方法通过自匹配检测,自动区分匹配关系并采取合适的匹配策略,使归并过程逐渐精化,提高了匹配准确率;通过分块、剪枝,有效缩减了匹配空间,提高了系统运行效率.
    • 常甜甜; 陈军华
    • 摘要: 为了最大限度地获取Deep Web数据源信息,并对获取到的数据源信息进行分类,方便后续的数据源集成工作以及用户的检索使用,提出了一种基于数据库的实时的Deep Web数据源搜索框架,该模型在本地服务器上设计安装“数据源发现应用程序”模块,通过各搜索网站下载安装的“客户端数据源应用程序”模块实现数据信息的对接和实时传送.为了保证检索效率,利用知网结合同义词词林对各大被检索网站进行分类.
    • 赵兵; 郭才正
    • 摘要: [目的/意义]研究和挖掘Deep Web对于提高搜索覆盖率和准确率有着非常重要的意义.[方法/过程]介绍了DeepWeb的定义、规模、类型,Deep Web搜索引擎的工作原理、研究现状,以及传统搜索引擎如Google、百度等针对Deep Web采取的策略.[结果/结论]利用Deep Web搜索引擎对深网信息进行挖掘是当前许多传统搜索引擎的努力方向.
    • 谭涛; 谭乐婷; 张刚园
    • 摘要: Deep Web is becoming a hot research topic in the area of database. Most of the existing researches mainly focus on Deep Web data integration technology. Deep Web data integration can partly satisfy people's needs of Deep Web information search, but it cannot learn users’interest, and people search the same content online repeatedly would cause much unnecessary waste. According to this kind of demand, this paper introduced personalization recommendation to the Deep Web data query, proposed a user interest model based on fine-grained management of structured data and a crawl technology based on the tree structure is presented, with the traversal method of tree to solve the information crawl problems in the personalization service distributed in various web databases. Finally, developed a prototype recommendation system and verified the efficiency and ef-fectiveness of the personalization recommendation and the coverage and cost of Deep Web crawl through the experiment.%Deep Web蕴含海量的可供访问的信息,是数据库领域的研究热点。目前已有的多数研究主要集中在Deep Web数据集成的技术层面。数据集成虽然满足了对Deep Web信息查询的需要,但这样的查询不能学习用户的兴趣,造成时间和资源的浪费。针对这样的需求,本文将个性化推荐引入到Deep Web的数据查询中,提出了一种结构化数据细粒度管理的用户模型,和基于树结构的Deep Web爬取方案,用树的遍历方法解决了个性化服务中分布在各个Web数据库中信息爬取的问题。最后通过实验验证了个性化推荐的执行效率及Deep Web爬取的覆盖率。
    • 苟和平; 景永霞; 刘强
    • 摘要: Deep Web query interface classification is the main way to achieve access to Deep Web online databases. Based on the study of query interface features extraction and representation,the query interface features document in XML were built according to the feature position in Web page.Because the position of XML nodes were different,the classi-fication weight of the query interface features was also different,which can enhance classi-fication capability of effective feature. The final classification features were selected by using the information gain algorithm,and then KNN classification algorithm was used to re-alize the query interface classification. The experimental results show that the method can improve the efficiency about query interface classification.%Deep Web查询接口分类是实现Deep Web在线数据库分类访问的主要方法,本文在研究查询接口特征数据抽取和表示的基础上,通过对查询接口所在Web页的位置来构建对应的接口特征XML文档,根据XML文档中的节点位置不同,分别为不同的查询接口特征赋予不同的分类权重因子,以提高有效特征的分类能力,并采用信息增益算法实现最终分类特征的选择,然后采用KNN分类算法实现查询接口分类,实验结果表明此方法的实际可行性。
  • 查看更多

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号