您现在的位置: 首页> 研究主题> Web信息抽取

Web信息抽取

Web信息抽取的相关文献在2004年到2022年内共计133篇,主要集中在自动化技术、计算机技术、信息与知识传播、科学、科学研究 等领域,其中期刊论文112篇、会议论文6篇、专利文献328435篇;相关期刊73种,包括现代图书情报技术、电脑知识与技术、计算机工程等; 相关会议6种,包括湖北省机械工程学会机械设计与传动专委会暨武汉市机械设计与传动学会第20届学术年会、第五届全国青年计算语言学研讨会(YWCL 2010)、2010国际信息技术与应用论坛等;Web信息抽取的相关文献由300位作者贡献,包括徐锐波、袁春风、路轶等。

Web信息抽取—发文量

期刊论文>

论文:112 占比:0.03%

会议论文>

论文:6 占比:0.00%

专利文献>

论文:328435 占比:99.96%

总计:328553篇

Web信息抽取—发文趋势图

Web信息抽取

-研究学者

  • 徐锐波
  • 袁春风
  • 路轶
  • 吴敏纲
  • 唐杰
  • 彭朝晖
  • 李庆忠
  • 王海涛
  • 邹腊梅
  • 黄宜华
  • 期刊论文
  • 会议论文
  • 专利文献

搜索

排序:

年份

    • 文鑫涛; 郑通彦; 王钟浩; 李华玥; 李晨曦; 吕文超
    • 摘要: 以中国大陆地区灾害地震目录为基础,选取2010-2019年灾害地震的互联网信息,提出基于百度搜索引擎的信息获取技术,并以"时间、地名、震级"为关键词,设计一套URL生成规则.使用该技术进行百度检索,得到前100个站点的主体文字信息,建立地震信息基础语料库,形成灾害地震的网络灾情信息获取方法;通过采用已有的停用词词库剔除无用信息,对爬取到的信息进行初步清洗工作,进一步深入挖掘隐含信息,探索灾害关联关系,为震后互联网灾情信息快速获取建立基础.
    • 杜洋; 王柯梦
    • 摘要: 为了提高web信息抽取过程中的语义深层次的理解和准确率,基于领域本体的web信息抽取技术应用的越来越广泛.本文介绍了信息抽取及领域本体的概念,总结国内学者对领域本体信息抽取相关方面的研究成果,最后展望了信息抽取的发展趋势.
    • 马汉达; 曹瑞; 谢诗帧
    • 摘要: 针对物流车货源信息自动抽取方法匮乏,手工构建繁琐且难于维护,物流信息抽取冗余且效率低下的问题,文中根据车货源页面结构特点,通过标签路径识别页面主体元素,并通过元素CLASS选择器自动构建抽取规则,提出了基于标签路径及CSS选择器的全自动抽取模板的构建方法,在一定程度上实现了物流车货源信息的自动化采集工作,降低了人工构建包装器的成本,保证了抽取规则的准确度,并通过搭建基于Scrapy-redis的分布式爬虫,实现物流信息的高效抽取,并将抽取的数据存储在MongoDB数据库中.实验表明自动生成的抽取规则可以替代人工构建的抽取模板,分布式抽取方式与传统单机抽取方法在抽取效率上有明显的提升.
    • 李丹
    • 摘要: 在对传统算法RoadRunner研究基础上,本文提出一种基于树型结构的包装器生成算法.在对训练样本进行匹配过程中,引入树型结构进行比较,算法运算效率明显提升,对迭代项和可选项的识别也更加精准.%Based on the research of the traditional RoadRunner algorithm, this paper proposes a wrapper generation algorithm based on tree structure. In the process of matching the training samples, the tree structure is introduced. The efficiency of the algorithm is improved obviously, and the recognition of iterative terms and options is more accurate.
    • 杨君雯; 王海; 彭鑫; 赵文耘
    • 摘要: 现代的软件开发集成开发环境(IDE)为开发者提供了错误提示、代码补全、代码分析、版本管理等多方面的辅助开发支持,大大提高了开发效率.同时,开发者在日常开发过程中还常常依赖于互联网获取代码样例、配置说明、错误处理等Web开发资源.由于需要频繁地在IDE和浏览器之间进行切换并通过各种方式进行信息检索,开发者往往需要在Web开发资源的获取上花费大量的时间和精力.为此,提出一种基于开发者开发行为分析和挖掘的Web信息资源推荐方法.该方法通过自动记录和抓取开发者在IDE中的代码浏览和修改等动作以及在浏览器中的页面浏览信息获取基础信息.在此基础上,该方法从所抓取的浏览器页面中抽取结构化的信息资源,并通过聚类和基于时间的关联分析确定IDE开发行为与Web信息资源之间的相关性,从而在开发者在IDE中执行开发任务时自动推荐相关的Web信息资源.最后通过一个实验分析初步验证了所提方法的有效性.%Modern integrated development environment (IDE) provides developers with a variety of tools,including error warning,code complementary,code analysis,version control management,etc.,to support software development and improve the developers'' efficiency.However,such tools are deficient,as much more information,such as code sample,configure manifest,and error handling,is needed during development,and frequently switching between Web browser and IDE costs time and effort.A Web information resource recommendation method was proposed,which is based on the analysis of developer''s behavior.The method extracts structured information including code samples from the developers'' browsing history,and classifies them through text clustering.At the same time,the developer''s behavior in the IDE was recorded.The relationship between WEB resources and developer''s behavior will be established so that similar information can be recommended when the same situation happens.At last,an experiments was conducted to demonstrate that our method can save developing time efficiently.
    • 王辉; 郁波; 洪宇; 肖仰华
    • 摘要: 为实现多领域海量网页信息的有效抽取,以中文知识图谱CN-DBpedia为基础设计Web信息抽取系统.基于知识图谱对网页数据项进行自动标注,建立具有容错能力的包装器归纳框架,从包含错误的标注集中归纳学习出正确的包装器.实验结果表明,该系统的准确率和召回率均高于传统人工标注方法,可显著降低网页信息抽取过程中的人力成本,灵活运用于大规模、多领域的网页信息抽取任务.%In order to effectively extract huge amounts of Web information in multiple fields,a Web information extraction system is designed based on Chinese knowledge graph,CN-DBpedia.Firstly,webpage data items with noise are automatically labeled based on knowledge graph.Then,correct wrappers are induced and learned from labeling sets with errors by a fault-tolerant wrapper induction framework.Experimental results demonstrate that,compared with traditional information extraction method by manual annotation,the proposed system has higher precision and recall rate.It can significantly reduce human participation during the extraction process and flexibly apply to large-scale webpage information extraction tasks in multiple fields.
    • 朱文琰; 郑肖雄
    • 摘要: 正则表达式作为信息抽取领域中的一种常用方法已经被广泛应用多年.然而构建高质量并且复杂度较高的正则表达式通常需要耗费大量人工成本,为此,提出一种基于正则表达式状态转换的算法来学习复杂正则表达式的构建过程.该算法需要给定输入初始正则以及正反例样本,初始正则表达式在经过析取分离与合并交叉两大类正则表达式状态转换之后,得到候选正则表达式集合,利用F值评估候选项的信息抽取效果,通过贪心的启发式策略选择一个最优正则表达式作为输出.在多种数据集上对算法进行测评.实验表明,该算法性能与准确度均优于常规的机器学习方法.尤其在较小规模训练集和跨数据集上依然有较好的效果.%As one of the main methods in the field of information extraction,the method based on regular expression has been widely used for many years.However,the construction of regular expressions is with high quality and high complexity,it is usually required to spend a lot of manual efforts.Therefore,a method based on regular expression state transition is proposed to learn the construction of complex regular expressions.The method takes in a given initial input RegEx and both positive and negative labeled samples,a collection of candidate RegEx is got after applying two main kind of regular expressions transformation on the input RegEx,based on F value assessment of the candidate RegEx on the information extraction task,the algorithm selects an optimal regular expressions as output by greedy heuristic strategy.The performance of this algorithm is evaluated on multiple datasets.Experiments show that the performance and accuracy of the proposed method outperforms those of the standard machine learning methods.And it still has a good effect on condition of small scale training set and cross domain data set.
    • 张力; 吴敏纲; 李昱
    • 摘要: 信息化时代陶瓷企业竞争面临着情报所带来的新问题,笔者基于Web信息抽取,研究了企业竞争情报系统结构体系.改进的竞争情报处理流程中增加了Web信息抽取子系统,这是陶瓷企业竞争情报系统能够实现智能化的基石.将陶瓷企业竞争情报的抽取子系统与分析子系统、服务子系统相结合,为陶瓷企业提供可靠的竞争情报服务系统.
    • 张力; 吴敏纲; 李昱
    • 摘要: 随着国际化日益深入,中国同外国的企业竞争加剧.获取情报成为竞争的焦点,基于Web的竞争情报系统逐步成为了企业搜集、分析情报的重要手段.Web信息抽取成为竞争情报系统的中心内容,在海量的Web信息中搜集有效信息是信息抽取的关键,并与后续的分析系统、服务系统共同组成竞争情报系统,为中国企业强化市场竞争提供数据支撑.
  • 查看更多

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号