任意网页的主题信息抽取研究

张儒清; 郭岩; 刘悦; 俞晓明; 程学旗

首页> 中文期刊>中文信息学报 >任意网页的主题信息抽取研究

任意网页的主题信息抽取研究

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

目前大部分的网页信息抽取方法都局限于某一类网页的提取,并没有进一步深入到适用于任意网页的抽取.针对这一问题,该文提出了一种基于融合机制的任意网页主题信息抽取框架,特点是通过"模板库匹配—基于模板抽取—网页分类—全自动抽取"四个步骤实现对模板无关的全自动抽取算法和基于模板的抽取算法的融合.实验显示,这种融合机制能促进抽取准确率的有效提高,从而最终建立起一个适用于任意网页的、具有实用价值的信息抽取框架.%Most of existing information extraction methods are focused on a specific type of webpages,rather than applicable to all webpages.In this paper,we propose a general framework based on fusion mechanism to enable the extraction of the theme information of all webpages.This framework combines the automatic information extraction strategy and the template detection strategy through four steps :template matching,template based extraction,web page classification and automatic extraction.The experiments show that the proposed strategy can lead to an addi-tional performance improvement in the precision of extraction.

著录项

来源
《中文信息学报》|2017年第5期|127-137|共11页
作者
张儒清; 郭岩; 刘悦; 俞晓明; 程学旗;
展开▼
作者单位

中国科学院计算技术研究所中国科学院网络数据科学与技术重点实验室,北京 100190;

中国科学院大学,北京100190;

中国科学院计算技术研究所中国科学院网络数据科学与技术重点实验室,北京 100190;

中国科学院计算技术研究所中国科学院网络数据科学与技术重点实验室,北京 100190;

中国科学院计算技术研究所中国科学院网络数据科学与技术重点实验室,北京 100190;

中国科学院计算技术研究所中国科学院网络数据科学与技术重点实验室,北京 100190;

展开▼
原文格式 PDF
正文语种 chi
中图分类信息处理（信息加工）;
关键词
任意网页; 主题信息; 网页分类; 实用价值;

相似文献

中文文献
外文文献
专利

1. 基于正文特征及网页结构的主题网页信息抽取 [J] . 段晓丽 ,王宇 ,谷静 . 计算机工程与应用 . 2012,第030期
2. 基于视觉特征的主题型网页信息抽取 [J] . 胡瑞 ,郭星 ,黄永聪 . 赤峰学院学报（自然科学版） . 2016,第006期
3. 基于节点类型标注的网页主题信息抽取方法 [J] . 谢方立 ,周国民 ,王健 . 计算机科学 . 2016,第0z2期
4. 基于模板的网页主题信息抽取模型 [J] . 黄荣 . 科技信息（学术版） . 2011,第004期
5. 基地模板的网页主题信息抽取模型 [J] . 黄荣 . 科技信息 . 2011,第004期
6. 基于模板的网页主题信息抽取 [C] . 冯少卿 ,都云程 ,施水才 . 第三届全国信息检索与内容安全学术会议 . 2007
7. 主题型网页的信息抽取技术研究 [A] . 欧杰 . 2011

任意网页的主题信息抽取研究

摘要

著录项

相似文献

相关主题

期刊订阅