网页信息自动抽取技术的研究

胡少荣; 孟嗣仪; 刘云; 张彦超; 丁飞

首页> 中文期刊> 《铁路计算机应用》 >网页信息自动抽取技术的研究

网页信息自动抽取技术的研究

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

在网络舆情分析中,经常要从大量的网页信息中抽取出有用的数据.但一般的网页信息抽取技术都是基于对HTML文档的分析.本文提出网页信息自动抽取的方法,可以滤除网页噪声,快速准确地获取所需要的网页信息.该方法首先将HTML转换为结构化的XML文档,然后结合DOM4J和XPath语言建立网页解析模板库,最后根据模板的抽取规则对网页信息进行抽取.实验证明,该方法具有较高的回召率和查准率.

著录项

来源
《铁路计算机应用》 |2010年第9期|37-40|共4页
作者
胡少荣; 孟嗣仪; 刘云; 张彦超; 丁飞;
展开▼
作者单位

北京交通大学;

网络舆论安全研究中心;

100044;

北京交通大学;

网络舆论安全研究中心;

100044;

北京交通大学;

网络舆论安全研究中心;

100044;

北京交通大学;

网络舆论安全研究中心;

100044;

北京交通大学;

网络舆论安全研究中心;

100044;

展开▼
原文格式 PDF
正文语种 chi
中图分类计算机的应用;
关键词
自动抽取; 网页信息; 解析模板; XPath; 网络舆情;

相似文献

中文文献
外文文献
专利

1. 电商网页中商品规格信息自动抽取方法研究 [J] . 赵晓永 ,王磊 . 计算机工程与应用 . 2017,第024期
2. 基于模板法的网页英语试卷自动抽取技术的研究 [J] . 熊惠荟 ,欧阳君 . 计算机与数字工程 . 2009,第004期
3. 采用CRF模型的哈萨克语信息技术术语自动抽取技术研究 [J] . 木合亚提·尼亚孜别克 ,古力沙吾利·塔里甫 ,达吾勒·阿布都哈依尔 . 西北师范大学学报（自然科学版） . 2016,第001期
4. 面向领域的Web信息自动抽取技术研究 [J] . 陈建彪 . 计算机光盘软件与应用 . 2012,第024期
5. 基于xml的Deep Web信息自动抽取技术的研究 [J] . 彭媛媛 ,许建潮 . 科技信息 . 2009,第033期
6. 基于信息结构的突发事件文本事件信息自动抽取策略研究 [C] . 曾青青 ,杨尔弘 ,朱丹青 . 第五届全国青年计算语言学研讨会(YWCL 2010) . 2010
7. 网页信息的自动抽取方法研究 [A] . 王庆伟 . 2005

网页信息自动抽取技术的研究

摘要

著录项

相似文献

相关主题

期刊订阅