基于Xpath的台职院新闻信息抽取系统的设计与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网技术的迅猛发展，因特网成为目前新闻信息最丰富最主要的来源。针对人们对Web新闻信息的需求，各类搜索引擎相继推出了相关的搜索服务。但是人们在使用搜索引擎进行信息检索时，总是会产生大量的信息垃圾或是冗余信息，因此为解决从网络中快速有效得获取信息，Web信息抽取技术应运而生。
　　本文在分析新闻网页的基础上，并分析了目前现有的信息抽取技术和XML技术，提出了一个基于XML技术的Web新闻抽取系统。该系统主要应用于台职院的二级网站，便于网站信息采集者及时获取各网站的新闻更新情况。
　　本系统主要能使用户能从海量信息的HTML页面中抽取出感兴趣的信息点，并转换成结构性和扩展性强的XML文档。它的最大优点就是，在Web信息抽取包装器生成过程中，用户能够快速定制构建良好的包装器，这使得整个系统具有较好的灵活性和高效性。
　　本文主要是充分运用XML中的XPath技术在数据定位方面的优势，并提出一种基于DOM树的XPath生成算法，使用XSLT语言用于描述抽取规则，并使用路径表达式XPath定位待抽取的信息点。
　　本系统与传统的人工采集相比较，不仅能缩减采集时间，节约大量人力物力，同时能减少人工采集中出现的错误、遗漏和偏差，为信息获取提供了一个方便高效的管理平台。

著录项

作者
阮娟;
展开▼
作者单位

浙江工业大学;

展开▼
授予单位浙江工业大学;
学科计算机技术
授予学位硕士
导师姓名梁荣华;
年度 2010
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP393.09;
关键词
数据挖掘; 信息抽取; 新闻抽取; 搜索引擎;

相似文献

中文文献
外文文献
专利

1. 基于XPath的新闻信息抽取系统设计与实现 [J] . 阮娟 . 智能计算机与应用 . 2015,第002期
2. 基于XPath的新闻信息抽取系统设计与实现 [J] . 阮娟 . 智能计算机与应用 . 2015,第002期
3. 基于XPath的Web信息抽取的设计与实现 [J] . 杨文柱 ,徐林昊 ,陈少飞 . 计算机工程 . 2003,第016期
4. 基于XPath和XSLT的农产品信息抽取系统 [J] . 王花 ,张阳 . 农机化研究 . 2010,第006期
5. 使用JTree和XPath构建动态网页信息抽取系统 [J] . 董旻 ,方曙 ,杨志萍 . 情报杂志 . 2007,第006期
6. 基于XPath的Web信息抽取 [C] . 徐林昊 ,杨文柱 ,陈少飞 . 第十九届全国数据库学术会议 . 2002
7. 基于Web的新闻信息抽取系统设计与实现 [A] . 雷佩莹 . 2008

基于Xpath的台职院新闻信息抽取系统的设计与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅