首页> 中文学位 >基于XML的藏文网页的信息抽取与转存技术研究
【6h】

基于XML的藏文网页的信息抽取与转存技术研究

代理获取

目录

文摘

英文文摘

第一章前言

第二章理论基础

第三章藏文网页采集

第四章藏文网页信息自动抽取技术

第五章藏文网页信息自动存储技术

第六章藏文网页信息抽取与转存系统的技术实现

第七章总结与展望

参考文献

在学期间研究成果

关于学位论文使用授权的声明及原创性声明

致谢

展开▼

摘要

本文是在参加国家863项目“基于网络媒体的藏文信息处理技术及其规范研究”(项目号:2003AA115530)的基础上完成的。 随着网络在藏族地区的迅速发展以及藏族人民受教育水平的逐步提高,目前以藏文形式发布的网页数目正在逐渐的增加。对于藏族文化的研究人员来讲,藏文网页已经成为收集信息的一个主要渠道,手工获取的繁琐使得如何利用计算机从藏文网页中自动获得有用的信息成为待解决的问题,因此信息抽取成为必要。 本文在对以往的汉文网页信息抽取技术的分析基础上,提出了针对藏文网页的信息抽取技术,并构造了藏文信息抽取与转存系统,系统基本上实现了藏文网页的自动采集,信息抽取与转存。 本系统提出了全自动信息抽取的方法:利用主信息块识别树自动进行主要信息块的识别,并训练生成主要信息块的抽取规则;利用N重后缀树自动进行页面重复信息模式提取;在主要信息块规则和重复模式规则的基础上自动获取文本信息点,利用信息项重复性和小型词典训练生成信息点抽取规则与存储规则。本文提出的自动化信息抽取和基于重复模式的信息项识别既满足了藏族文字的要求,又克服了以往汉文网页信息抽取系统的人工参与较多的问题。在网页采集与显示上也充分体现了针对藏文网页的处理特点。在论文中使用的抽取规则和存储规则是基于XML的Xpath技术与综合信息相合并的规则,即充分实现了对信息的准确定位,也较容易理解和修改。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号