基于XML的藏文网页的信息抽取与转存技术研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

本文是在参加国家863项目“基于网络媒体的藏文信息处理技术及其规范研究”(项目号：2003AA115530)的基础上完成的。随着网络在藏族地区的迅速发展以及藏族人民受教育水平的逐步提高，目前以藏文形式发布的网页数目正在逐渐的增加。对于藏族文化的研究人员来讲，藏文网页已经成为收集信息的一个主要渠道，手工获取的繁琐使得如何利用计算机从藏文网页中自动获得有用的信息成为待解决的问题，因此信息抽取成为必要。本文在对以往的汉文网页信息抽取技术的分析基础上，提出了针对藏文网页的信息抽取技术，并构造了藏文信息抽取与转存系统，系统基本上实现了藏文网页的自动采集，信息抽取与转存。本系统提出了全自动信息抽取的方法：利用主信息块识别树自动进行主要信息块的识别，并训练生成主要信息块的抽取规则；利用N重后缀树自动进行页面重复信息模式提取；在主要信息块规则和重复模式规则的基础上自动获取文本信息点，利用信息项重复性和小型词典训练生成信息点抽取规则与存储规则。本文提出的自动化信息抽取和基于重复模式的信息项识别既满足了藏族文字的要求，又克服了以往汉文网页信息抽取系统的人工参与较多的问题。在网页采集与显示上也充分体现了针对藏文网页的处理特点。在论文中使用的抽取规则和存储规则是基于XML的Xpath技术与综合信息相合并的规则，即充分实现了对信息的准确定位，也较容易理解和修改。

著录项

作者
李文博;
展开▼
作者单位

西北民族大学;

展开▼
授予单位西北民族大学;
学科工学计算机应用技术
授予学位硕士
导师姓名戴玉刚;
年度 2006
页码
总页数
原文格式 PDF
正文语种中文
中图分类信息处理（信息加工）;藏语;
关键词
信息抽取; XML; 信息块; 信息项; 后缀树; XPath; 藏文网页;

相似文献

中文文献
外文文献
专利

1. 基于XML的网页信息自动抽取 [J] . 周津 ,朱明 ,郑全 . 计算机应用 . 2004,第0z1期
2. 基于元数据和XML的信息抽取与集成技术研究 [J] . 亓祥波 ,南琳 ,张福顺 . 信息与控制 . 2008,第1期
3. 基于XML的信息抽取和多层向量空间技术研究 [J] . 仲华 ,崔志明 . 计算机技术与发展 . 2007,第007期
4. 基于XML描述的WEB信息抽取技术研究 [J] . 色菲 ,王佳 ,潘超 . 科技信息 . 2007,第034期
5. 基于模板的网页信息抽取技术研究 [J] . 杨一柳 . 渤海大学学报（自然科学版） . 2013,第003期
6. 基于单层扁平结构的XML网页信息抽取系统的研究与初步实现 [C] . 火善栋 ,朱南丽 ,黄青松 . 2005年昆明理工大学研究生学术交流年会 . 2005
7. 基于XML的网页信息抽取 [A] . 周津 . 2004

基于XML的藏文网页的信息抽取与转存技术研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅