首页> 中文学位 >Web中的非结构化文本信息管理元数据技术研究
【6h】

Web中的非结构化文本信息管理元数据技术研究

代理获取

目录

文摘

英文文摘

独创性声明及关于论文使用授权的说明

第一章引言

1.1本文研究的意义

1.2本文相关的研究项目

1.3本文的主要工作

第二章Web中的非结构化文本信息元数据的标准化

2.1国外元数据标准的研究

2.1.1艺术作品描述类目

2.1.2都柏林核心元素集

2.1.3编码档案描述

2.1.4联邦地理数据委员会

2.1.5政府信息定位服务

2.1.6电子文本编码标准

2.1.7视觉资料核心类目

2.2 Web中的非结构化文本信息特点分析

2.2.1 Web中的非结构化文本信息的定义及特点

2.2.2 Web中的非结构化文本信息著录单位

2.3 Web中的非结构化文本信息元数据标准的内容和作用

2.3.1标准的内容

2.3.2标准的作用

2.4 Web中的非结构化文本信息元数据著录规则

2.4.1著录资源的选择标准

2.4.2著录用文字与符号

2.4.3元素属性定义

2.4.4元素著录细则

2.5 Web中非结构化文本信息元数据标准的核心集

2.5.1核心集的内容

2.5.2核心集的属性

第三章Web中的非结构化文本信息元数据抽取

3.1基于元数据的Web文本信息检索模型

3.2网络资源收集模块

3.2.1网络蜘蛛工作原理

3.2.2程序关键模块

3.3网页文本信息提取

3.3.1正则表达式概述

3.3.2文本信息提取过程

3.4关键词元数据提取

3.4.1中文自动分词技术

3.4.2中科院中文分词系统

3.4.3对分词算法的改进

3.4.4关键词提取过程

第四章Web中的非结构化文本信息元数据存储与检索

4.1 XML和RDF存储的研究

4.1.1利用关系数据库存储XML

4.1.2利用Native XML数据库存储XML

4.1.3国外RDF存储的研究

4.2 Web中的非结构化文本信息元数据资源库的需求

4.2.1数据需求

4.2.2功能需求

4.2.3用户界面需求

4.2.4数据库的选择

4.2.5编程语言的选择

4.3 Web中的非结构化文本信息元数据资源库的系统模型

4.3.1 Tamino数据库

4.3.2系统模型

4.3.3 XML文档类型定义

4.3.4示例程序

4.3.5实验结果与分析

第五章总结和展望

5.1总结

5.2展望

参考文献

致谢

个人简历、在学期间的研究成果及发表的学术论文

展开▼

摘要

随着Internet发展进程的加快,网络信息资源在数量上呈爆炸式增长。现有的搜索引擎大多是基于文本和关键字的通用检索,存在查询方式单一、查准率低、用户满意度差等诸多问题。为了解决这些问题,本文利用元数据对Web中非结构化文本进行描述性标记来达到提高信息检索质量的目的。 本文的主要研究工作包括以下三个方面: 其一,对Web中非结构化文本信息特点进行分析后,参考国内外各种网络信息资源元数据模型,完成了Web中非结构化文本信息元数据的标准化工作,并确定了元数据的核心集。 其二,研究了Web中非结构化文本信息元数据的自动抽取技术。通过网络蜘蛛程序提取标题、URL、作者、日期等元数据。在对关键词元数据提取过程中,采用ICTCLAS中文分词系统,实现了分词系统的JAVA调用。对分词系统中N.最短路径的粗分模型进行了改进,通过过滤无覆盖型歧义切分结构的切分方案,使得剩余粗分结果数量大大减少。 其三,在元数据标准的基础上,对如何有效的进行元数据的存储和资源搜索进行了深入的研究。基于元数据的搜索能提供比基于关键词的Web全文搜索引擎更为精确和语义更强的索引。本文实现了基于元数据的Web信息检索方法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号