文摘
英文文摘
独创性声明及关于论文使用授权的说明
第一章引言
1.1本文研究的意义
1.2本文相关的研究项目
1.3本文的主要工作
第二章Web中的非结构化文本信息元数据的标准化
2.1国外元数据标准的研究
2.1.1艺术作品描述类目
2.1.2都柏林核心元素集
2.1.3编码档案描述
2.1.4联邦地理数据委员会
2.1.5政府信息定位服务
2.1.6电子文本编码标准
2.1.7视觉资料核心类目
2.2 Web中的非结构化文本信息特点分析
2.2.1 Web中的非结构化文本信息的定义及特点
2.2.2 Web中的非结构化文本信息著录单位
2.3 Web中的非结构化文本信息元数据标准的内容和作用
2.3.1标准的内容
2.3.2标准的作用
2.4 Web中的非结构化文本信息元数据著录规则
2.4.1著录资源的选择标准
2.4.2著录用文字与符号
2.4.3元素属性定义
2.4.4元素著录细则
2.5 Web中非结构化文本信息元数据标准的核心集
2.5.1核心集的内容
2.5.2核心集的属性
第三章Web中的非结构化文本信息元数据抽取
3.1基于元数据的Web文本信息检索模型
3.2网络资源收集模块
3.2.1网络蜘蛛工作原理
3.2.2程序关键模块
3.3网页文本信息提取
3.3.1正则表达式概述
3.3.2文本信息提取过程
3.4关键词元数据提取
3.4.1中文自动分词技术
3.4.2中科院中文分词系统
3.4.3对分词算法的改进
3.4.4关键词提取过程
第四章Web中的非结构化文本信息元数据存储与检索
4.1 XML和RDF存储的研究
4.1.1利用关系数据库存储XML
4.1.2利用Native XML数据库存储XML
4.1.3国外RDF存储的研究
4.2 Web中的非结构化文本信息元数据资源库的需求
4.2.1数据需求
4.2.2功能需求
4.2.3用户界面需求
4.2.4数据库的选择
4.2.5编程语言的选择
4.3 Web中的非结构化文本信息元数据资源库的系统模型
4.3.1 Tamino数据库
4.3.2系统模型
4.3.3 XML文档类型定义
4.3.4示例程序
4.3.5实验结果与分析
第五章总结和展望
5.1总结
5.2展望
参考文献
致谢
个人简历、在学期间的研究成果及发表的学术论文