Web中的非结构化文本信息管理元数据技术研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着Internet发展进程的加快，网络信息资源在数量上呈爆炸式增长。现有的搜索引擎大多是基于文本和关键字的通用检索，存在查询方式单一、查准率低、用户满意度差等诸多问题。为了解决这些问题，本文利用元数据对Web中非结构化文本进行描述性标记来达到提高信息检索质量的目的。本文的主要研究工作包括以下三个方面：其一，对Web中非结构化文本信息特点进行分析后，参考国内外各种网络信息资源元数据模型，完成了Web中非结构化文本信息元数据的标准化工作，并确定了元数据的核心集。其二，研究了Web中非结构化文本信息元数据的自动抽取技术。通过网络蜘蛛程序提取标题、URL、作者、日期等元数据。在对关键词元数据提取过程中，采用ICTCLAS中文分词系统，实现了分词系统的JAVA调用。对分词系统中N．最短路径的粗分模型进行了改进，通过过滤无覆盖型歧义切分结构的切分方案，使得剩余粗分结果数量大大减少。其三，在元数据标准的基础上，对如何有效的进行元数据的存储和资源搜索进行了深入的研究。基于元数据的搜索能提供比基于关键词的Web全文搜索引擎更为精确和语义更强的索引。本文实现了基于元数据的Web信息检索方法。

著录项

作者
刘晓星;
展开▼
作者单位

石家庄铁道大学;

石家庄铁道学院;

展开▼
授予单位石家庄铁道大学;石家庄铁道学院;
学科计算机应用技术
授予学位硕士
导师姓名刘明生;
年度 2007
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;文字处理软件;
关键词
Web; 元数据; 非结构化文本; XML; 中文分词; 文本信息管理; 信息检索;

相似文献

中文文献
外文文献
专利

1. 基于公共模型技术的非结构化元数据管理技术研究与应用 [J] . 王志强 ,江樱 ,王剑 . 工业仪表与自动化装置 . 2017,第006期
2. 信息系统中非结构化文本数据的输入技术研究 [J] . 杨喜敏 ,曾广平 . 微计算机信息 . 2006,第012期
3. 信息系统中非结构化文本数据的输入技术研究 [J] . 杨喜敏 ,曾广平 . 微计算机信息 . 2006,第04X期
4. WebGIS中的元数据与基于元数据的信息查询 [J] . 李勤爽 . 测绘标准化 . 2001,第001期
5. Web文本挖掘中数据预处理技术研究 [J] . 胡静 ,蒋外文 ,朱华 . 现代计算机（专业版） . 2009,第003期
6. 基于Web的网络信息管理中的技术研究——基于CORBA的目录服务的应用 [C] . 李晓东 ,阎保平 . 中国科学院计算技术研究所第六届计算机科学与技术研究生学术讨论会 . 2000
7. 面向非结构化文本的问答系统中答案抽取技术研究 [A] . 麻俊满 . 2019

Web中的非结构化文本信息管理元数据技术研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅