首页> 中文学位 >基于元数据的web信息提取方法研究
【6h】

基于元数据的web信息提取方法研究

代理获取

目录

文摘

英文文摘

1引言

1.1课题目的

1.2国内外研究状况

1.3基于元数据的web信息提取的难点

1.3.1文本的表示形式

1.3.2元数据标准及内容的确定

1.4本文应用价值

1.5内容安排

2.相关理论

2.1元数据简介

2.1.1元数据定义

2.1.2 web文本元数据的表示

2.2相关术语

2.2.1文本状态术语

2.2.2文本统计术语

2.2.3模糊论术语

3.语义性元数据项提取

3.1 web页面分析

3.2 web文本的表示

3.2.1文本段的表示

3.2.2文本句词的表示

3.2.3文本表示形式的实现

3.3简单语句向量空间的生成

3.3.1简单语句向量术语描述

3.3.2简单语句向量生成算法

3.4简单语句模糊相似矩阵的生成

3.4.1模糊相似矩阵相关术语描述

3.4.2模糊相似矩阵生成算法

3.5利用文本的矩阵表示提取语义性元数据项

3.5.1 DC.title题目提取过程:

3.5.2 DC.creater作者提取过程:

3.5.3 DC.subject主题词提取过程:

3.5.4 DC.type体裁算法设计和实现

4.DC.description内容元数据项提取

4.1内容元数据项提取考虑以下几点

4.2本文内容元数据项的特点

4.3利用简单语句向量空间提取DC.description元数据项

4.4矩阵及模糊论相结合提取内容元数据项

4.4.1内容元数据项提取总原则

4.4.2冗长句处理

4.4.3冗长段处理

4.4.4 DC.descripytion填写

5.系统及实验

5.1系统框图

5.2试验方法及结果

5.3 DC.description元数据项实验结果与分析

5.3.1平面聚类实验结果

5.3.2 c_均值聚类实验结果与分析

5.4题材试验结果与分析

6.结束语与展望

致谢

参考文献

附录

展开▼

摘要

该文为web数据中的文本数据建立了一种Dublin Core文本元数据表,将web文本这种非结构化数据结构化.Web文本元数据分为描述性元数据和语义性元数据,描述性元数据通过分析HTML源文件直接得到,该文的主要工作有以下四部分:1.对HTML源文件进行分析,将标记流和文本流分开,根据标记流,提取题目元数据项;根据文本流将文本形式化为一个矩阵模型,在矩阵模型基础上提取文本的作者元数据项.2.利用模糊数学的相关知识,为该文建立了文本状态模糊集与模糊相似矩阵,由此可提取文本的主题关键字元数据项;采用文本分类基本思想,提取题材元数据项.3.为了提取内容元数据项,首先,利用模糊相似矩阵对冗长句处理,形成内容候选句WHJ1;其次,在内容候选句WJH1中,利用模糊序贯决策论对冗长段进行处理,形成内容候选句WHJ2;最后,利用平面聚类和C_均值聚类算法对内容候选句集WHJ2进行聚类,然后将每一类中的相关性较小的句子剔除,最后形成文本内容元数据项.4.试验结果表明:该系统对语义性元数据项填写取得很好效果.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号