文摘
英文文摘
1引言
1.1课题目的
1.2国内外研究状况
1.3基于元数据的web信息提取的难点
1.3.1文本的表示形式
1.3.2元数据标准及内容的确定
1.4本文应用价值
1.5内容安排
2.相关理论
2.1元数据简介
2.1.1元数据定义
2.1.2 web文本元数据的表示
2.2相关术语
2.2.1文本状态术语
2.2.2文本统计术语
2.2.3模糊论术语
3.语义性元数据项提取
3.1 web页面分析
3.2 web文本的表示
3.2.1文本段的表示
3.2.2文本句词的表示
3.2.3文本表示形式的实现
3.3简单语句向量空间的生成
3.3.1简单语句向量术语描述
3.3.2简单语句向量生成算法
3.4简单语句模糊相似矩阵的生成
3.4.1模糊相似矩阵相关术语描述
3.4.2模糊相似矩阵生成算法
3.5利用文本的矩阵表示提取语义性元数据项
3.5.1 DC.title题目提取过程:
3.5.2 DC.creater作者提取过程:
3.5.3 DC.subject主题词提取过程:
3.5.4 DC.type体裁算法设计和实现
4.DC.description内容元数据项提取
4.1内容元数据项提取考虑以下几点
4.2本文内容元数据项的特点
4.3利用简单语句向量空间提取DC.description元数据项
4.4矩阵及模糊论相结合提取内容元数据项
4.4.1内容元数据项提取总原则
4.4.2冗长句处理
4.4.3冗长段处理
4.4.4 DC.descripytion填写
5.系统及实验
5.1系统框图
5.2试验方法及结果
5.3 DC.description元数据项实验结果与分析
5.3.1平面聚类实验结果
5.3.2 c_均值聚类实验结果与分析
5.4题材试验结果与分析
6.结束语与展望
致谢
参考文献
附录