基于元数据的web信息提取方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

该文为web数据中的文本数据建立了一种Dublin Core文本元数据表,将web文本这种非结构化数据结构化.Web文本元数据分为描述性元数据和语义性元数据,描述性元数据通过分析HTML源文件直接得到,该文的主要工作有以下四部分:1.对HTML源文件进行分析,将标记流和文本流分开,根据标记流,提取题目元数据项;根据文本流将文本形式化为一个矩阵模型,在矩阵模型基础上提取文本的作者元数据项.2.利用模糊数学的相关知识,为该文建立了文本状态模糊集与模糊相似矩阵,由此可提取文本的主题关键字元数据项;采用文本分类基本思想,提取题材元数据项.3.为了提取内容元数据项,首先,利用模糊相似矩阵对冗长句处理,形成内容候选句WHJ1;其次,在内容候选句WJH1中,利用模糊序贯决策论对冗长段进行处理,形成内容候选句WHJ2;最后,利用平面聚类和C_均值聚类算法对内容候选句集WHJ2进行聚类,然后将每一类中的相关性较小的句子剔除,最后形成文本内容元数据项.4.试验结果表明:该系统对语义性元数据项填写取得很好效果.

著录项

作者
武琼;
展开▼
作者单位

山西大学;

展开▼
授予单位山西大学;
学科计算机软件与理论
授予学位硕士
导师姓名郑家恒;
年度 2003
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.13;
关键词
web信息提取; 元数据; 文本矩阵; 平面聚类; C_均值聚类;

相似文献

中文文献
外文文献
专利

1. 基于DOM和元数据的Web信息提取 [J] . 刘政怡 . 计算机与现代化 . 2003,第010期
2. 基于Web评论的用户个人信息提取方法研究 [J] . 邱云飞 ,王雪 ,刘大有 . 计算机应用与软件 . 2012,第005期
3. 一种基于信息熵的web信息提取的方法研究 [J] . 张云雷 . 科技资讯 . 2012,第022期
4. 一种基于文本样式的Web主题信息提取方法研究 [J] . 顾韵华 ,李佩 ,谢刚 . 计算机与数字工程 . 2009,第011期
5. 基于结构与内容的Web主要信息提取方法研究 [J] . 张文东 ,李伟 . 计算机工程与设计 . 2008,第024期
6. 基于多元数据和不同分类算法的遥感影像信息提取及精度评价——以祁连山东段为例 [C] . 别强 ,赵传燕 ,彭守璋 . 甘肃省遥感学会2009年学术会议 . 2009
7. 基于Web挖掘的中文电子图书元数据提取方法研究 [A] . 陈俊杰 . 2012

基于元数据的web信息提取方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅