文摘
英文文摘
第1章 绪论
1.1 问题提出
1.2 国内外研究现状
1.2.1 信息提取技术简介
1.2.2 语义Web及本体简介
1.2.3 Web语义信息提取研究现状及成果
1.3 本文的研究目标与研究内容
1.4 本文的组织机构
第2章 模型设计
2.1 Web页面语义信息提取模型
2.2 主题Web信息的提取
2.3 文本聚类
2.3.1 文本聚类的意义
2.3.2 文本聚类的过程
2.4 语义信息提取相关技术
2.4.1 现有的网页信息提取实现方法
2.4.2 基于内容的语义信息提取
2.5 本章小结
第3章 Web页面预处理算法
3.1 网页预处理
3.1.1 主题内容提取算法的比较分析
3.1.2 语义信息提取环境下的Web页面预处理方法分析
3.1.3 噪音去除方法描述
3.1.4 包含语义信息DOM树的建立
3.1.5 以段落为单位的主题内容提取
3.2 主题内容提取算法
3.3 本章小结
第4章 Web页面的文本聚类方法
4.1 基于文本聚类的语义关键词生成
4.1.1 文本聚类在语义关键词生成过程中的作用
4.1.2 基于层次的文本聚类方法
4.1.3 凝聚层次聚类及其改进
4.2 改进的HAC算法
4.2.1 HAC基本算法
4.2.2 基于段落的HAC算法文本相似度度量
4.2.3 凝聚层次聚类的合并方法改进
4.3 本章小结
第5章 基于语义簇聚类的语义信息提取
5.1 语义簇聚类
5.1.1 词聚类概述
5.1.2 语义簇聚类概念的定义
5.1.3 语义簇相关度的计算方法分析
5.2 语义信息提取算法
5.3 本章小结
第6章 算法分析与评价
6.1 实验环境及数据集
6.2 实验结果及分析
6.3 本章小结
第7章 结论与展望
参考文献
致谢
攻硕期间参加的项目及发表的论文