声明
致谢
摘要
第一章 绪论
1.1 研究背景、目的及意义
1.2 研究内容
1.2.1 课题来源
1.2.2 本文研究思路和主要研究内容
1.2.3 内容组织
1.3 本章小结
第二章 网页正文抽取相关研究
2.1 相关工作
2.2 网页正文抽取的难点
2.3 网页正文抽取的评价体系
2.4 本章小结
第三章 基于标签路径特征融合的在线Web新闻内容抽取方法
3.1 概述
3.2 DOM树与标签路径
3.3 标签路径特征系
3.4 标签路径特征融合
3.4.1 组合特征选择
3.4.2 组合特征融合
3.5 基于标签路径特征融合的在线Web新闻内容抽取
3.5.1 基于标签路径编辑距离的加权高斯平滑
3.5.2 自适应阈值设置与内容抽取算法
3.6 实验结果与分析
3.6.1 对比算法及实验数据集
3.6.2 实验结果分析
3.7 本章小结
第四章 基于长文本标签比的网页正文抽取方法
4.1 概述
4.2 正文子树
4.3 长文本标签比
4.4 网页正文抽取
4.4.1 长文本阈值设置
4.4.2 子树聚类与正文抽取
4.5 实验结果与分析
4.5.1 实验数据集
4.5.2 实验结果分析
4.6 本章小结
第五章 网页正文抽取算法在Web新闻聚合系统中的应用
5.1 概述
5.2 面向领域主题的Web新闻动态聚合系统
5.3 网页正文抽取算法在实际应用中的优势和局限性
5.4 本章小结
第六章 总结与展望
6.1 研究工作总结
6.2 展望
参考文献
攻读学位期间的学术活动及成果情况