封面
声明
中文摘要
英文摘要
目录
第一章 绪论
1.1 研究背景
1.2 网页信息抽取研究现状
1.3 论文的主要研究内容和组织结构
第二章 基于分块的新闻网页信息抽取算法
2.1 问题的提出
2.2 相关技术简介
2.3 网页噪音清洗
2.4 新闻内容抽取
2.5 实验
2.6 本章小结
第三章 基于分块的新闻网页信息抽取并行算法
3.1 问题的提出
3.2 多核计算机上网页文档划分方法
3.3 常规网页噪音清洗、网页分块和相同噪音块清洗并行算法
3.4 实验
3.5 本章小结
第四章 总结与展望
4.1 主要工作
4.2 贡献和创新
4.3 下一步研究工作
参考文献
致谢
攻读硕士学位期间参加的科研项目
攻读硕士学位期间发表的学术论文