封面
声明
中文摘要
英文摘要
目录
1 绪论
1.1 研究背景
1.2 国内外研究现状
1.3 本文研究内容
2 算法设计
2.1 问题难点分析
2.2 HPXP算法
2.2.1 HPXP算法提出
2.2.2 算法任务并行化设计
2.2.3 算法数据并行化设计
2.3 算法实现
2.3.1 文档结构抽取阶段实现
2.3.2 标签详细解析阶段实现
2.3.3 负载均衡控制
2.4 本章小结
3 实验与分析
3.1 实验环境
3.2 结构抽取性能测试
3.2.1 不同线程数下结构抽取性能
3.2.2 不同文件大小的抽取结构性能
3.3 完整解析性能测试
3.3.1 不同结构抽取效率下的整体解析性能
3.3.2 不同标签详细解析效率下整体解析性能
3.4 与SAX方法的性能对比
3.5 整体解析的负载均衡情况
3.6 本章小结
4 全文总结
致谢
参考文献