文摘
英文文摘
声明
第一章引 言
1.1研究背景及意义
1.2发展现状
1.3主要研究内容
1.4本文的组织结构
第二章系统架构设计
2.1面向服务的体系结构
2.2面向服务的采集架构设计与分析
2.2.1采集策略配置
2.2.2采集算法研究
2.2.3正文抽取模型研究
2.2.4网页查重处理
2.3主要功能模块关系说明
2.4小结
第三章基于目录树的采集算法研究
3.1目录树采集算法的提出
3.2目录树采集算法设计与分析
3.2.1采集算法优劣的评价标准
3.2.2目录树采集算法的结构
3.2.3目录链接的提取
3.2.4有效目录链接的识别
3.2.5有效节点链接的提取
3.3目录树采集算法验证
3.4小结
第四章基于本体和可视化规则的抽取模型研究
4.1抽取模型结构
4.2基于领域本体的抽取规则
4.2.1领域本体分析
4.2.2领域本体库的建立
4.2.3基于领域本体的抽取
4.3可视化抽取规则
4.3.1可视化抽取规则
4.3.2可视化抽取规则分析
4.3.3可视化抽取规则实现
4.4抽取模型的实现
4.4.1本体与可视化规则的结合
4.4.2模型中定义的抽取规则
4.4.3模型验证
4.5小结
第五章系统实现与应用
5.1应用项目简介
5.2系统实现
5.2.1系统结构设计
5.2.2系统结构分解
5.2.3数据库结构设计
5.2.4系统安全性设计
5.3系统应用
第六章总结与展望
6.1本文的工作总结
6.2下一步的工作
参考文献
致 谢
在学期间发表的学术论文和参加科研情况
华北电力大学;
华北电力大学(北京);