封面
声明
目录
中文摘要
英文摘要
第1章 绪 论
1.1研究背景
1.2 研究现状
1.3论文主要工作
第2章 统计方法与规则相结合的分词算法
2.1 问题描述
2.2 隐马尔科夫模型
2.3 引入上下文信息的二元概率模型分词算法
2.3.1准备语料
2.3.2 基于EM算法的切分文本概率模型建立算法
2.3.3分词算法模型
2.4 环境搭建与实验分析
2.4.1环境搭建
2.4.2实验结果与常用分词算法的比较与分析
2.5 结语
第3章 基于朴素贝叶斯算法的主题爬虫实现
3.1问题描述
3.2 Heritrix架构分析
3.2.1架构介绍
3.2.2处理器链和边界部件
3.3 基于朴素贝叶斯的主题爬虫实现
3.3.1朴素贝叶斯算法
3.3.2朴素贝叶斯分类器的应用
3.4实验结果及分析
第4章 总结与展望
参考文献
致谢