文摘
英文文摘
声明
1绪论
1.1课题的研究背景
1.2课题的意义
1.3国内外研究现状
1.3.1国外研究现状
1.3.2国内研究现状
1.4课题研究内容
2相关技术分析
2.1搜索引擎经典算法
2.1.1 PageRank算法
2.1.2 HITS算法
2.2基于Lucene的索引技术
2.2.1 Lucene的倒排索引方法
2.2.2 Lucene的索引建立模式
2.2.3 Lucene索引存储组织形式
2.3基于Lucene的检索技术
2.3.1 Lucene中的查询类
2.3.2检索结果的评分方法
3二手汽车交易信息垂直搜索引擎关键技术研究
3.1.防止“主题漂移”技术研究
3.2 Spider任务划分模式
3.3隐藏网页查询接口分析
3.3.1隐藏网页
3.3.2 HTTP GET隐藏网页接口分析
3.3.3HTTP POST隐藏网页接口分析
3.4网站分类及抓取算法
3.4.1格式1网站抓取算法
3.4.2格式2网站抓取算法
3.4.3格式3网站抓取算法
3.5信息抽取方法
3.5.1典型信息抽取算法
3.5.2正则表达式剖析
3.5.3本系统使用的正则表达式
3.6增量更新机制
3.6.1按时间更新
3.6.2按STOCK#更新
3.6.3按汽车其它内容更新
3.7相似二手汽车推荐方法
3.7.1基于TF-IDF的向量空间模型
3.7.2针对二手汽车交易信息的向量空间模型
3.7.3针对二手汽车交易信息的向量空间模型测试结果
4二手汽车交易信息垂直搜索引擎的设计与实现
4.1系统描述与需求分析
4.1.1系统描述
4.1.2系统参与者
4.1.3功能性需求分析
4.2系统硬件组成模型设计
4.3数据库设计
4.3.1二手汽车交易信息存储模式
4.3.2二手汽车交易信息属性的统一
4.3.3系统数据库设计
4.4系统功能模块设计与实现
4.4.1爬虫模块
4.4.2索引模块
4.4.3查询模块
4.4.4系统管理模块
4.5系统运行实例
4.6系统运行测试
5结论与展望
5.1结论
5.2工作展望
致 谢
参考文献
附录 A.作者在攻读硕士学位期间发表的论文