首页> 中文学位 >房地产信息垂直搜索引擎技术研究
【6h】

房地产信息垂直搜索引擎技术研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1研究背景与意义

1.2搜索引擎的概述

1.3垂直搜索引擎的现状与发展

1.4论文的相关工作

第二章 垂直搜索引擎的相关技术

2.1页面下载技术

2.2网页信息结构化

2.3中文分词

2.4信息索引技术

2.5网页搜索结果排序技术

2.6本章小结

第三章 基于改进型Shark-Search算法的聚焦网络爬虫

3.1聚焦网络爬虫

3.2基于网页内容分析的算法

3.3基于链接聚类与隧道技术的Shark-Search算法的改进

3.4聚焦网络爬虫评价指标

3.5实验结果与分析

3.6本章小结

第四章 基于概率模型与词性标注的命名实体识别

4.1中文分词的技术难点

4.2中文分词算法介绍

4.3隐马尔可夫与词性标注

4.4中文分词的评测标准

4.5实验结果与分析

4.6本章小结

第五章 房地产垂直搜索引擎的设计与实现

5.1系统的开发环境

5.2设计思想

5.3系统的体系结构及业务流程

5.4系统各个模块的实现

5.5关键配置信息

5.6实验结果及分析

5.7本章小结

第六章 总结与展望

6.1本文总结

6.2未来工作展望

致谢

参考文献

附录

展开▼

摘要

由于计算机及网络的飞速发展,因特网上的信息量呈指数级增长。当使用通用搜索引擎来搜索相关的信息时,准确率越来越令人难以接受,有时候甚至访问了几十个页面都无法找到所需的内容,这对于一般人是无法接受的。面对这个问题,垂直搜索引擎应运而生。垂直搜索引擎的出现能够解决通用搜索引擎的领域性不足问题,对特定领域的搜索能够做到更加专注、更加深入、更加精确。
  本文课题是针对近年来房地产的现状,设计并实现了房地产垂直搜索引擎。其中重点研究垂直搜索引擎中的两个关键技术:网络爬虫和中文分词。本文的主要内容如下:
  (1)介绍了研究背景和意义、搜索引擎的概述以及垂直搜索引擎的国内外现状和发展。
  (2)介绍了垂直搜索引擎所涉及的相关技术,包括网络爬虫技术、网页信息提取技术、中文分词技术、信息索引技术和搜索结果排序技术。
  (3)深入研究了Shark-Search算法,分析其存在的两个不足之处:锚文本上下文不足和局部最优不足。针对这两个不足之处提出了改进,分别加入了链接聚类和隧道技术。链接聚类能够解决Shark-Search算法的锚文本上下文不足之处,而隧道技术则能够解决主题孤岛效应,从而避免局部最优问题。实验表明改进后的算法相比原来算法在抓取主题相关的页面上有显著提高。
  (4)研究了概率统计模型的一种——隐马尔可夫模型,并且将其和词性标注相结合,加入自定义状态和自定义标注,经过计算来确立最大概率的状态序列,从而能够有效地识别房地产命名实体。
  (5)结合前几章提出的理论,实现了房地产垂直搜索引擎系统,其中包括五大部分:网络爬虫、页面处理、中文分词、信息索引、信息搜索。
  (6)对论文做了全面的总结,并对未来的研究工作进行了展望。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号