首页> 中文学位 >基于垂直主题搜索的交通术语相似性比对研究
【6h】

基于垂直主题搜索的交通术语相似性比对研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1本文研究背景

1.2 术语相似度计算国内外研究综述

1.3 本文研究目的及意义

1.4 本文的主要研究工作

第二章 术语相似度计算研究总体思路及基础关键技术

2.1 相似度计算研究总体思路

2.2 基础关键技术

2.3 需要进一步的改造工作

2.4 本章小结

第三章 基于交通主题的Heritrix的扩展及改进

3.1交通主题爬虫系统工作流程

3.2开发解析特定交通主题网站的解析器Extractor

3.3交通网页信息抓取测试

3.4本章总结

第四章 交通信息网页的解析与处理

4.1网页信息的一般分析策略

4.2实现交通信息网页的解析

4.3本章总结

第五章 构建交通信息的全文索引

5.1全文检索及其检索系统的概念

5.2 传统检索方式的优点和不足

5.3倒排索引机制

5.4评价信息检索系统索引的标准

5.5基于Lucene的索引架构

5.6交通主题信息的全文索引实现

5.7利用Luke索引浏览器实现完整的查询功能

5.8本章小结

第六章 交通术语相似度计算

6.1基于网络知识资源的术语相似度算法

6.2基于交通信息垂直检索系统的Web-PMI算法实现

6.3算法测评

6.4 本章小结

总结和展望

参考文献

致谢

攻读学位期间发表的论文与参与研究项目

展开▼

摘要

各研究领域内的名词和标准术语之间的相似度计算,是开展各个专业领域内的数据挖掘、自然语言处理的前提和基础。Web-PMI是一种基于搜索引擎的命中数计算术语相似度的算法,利用搜索引擎对术语检索的返回命中数就可以对术语对的相似性进行量化地计算。但基于大型的通用搜索引擎对特定的领域限定术语检索命中数不足,这往往对术语的相似度计算造成影响,本文旨在通过建立交通主题的垂直搜索引擎系统,提高术语检索命中效果,从而提高术语相似度的计算精度目的。
  论文首先研究并实现了基于交通主题的垂直搜索引擎的构建。其主要工作是在交通领域内对包含交通术语的网页进行抓取,论文在开源爬虫程序Heritrix项目的架构下自主开发了交通主题的网页抓取程序,实现了交通主题限定的网页抓取。
  其次完成了对抓取的网页信息进行格式解析,过滤掉网页中的冗余信息,构建了检索系统的索引库。本文建立的索引库是在开源Lucene条件下编写索引程序,对解析后的交通主题网页建立有序的索引,并能实现交通术语在索引库中的全文检索,检索后返回术语在索引库中具体的命中数值。
  最后利用Web-PMI算法进行交通标准术语的相似度计算的实验,在算法中重新构造了基于交通术语的检索式,加入检索运算符,减少检索结果中的歧义发生,提高检索结果的领域相关度,提升算法效果。对实验结果进行分析,改进后检索式提升了术语的检索命中数,消除了一定的术语偶然共现情况对术语相似度计算的效果影响。
  本文提出的方法,在“交通信息一致性检测研究”项目中进行了应用,应用结果证明,基于本文建立的交通垂直主题的搜索引擎系统,对交通领域内的生僻术语进行相似度计算时能起到很好效果,较商业搜索引擎AltaVista的计算准确率也略高。本文提出的方法也同样适用于其他专业领域内术语相似度计算,同时也可对术语标准化、识别同义词与近义词、语义检索、术语标准类比检测等方面的工作进行有效地支持。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号