首页> 中文学位 >基于评论的博客搜索引擎的设计与实现
【6h】

基于评论的博客搜索引擎的设计与实现

代理获取

目录

封面

中文摘要

英文摘要

目录

1 绪 论

1.1课题背景及意义

1.2论文的主要工作

1.3论文的结构

2 相关技术

2.1搜索引擎工作原理概述

2.2搜索引擎的相关技术

2.3文本分类方法

2.4 Nutch开源软件

2.5本章小结

3 评论文本情感倾向性分析

3.1文本情感分析的研究现状

3.2 评论文本预处理

3.3评论文本分类

3.4实验以及结果分析

3.5本章小结

4 基于评论的博客搜索引擎的设计

4.1系统的框架设计

4.2信息资源抓取模块的设计

4.3信息资源预处理模块的设计

4.4索引建立模块的设计

4.5检索模块的设计

4.6检索结果排序设计

4.7小结

5 基于评论的博客搜索引擎的实现

5.1信息资源抓取模块实现

5.2信息资源预处理模块的实现

5.3索引建立模块的实现

5.4检索结果排序实现

5.5系统测试及其结果分析

5.6小结

6 总结与展望

致谢

参考文献

展开▼

摘要

博客又被称为网络日志,是一种个人信息的发布形式。从个人角度来说,博客是一种表达思想,以及与他人分享有价值资源的一种方式。随着博客用户的激增,越来越多的各行各业的人员利用博客进行广泛的交流、知识的共享。当今博客在人们获得资源的途径中占有重要位置。
  随着互联网的发展,各种应用都允许用户进行评论。用户的评论则直接体现了用户的情感倾向性。博客应用也不例外,用户总会在看到一篇高质量的博客时忍不住留下自己的敬佩之情。因此可以认为含有很多好评的博客是一篇优质的博客文章。本文通过分析博客文章评论的情感来优化博客搜索结果,使得用户在搜索相关博客时,搜索结果在相关度的基础上按照博客质量进行排序。本文主要工作如下:
  首先,需要准确的抓取博客的评论内容。由于一些博客网站的评论内容是由Ajax动态生成的,传统的网络爬虫不能完成动态页面的抓取工作,系统中采用phantomJS来改进传统的爬虫。为了从抓取到的网页中准确提取出来评论的内容,本文采用了一种基于特殊标识的最大DOM树算法。该算法可以准确地抽取出来网页中评论的内容。
  其次,准确提取到评论内容之后就可以进行情感倾向性分析。情感分析的目的是生成一个整体的评论得分,该得分作为搜索博客返回结果的排序依据。本文使用了文本分类的方法进行文本情感倾向性分析,并通过构建博客评论领域的情感词典和改进特征提取算法来提高文本分类的精度。
  最后,本文在Nutch开源软件的基础之上设计并实现了一个博客搜索引擎系统(CBlog)。Nutch系统本身只考虑了检索

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号