首页> 中文学位 >基于命名实体的网页推荐算法研究
【6h】

基于命名实体的网页推荐算法研究

代理获取

目录

声明

摘要

第1章 引言

1.1 研究背景及意义

1.2 国内外研究现状

1.2.1 命名实体识别研究现状

1.2.2 网页推荐研究现状

1.3 研究内容

1.4 论文的组织结构

第2章 相关工作

2.1 命名实体识别

2.1.1 基于规则的方法

2.1.2 基于统计的方法

2.1.3 混合方法

2.2 网页推荐

2.3 eb日志预处理

2.3.1 数据清洗

2.3.2 用户识别

2.3.3 会话识别

2.3.4 路径补充

2.4 本章小结

第3章 面向用户需求的命名实体识别

3.1 词性转移修正策略

3.2 查询日志中命名实体的识别

3.2.1 查询日志中传统命名实体识别

3.2.2 查询日志中特殊命名实体识别及类型识别

3.3 文本中命名实体识别

3.3.1 条件随机域建模

3.3.2 标记集与特征函数表示

3.3.3 基于条件随机域的传统命名实体识别

3.3.4 文本中特殊命名实体识别

3.4 本章小结

第4章 基于命名实体的网页推荐

4.1 基于混合马尔科夫模型的网页推荐算法

4.1.1 用户访问路径获取

4.1.2 转移概率矩阵建立

4.1.3 转移概率矩阵改进

4.1.4 基于混合马尔科夫模型的预测算法

4.2 基于LDA特征选择的网页推荐算法

4.2.1 LDA算法

4.2.2 基于LDA的特征提取

4.2.3 基于LDA特征选择的推荐算法

4.3 本章小结

第5章 实验结果与分析

5.1 实体识别算法测试

5.2 基于混合马尔科夫模型的网页推荐实验

5.3 基于LDA特征选择的网页推荐实验

第6章 总结和展望

6.1 工作总结

6.2 未来工作展望

参考文献

致谢

展开▼

摘要

随着网络技术和计算机技术的飞速发展,网上的信息呈带宽的指数级增长。在这样一个信息量爆炸的社会中,人们希望通过网络获得大量信息,而搜索引擎就是在这样的背景下诞生与发展起来的。一般来讲,用户通过搜索引擎查询信息,虽然搜索引擎可以按照某种算法给出相关网页排序,但是有时并不能满足用户的查询请求。为了给用户提供满意的服务,从查询日志入手,分析用户的查询行为,提出了基于命名实体的网页推荐算法,给用户提供智能推荐,从而给出较好的推荐网页。
  本文从网络查询日志研究中发现,大量的查询中都或多或少的含有实体,这些实体分为传统命名实体和特殊命名实体。传统命名实体研究人名、地名和机构名;特殊命名实体研究与人类生活联系紧密的领域如TV、环境、经济、电影、医学、交通、IT和教育中具有特殊含义的实体。针对查询中和文档中的实体识别和类型识别,采用不同的方法,且对于查询中实体类型的识别采用三元组的概率形式。根据实体类型,相应地,对网页也进行了处理,将实体类型映射到网页类型,可以更好地提供网页推荐。本文提出了基于混合马尔科夫模型用于目录网页的导航链接和基于LDA特征选择的网页推荐算法用于主题网页推荐。根据当前用户的点击行为向其推荐8个以内的导航链接,这些推荐是根据含有同一实体的查询需求,在关键字匹配的情况下向用户推荐的,从而为用户减少了时间消耗和带宽消耗。因为一篇文档中存在很多主题,本文提出了基于LDA特征提取的网页推荐算法,通过采用LDA对文本建模,获得各个类别的子LDA模型,进而将文本分类,最后结合实体类型及查询词的匹配程度,向用户推荐网页链接。
  实验结果显示,基于混合马尔科夫模型的推荐算法,达到了比较满意的效果。基于LDA特征提取的网页推荐算法优于传统的推荐算法,很好地满足了用户的需求。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号