首页> 中文学位 >基于网页的关键词提取技术研究及其在广告领域的应用
【6h】

基于网页的关键词提取技术研究及其在广告领域的应用

代理获取

目录

文摘

英文文摘

声明

第一章引言

第一节研究背景

1.1.1基于网页的关键词提取技术研究背景

1.1.2基于网页的广告关键词提取技术研究背景

第二节基于网页的关键词提取技术及其发展现状

1.2.1基于网页关键词提取技术理论基础

1.2.2基于网页的广告词关键词提取技术的发展现状

第三节本文立意与安排

第二章基于网页的广告关键词提取技术及实现

第一节AdsKEX系统结构

2.1.1 AdsKEX系统框架图

2.1.2 AdsKEX系统组成

第二节AdsKEX系统中的关键词提取技术

2.2.1 Html解析

2.2.2预处理

2.2.3关键词提取

2.2.4排名

2.2.5小结

第三章改进的AdsKEX系统设计与实现

第一节基于MainBlock的关键词提取技术

3.1.1 MainBlock的提出

3.1.2 Block分类方法

3.1.3分类器的选取

3.1.4 Block属性的选取

3.1.5网页Block分类实现

3.1.6训练数据模型

3.1.7 Decision Tree模型的错误率估计

3.1.8基于主观规则的MainBlock算法改进

第二节基于关键词细特征的改进

3.2.1关键词细特征的选取

3.2.2机器学习算法的选择

3.2.3关键词细特征的提取实现

第四章改进算法的实验

第一节实验的实现

4.1.1数据网页收集的标准

4.1.2对网页进行标记

4.1.3训练权重

4.1.4准确率计算

第二节实验结果分析

4.2.1训练权重

4.2.2 Top-n测试结果

4.2.3实验结论

第五章总结与展望

参考文献

致谢

展开▼

摘要

随着网络上大量信息以网页形式组织出现,如何更好的理解网页的内容,提取有用的信息,已经成为当今网络信息检索领域的核心问题之一。并且伴随着AdSense商业模式的出现,如何更好的理解网页中和广告相关的内容,提取与广告相关的信息,也已经成为网络信息检索领域一项新的研究课题。基于网页的广告关键词提取技术就就是针对这方面的研究和探索,它是关键词提取技术在网页和广告词领域的发展。 本文在对传统基于网页的关键词提取技术分析的基础上,从两个不同的方面对基于网页的广告关键词的提取技术进行了改进。第一种是基于 MainBlock的改进,它是根据网页本身结构的特点,把网页从对关键词所起到的作用上,把网页划分为不同的5个部分,去掉网页中对关键词提取起负作用的部分,保留起正作用的MainBlock部分,然后再从MainBlock中提取关键词。这种方法的提出是希望从最原始的网页上尽可能的过滤掉了对关键词提取其负作用的部分,从而提高关键词提取的准确率;第二种是基于关键词细特征(Multi-Feature)的改进,它是根据候选关键词本身的特点进行分析,并非从关键词的内容意义进行分析,而是结合每个候选关键词在网页中所处的位置和属性来分析,从而赋予了关键词更多更细微的特征属性,这样做的目的是希望使每一个候选关键词特征更加的丰富,在计算每一个候选词到关键词的概率上增加更多可以衡量的因素,从而从一定程度上保证了即使在某些特征上不能区分出真正的关键词和非关键词,但是在剩余的特征上,仍有可能帮助区分出它们,从而最终使关键词提取的准确率上得到提高。 实验证明,基于MainBlock的改进和基于关键词细特征的改进可以很好的提高网页中广告关键词提取的准确率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号