首页> 中文学位 >个性化Web商务信息融合关键技术研究
【6h】

个性化Web商务信息融合关键技术研究

代理获取

目录

文摘

英文文摘

图目录

表目录

第1章 绪论

1.1 研究背景

1.2 论文课题背景与主要工作

1.3 论文章节安排

第2章 相关技术及国内外现状

2.1 XML及其相关技术介绍

2.1.1 HTML、XML及XHTML

2.1.2 DOM模型

2.1.3 XPath

2.2 Hadoop相关介绍

2.2.1 Hadoop简介

2.2.2 Map-Reduce分布式计算模型

2.2.3 Hadoop分布式文件系统(HDFS)

2.3 国内外研究现状

2.3.1 WEB信息抽取技术

2.3.2 数据清洗研究

2.4 总结

第3章 基于DOM的动态Anchor-Hop模型

3.1 Anchor-Hop模型

3.1.1 相关概念

3.1.2 Anchor-Hop模型假设条件

3.1.3 Anchor-Hop模型应用举例

3.1.4 Anchor-Hop模型存在的问题

3.2 动态Anchor-Hop模型

3.2.1 相关概念

3.2.2 动态Anchor-Hop模型假设

3.2.3 动态Anchor-Hop模型算法

3.3 带权值的Anchor点匹配

3.3.1 权值来源及其用户配置

3.3.2 权值计算公式

3.3.3 Anchor点匹配算法

3.3.4 动态Anchor-Hop模型与用户的反馈设计

3.3.5 动态Anchor-Hop模型与Anchor-Hop模型的理论分析

3.4 实验及分析

3.4.1 信息抽取评价标准

3.4.2 实验环境

3.4.3 实验结果及分析

3.5 总结

第4章 数据校验与去重

4.1 数据校验

4.1.1 相关概念

4.1.2 已有研究

4.1.3 带反馈的数据校验

4.2 数据去重

4.2.1 相关定义及研究

4.2.2 SNM改进算法(SSNM)

4.2.3 SSNM算法的理论分析

4.2.4 基于Map-Reduce的SSNM算法

4.3 实验及分析

4.3.1 数据去重的评价标准

4.3.2 实验结果及分析

4.4 总结

第5章 钱塘个性化商务信息融合系统设计及实现

5.1 钱塘个性化商务信息融合系统

5.1.1 简介

5.1.2 系统体系结构

5.2 网络爬虫

5.3 信息抽取融合

5.4 信息检索及存储

5.4.1 信息检索

5.4.2 信息存储模块

5.5 系统运行结果

5.6 总结

第6章 总结与展望

6.1 论文总结

6.2 展望

参考文献

攻读硕士学位期间主要的研究成果

致谢

展开▼

摘要

随着互联网技术的不断发展,人们在使用互联网技术时不再仅仅满足于信息检索功能,而是需要系统从这些检索到的信息中抽取出用户感兴趣的信息。信息融合是帮助用户进行信息检索、信息抽取的系统,成为最近WEB数据处理领域的研究内容,具有广泛的应用前景。WEB信息融合过程中关键的技术主要有信息抓取、信息抽取、信息清洗融合、信息检索和存储等,论文结合课题组所承担的科技重大专项,聚焦信息抽取和信息清洗融合两项关键技术进行研究。
   首先介绍个性化行业商务信息推送服务项目信息融合模块的研究及课题背景,分析信息融合项目中信息抽取与数据清洗两项关键技术上存在的问题,主要表现在匹配准确性低、抽取效率不高以及数据质量低等,并介绍了论文的主要工作和章节安排。
   第二部分介绍了在信息融合项目中涉及的关键技术、模型、技术标准等。个性化行业商务信息融合项目是处理WEB海量数据,在系统实现时引入了分布式处理框架Hadoop实现数据的分布式处理,论文着重介绍了分布式框架Hadoop的相关情况。最后详细介绍了信息抽取及数据清洗技术的国内外研究现状。
   第三部分针对现有的Anchor-Hop模型基于内容和属性定位导致匹配效率低、匹配准确性较差等问题,在Anchor-Hop模型的基础上提出了基于DOM的动态Anchor-Hop模型,实验中抽取效率比Anchor-Hop模型快30%,抽取的准确性也高于Anchor-Hop模型。在数据清洗问题上,首先分析了数据校验的现有研究,确定信息融合系统使用的数据校验方法,提出基于数据校验结果对抽取系统可靠性进行反馈的思想。其次着重分析数据去重的SNM算法和基于编辑距离的字段匹配算法,在这两个算法的基础提出了改进算法SSNM。SSNM算法先对记录的关键词进行分词,接着对分词后得到的词组进行排序并组成新字符串,根据新字符串对记录进行排序,运用SNM算法进行重复记录检测。当计算记录间相似度时,通过新字符串计算编辑距离,实验结果显示SSNM算法在召回率上优于SNM算法。最后详细描述了基于Hadoop的分布式SSNM算法的设计和实现。
   最后详细介绍了信息融合系统的总体框架、各个子模块的功能和体系结构、各个子模块实现的关键技术等。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号