首页> 中文学位 >基于用户反馈的多源非结构化数据集成研究
【6h】

基于用户反馈的多源非结构化数据集成研究

代理获取

目录

声明

摘要

图目录

表目录

第1章 绪论

1.1 课题背景

1.2 本文主要工作

1.3 本文组织结构

1.4 本章小结

第2章 相关研究综述

2.1 数据集成

2.1.1 数据源采样获取

2.1.2 数据源选择

2.1.3 结果合并

2.2 非结构化数据处理

2.2.1 文本数据处理

2.2.2 图像数据处理

2.2.3 非结构化数据存储和计算

2.3 用户反馈

2.3.1 反馈分类

2.3.2 用户反馈的方式

2.4 本章小结

第3章 基于用户反馈的多源非结构化数据集成框架

3.1 非结构化数据集成框架概述

3.2 主要功能模块

3.2.1 数据源注册

3.2.2 数据源选择

3.2.3 结果合并

3.2.4 用户反馈

3.3 用户反馈

3.3.1 用户反馈方式

3.3.2 用户可信度计算

3.3.3 简单用户反馈分值计算

3.3.4 聚类关键词

3.4 本章小结

第4章 基于用户反馈的数据源选择和结果合并

4.1 概述

4.2 数据源选择策略

4.3 查询与采样的相关度

4.3.1 数据源采样

4.3.2 查询与文档的相关度

4.3.3 查询与数据源采样的相关度

4.4 用户反馈中数据源的相关度

4.5 历史查询记录中的相关度

4.6 结果合并

4.7 本章小结

第5章 实验结果与分析

5.1 实验环境

5.2 测试数据

5.2.1 数据集

5.2.2 数据源数据生成

5.2.3 历史查询生成

5.2.4 用户反馈数据生成

5.3 评价指标

5.4 实验步骤

5.5 结果分析

5.6 本章小结

第6章 总结与展望

6.1 工作总结

6.2 未来展望

参考文献

攻读硕士学位期间主要的研究成果

致谢

展开▼

摘要

近年来,随着数字化的不断进步,人类社会的数据总量越来越大,这些数据已经成为一种有价值的战略资产,越来越受各国政府的重视。在此背景下,中国工程院于2012年启动了工程科技知识服务系统项目,目的是打通我国工程科技领域海量数据。让众多独立的工程科技数据源统一提供数据服务所面临的主要挑战有:由于分布式环境下的网络带宽的限制,普通的集成方式下数据访问效率较低;工程科技数据中非结构化数据占有较大比重,关系型数据处理方式无法兼容非结构化数据的查询处理等。本文基于工程科技知识服务系统的项目背景,对多源非结构化数据的集成技术进行了研究,提出了基于用户反馈的多源非结构化数据集成解决方案以提升集成框架的查询效率。
  本文的主要工作有:(1)归纳总结了国内外对数据集成和非结构化数据处理的技术研究,特别是文本和图像类型,并研究了用户反馈的理论和方法。(2)提出了基于用户反馈的多源非结构化数据集成框架,在传统的中间件模式数据集成架构基础上增加了用户反馈模块,通过用户可信度加权用户投票来比较各数据源在不同查询下的相似度,辅助数据源选择和结果合并。(3)结合数据源采样、历史查询记录和用户反馈设计实现了数据源选择算法和结果合并算法。最后,使用MIRFlickr数据集设计实验,观察新的架构和算法对查询效率的影响,验证其可行性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号