首页> 中文学位 >文本OLAP维度获取与度量计算技术研究
【6h】

文本OLAP维度获取与度量计算技术研究

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景

1.2 相关技术概况

1.3 当前知名研究成果

1.4 本文的工作

1.5 本文组织结构

第2章 问题实例及文本OLAP框架

2.1 应用场景

2.2 文本OLAP框架

2.2.1 语义维

2.2.2 维度获取

2.2.3 度量计算

2.3 本章小结

第3章 文本和语义网络

3.1 引言

3.2 相关研究

3.2.1 语义网络的逻辑表示

3.2.2 语义网络的物理表示

3.2.3 转换工具概述

3.3 文本转换为语义网络

3.4 本章小结

第4章 维度获取

4.1 引言

4.2 相关研究

4.3 维度获取辅助方法

4.4 文档向维成员的分布

4.4.1 近义实体

4.4.2 语义相似度算法

第5章 度量计算

5.1 引言

5.2 度量的具体形式

5.3 计算

5.3.1 基础单元格度量计算

5.3.2 单元格聚合计算

5.4 典型应用类型

第6章 总结与展望

6.1 总结

6.2 未来的工作

参考文献

致谢

攻读学位期间发表的主要学术论文

展开▼

摘要

信息数据在现代生产和生活中越来越重要。数据仓库被大型企业及政府广泛用于存储和处理大规模数据。OLAP联机分析处理成为数据仓库处理数据的一种有力工具。OLAP技术能够对数据在不同维度上进行观察分析,为企业及政府等提供分析历史数据和预测未来趋势的功能。
   信息数据可大体分为结构化数据和非结构化数据。对于结构化数据,传统的数据处理方法比如关系型数据库已能够相当有效地分析处理。非结构化文本数据爆炸性地增长,常见的来源于Web页面,企业和政府业务积累的客户反馈等,其潜在的信息价值不亚于结构化数据,却没有相应有效的分析处理方法。
   如果能够将OLAP技术应用于分析非结构化文本数据,那么这种文本OLAP对非结构化文本数据的处理将变得直观有效。当前一些研究成果比如TextCube、Topic Cube等已在这个方向上做出贡献。它们也具有不同的原理和特性,有的归类为信息检索,有的是文本挖掘,有的是信息抽取。
   本文在研究现有文本OLAP成果基础上,在维度获取和度量计算两方面对文本OLAP进行了改进。本文利用工具将文本转换为语义网络这种中间形式,提出了用语义网络表示的语义维,用带权值语义网络表示的度量,以及语义维度成员搜集和维度树建立的辅助方法。本文还提出了一种语义网络相似度计算方法,以及使用带权值语义网络计算度量的方法。前者用来将原始文本映射到语义维成员,并为度量的典型应用提供支持;后者用来解决基础单元格度量生成及单元格度量合并的计算问题。
   本文提高了文本OLAP分析文本的准确度,减少了人工搜集文本维度值和建立维度树的工作量,使度量的表示及应用更加准确高效。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号