首页> 中文学位 >非结构化数据采集和检索技术的研究和应用
【6h】

非结构化数据采集和检索技术的研究和应用

代理获取

目录

声明

摘要

第一章 绪言

1.1 研究背景及意义

1.2 国内外研究现状

1.3 主要研究内容

1.4 本文组织结构

第二章 理论基础及相关技术

2.1 非结构化数据

2.2 中文分词

2.3 倒排索引

2.4 全文检索

2.5 本章小结

第三章 全文检索技术的应用分析

3.1 需求概述

3.2 可行性分析

3.3 系统开发环境

3.4 本章小结

第四章 系统设计

4.1 系统结构设计

4.2 功能模块设计

4.3 数据库设计

4.4 本章小结

第五章 系统功能实现

5.1 公告栏数据的编辑、发布处理

5.2 非结构化数据的采集

5.3 分词算法的实现

5.4 实现非结构化数据的全文信息搜索

5.5 本章小结

第六章 扩展应用与性能比较

6.1 在技术交易平台中的应用

6.2 在针灸数据库中的应用

6.3 性能比较

6.4 本章小结

第七章 总结与展望

7.1 总结

7.2 展望

参考文献

攻读硕士学位期间发表的学术论文

致谢

展开▼

摘要

计算机信息化系统中的数据分为结构化和非结构化两类组织形式。非结构化数据是指没有预定义的组织方式或不便用二维数据结构表来表示的数据。事实上80%业务相关的信息都来源于非结构化数据文本。因此,对于非结构化数据采集和检索技术的研究已经从上世纪延续至今。随着因特网和Web应用的普及,信息无处不在,非结构化数据采集和检索技术仍然是一个值得研究和实践的课题。
   非结构化数据处理的基础是信息提取。只有提取了非结构化数据文本的关键信息,才能对信息作进一步的分析处理,使得非结构化数据得到有效利用。
   本文将城市安全生产监管信息系统的一个功能模块——通知/公文管理模块作为研究对象。利用开源程序库,对不同类型的非结构化文件进行关键信息提取,完成非结构化数据的采集,改变了人工录入数据信息的传统方式。对所采集的关键内容进行全文检索,使得非结构化数据的归档和检索成为安全生产监管信息系统中的一个重要应用功能。本文主要的研究工作概述如下:
   1)研究和利用开源库对公文/通知对应的文档进行解析和采集,得到相关公文/通知的关键信息。
   2)研究和实现分词算法,完成对关键字段的切分,并利用搜索框架建立关键字的倒排索引文件。
   3)建立图形用户界面,方便用户使用和完成信息检索。
   4)研究和描述了全文检索功能的扩展应用。
   本文作者研究、设计和实现的技术成果已在城市安全生产监管信息系统中得到成功应用。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号