首页> 中文学位 >行业文献自动分析系统的设计与实现
【6h】

行业文献自动分析系统的设计与实现

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第1章 引言

1.1研究背景和意义

1.2国内外研究现状

1.3论文的研究内容

1.4文章的组织结构

第2章 文本挖掘技术与理论

2.1文本挖掘过程

2.2中文分词

2.3文档表示

2.4关键字提取相关技术

2.5文本挖掘技术归纳

2.6本章小结

第3章 系统核心技术研究

3.1文档解析方法研究

3.2 Lucene探究

3.3中文分词器

3.4 Lucene与分词器

3.5 Ansj与Lucene的关键字提取研究

3.6本章小结

第4章 系统设计

4.1设计目标

4.2总体需求

4.3系统总体设计

4.4数据库设计

4.5用户界面设计

4.6本章小结

第5章 系统实现

5.1开发环境

5.2 EOS开发平台

5.3系统主要配置

5.4系统主体模块的实现

5.5主要界面

5.6本章小结

第6章 总结与展望

6.1论文总结

6.2需要完善的地方和不足

致谢

参考文献

展开▼

摘要

数字化时代的发展使得大量信息涌现在人们面前,尤其是通过网络传播的电子信息。人们开始面临这样一个问题:信息利用率低,快速浏览海量信息难。如何快速有效的从大量信息中获取可用数据开始变得重要。实际上,人们无法通过阅读所有的电子信息来获取需要的信息进行分析,传统的信息获取技术只是简单的、非智能的查找,迫切需要信息压缩提炼工具来高效获取信息。而随着文本挖掘技术的发展,人们拥有了更多的信息获取方法和途径,尤其是文本解析、碎片化和信息检索技术。
  本文所阐述的行业文献自动分析系统就是以文本挖掘主流程为主线来进行设计实现的,论文提出了使用pdf2htmlEX碎片化PDF文档的方案;采用tesseract-OCR解决其不能解析图片文字的限制;并通过对文本集进行解析、分词处理、结构化分析和存储,最后实现了关键字抽取和带标注浏览。本文的研究重点侧重于文本解析、中文分词、信息检索和关键字提取技术上,系统采用兼容了MyEclipse的EOS开发平台开发,构建的主要模块有:文本管理模块、文本解析模块、文本分析模块和展示模块。最终得到一个关键字列表,用户可检索或直接在列表中点击浏览文献。
  本文对文本挖掘技术做了一定程度的总结归纳,对文档解析技术做了较为细致的研究;对目前流行的JAVA中文分词器做了对比实验并得出了相关结论;并对它们与Lucene的兼容性能做了比较实验和分析;对Ansj分词器和Lucene实现的关键字提取做了对比分析。本系统通过对PDF文件的解析,抽取PDF文本信息,通过结构分析和碎片化、分词索引、同义词归并最后抽取出文本关键字,实现对关键词的有效抽取和挖掘,系统最后将分析结果展示在可视化界面,用户可根据条件检索出相关关键字信息,实现了带标注的PDF文档浏览,为行业文献的深度分析和挖掘提供依据和服务。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号