行业文献自动分析系统的设计与实现

代理获取

页面导航

目录
摘要
著录项
引文网络
相似文献
相关主题

摘要

数字化时代的发展使得大量信息涌现在人们面前，尤其是通过网络传播的电子信息。人们开始面临这样一个问题：信息利用率低，快速浏览海量信息难。如何快速有效的从大量信息中获取可用数据开始变得重要。实际上，人们无法通过阅读所有的电子信息来获取需要的信息进行分析，传统的信息获取技术只是简单的、非智能的查找，迫切需要信息压缩提炼工具来高效获取信息。而随着文本挖掘技术的发展，人们拥有了更多的信息获取方法和途径，尤其是文本解析、碎片化和信息检索技术。
　　本文所阐述的行业文献自动分析系统就是以文本挖掘主流程为主线来进行设计实现的，论文提出了使用pdf2htmlEX碎片化PDF文档的方案；采用tesseract-OCR解决其不能解析图片文字的限制；并通过对文本集进行解析、分词处理、结构化分析和存储，最后实现了关键字抽取和带标注浏览。本文的研究重点侧重于文本解析、中文分词、信息检索和关键字提取技术上，系统采用兼容了MyEclipse的EOS开发平台开发，构建的主要模块有：文本管理模块、文本解析模块、文本分析模块和展示模块。最终得到一个关键字列表，用户可检索或直接在列表中点击浏览文献。
　　本文对文本挖掘技术做了一定程度的总结归纳，对文档解析技术做了较为细致的研究；对目前流行的JAVA中文分词器做了对比实验并得出了相关结论；并对它们与Lucene的兼容性能做了比较实验和分析；对Ansj分词器和Lucene实现的关键字提取做了对比分析。本系统通过对PDF文件的解析，抽取PDF文本信息，通过结构分析和碎片化、分词索引、同义词归并最后抽取出文本关键字，实现对关键词的有效抽取和挖掘，系统最后将分析结果展示在可视化界面，用户可根据条件检索出相关关键字信息，实现了带标注的PDF文档浏览，为行业文献的深度分析和挖掘提供依据和服务。

著录项

作者
杨慧;
展开▼
作者单位

武汉理工大学;

展开▼
授予单位武汉理工大学;
学科计算机应用技术
授予学位硕士
导师姓名岑丽;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
行业文献自动分析系统; 文本挖掘技术; 功能模块; 设计模式;

相似文献

中文文献
外文文献
专利

1. 湿地特征与变化信息r自动分析系统设计与实现 [J] . 陈超群 ,李远华 ,姜琦刚 . 国土与自然资源研究 . 2017,第003期
2. 胎儿电子监护自动分析系统的设计与实现 [J] . 孙海涛 ,童蕾 ,陈超敏 . 郑州大学学报（理学版） . 2016,第002期
3. 海洋环境监测数据自动分析系统的设计与实现 [J] . 谢先伟 ,毛红 . 舰船科学技术 . 2016,第6X期
4. 陶瓷片自动分析系统软件的设计与实现 [J] . 陈晓争 ,孙迎春 . 通信与广播电视 . 2001,第004期
5. 基于行业数字文献中心门户服务的设计与实现--以浙江建设职业技术学院校企合作信息服务为例 [J] . 邵黄芳 ,邵莉娟 ,谷松立 . 电子世界 . 2014,第016期
6. 应用文献计量学的高技术产业SWOT分析研究——以我国农药快速检测行业为例 [C] . 邢颖 ,董瑜 ,袁建霞 . 2015战略情报研究学术论坛 . 2015
7. 基于物联网的电子胎儿监护自动分析系统的设计与实现 [A] . 孙海涛 . 2017

行业文献自动分析系统的设计与实现

目录

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅