首页> 中文学位 >半结构化药物数据智能分类技术研究与系统实现(全日制专业学位)
【6h】

半结构化药物数据智能分类技术研究与系统实现(全日制专业学位)

代理获取

摘要

随着信息存储技术和通讯技术的发展,各行业的信息量呈爆炸式增长,作为已有几千年历史的医药行业更是具有庞大的数据量。信息自动分类技术已成为人们获取有用信息不可或缺的工具,文本分类、邮件分类、网页分类等已取得显著成效,为很多行业的数据管理带来了极大的方便。为了实现药物数据的智能化管理,提高管理效率,本课题研究了如何把智能分类技术用于半结构化的药物数据处理,最后并设计实现了半结构化药物数据智能分类系统。
   通过对各种分词技术和分类技术的研究,并结合药物数据的特点,本课题借助IK分词思想,采用自动增量学习和人工增量学习相结合的增量式朴素贝叶斯分类模型实现了半结构化药物数据分类任务。本文的主要内容如下:
   借鉴一般的文本分类流程,本文首先给出了系统的总体分类架构,并对每个环节给予了理论及技术介绍。通过对各种分词方法的比较研究,结合药物数据的特点,本文在IK分词思想的基础上完成了中文药物名称分词,并对分词步骤、词典库的建立、算法时间复杂度给予了详细描述。
   通过对特征选择算法的深入分析,本文提出了一种既考虑类不相关词汇对分类的贡献又考虑特征项在类间分布情况的改进的期望交叉熵算法,实验证明改进的特征选择算法具有更好的选择效果。
   针对朴素贝叶斯模型不具有学习新实例的缺陷,并结合特征项在药物名称中的权重,本文提出了自动增量学习和人工增量学习相结合的加权增量式朴素贝叶斯模型。并阐述了具体的修正算法,包括分类器修正和特征项集合修正。
   最后本文实现了半结构化药物数据智能分类系统,本系统包括应用系统和维护系统两部分,并在一个语料库的基础上对上述两个系统进行了完整测试和性能分析。最后在ETL工具上对整体系统进行了实验验证,结果表明分类效果良好。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号