首页> 中文学位 >中医药症状的中文分词与句子相似度研究
【6h】

中医药症状的中文分词与句子相似度研究

代理获取

目录

声明

摘要

图目录

表目录

第1章 绪论

1.1 课题研究背景和意义

1.2 相关研究工作

1.2.1 中医药基础设施研究工作

1.2.2 中医药知识获取研究工作

1.3 本文主要内容与贡献

1.4 本文组织结构

第2章 相关技术综述

2.1 概述

2.2 中医药症状数据

2.3 中文分词技术综述

2.3.1 概述

2.3.2 中文分词常见算法

2.3.3 中文分词技术难点

2.3.4 中文分词评价指标

2.4 中文句子相似度技术综述

2.4.1 概述

2.4.2 句子相似度计算方法

2.4.3 句子相似度计算难点

2.4.4 句子相似度评价标准

2.5 本章小结

第3章 中医药症状的中文分词研究

3.1 概述

3.2 频繁词库与分割词库的建立

3.3 基于双向条件概率和相对位置的症状分词算法

3.3.1 正向条件概率

3.3.2 逆向条件概率

3.3.3 相对位置

3.3.4 算法流程

3.4 实验结果与分析

3.5 本章小结

第4章 中医药症状的句子相似度研究

4.1 概述

4.2 词语相似度计算方法

4.2.1 字面相似度tl-舅t

4.2.2 语义相似度计算

4.2.3 融合的词语相似度计算方法

4.3 句子相似度计算方法

4.3.1 症状词语分级

4.3.2 融合词语相似性与词语重要性的句子相似度计算方法

4.4 实验结果与分析

4.5 本章小结

第5章 中医药数据挖掘平台设计与实现

5.1 概述

5.2 系统设计

5.2.1 设计思想

5.2.2 系统架构

5.2.3 系统运行流程

5.2.4 客户端模块设计

5.2.5 服务端模块设计

5.3 中医药算法的集成

5.3.1 算法集成步骤

5.3.2 算法集成实例

5.4 系统运行实现

5.4.1 开发环境

5.4.2 运行环境

5.4.3 实现结果

5.5 本章小结

第6章 总结与展望

6.1 工作总结

6.2 未来展望

参考文献

攻读硕士学位期间主要的研究成果

致谢

展开▼

摘要

中医药是中国传统医药,也是中华民族的文化瑰宝。随着医学技术的发展,中医药由于其整体性、动态性、辩证性等特征,越来越被人们重视。信息技术、人工智能的不断突破,也为中医药的发展提供了新思路。目前国家已将中医药信息化列在国家信息化发展战略纲要中。由于中医药信息化起步较晚、长期投入不足,中医药信息化的研究总体滞后。本文结合自然语言处理技术,对中医药信息化过程中的中医药症状,进行了深入的研究。重点研究了中医药症状分词和中医药症状句子相似度计算,具体贡献如下:
  1)研究了中医药症状的数据特征。在大量的观察实验和互联网搜索的基础上,将其总结成表达各异、理解不同、表述不清、单字成词、部分字词用法特殊、用字不规范、词典不完善这七大特征。
  2)研究了中文分词的主要算法、技术难点以及评价指标。分析了每种算法的优点和缺点。针对已有分词算法的不足和中医药症状数据的特征,设计了一种基于双向条件概率统计模型和相对位置的中医药症状分词算法。通过与互信息模型、二元文法模型、正向条件概率模型、双向条件概率模型比较,本论文的方法在准确率和召回率上分别较其他算法平均提高了13.39%和17.88%。
  3)研究了汉语句子相似度计算的主要算法、技术难点以及评价指标。分析了每种算法在中医药环境下的优缺点。改进了已有的词语相似度计算方法。提出了中医药症状词语的分级概念,按照症状词语的重要性将其分为六个等级。综合词语相似度和词语重要性两个指标,改进了原来的基于语义向量的句子相似度计算方法。新方法较传统的方法在句子相似度打分的准确性上提高了11%。
  4)为使中医药算法可以方便的被中医药领域的研究者使用,本文从中医药信息化角度出发,设计并实现了一个完整的、易用的、可扩展的中医药数据挖掘平台。该平台将所有算法看成一个算子,用户通过组合不同的算子来进行实验。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号