首页> 中国专利> 基于词句分布表示的相似病例推荐系统及相应的方法

基于词句分布表示的相似病例推荐系统及相应的方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明涉及自然语言处理、信息检索和医疗数据挖掘等技术领域。尤其涉及一种应用于互联网问诊平台中的基于词句分布表示的相似病例推荐系统及相应的方法。本发明的系统包含数据模块、推荐模块、评估模块和在线模块；所述数据模块包含数据采集子模块、数据存储子模块、数据预处理子模块、分词子模块和词向量训练子模块；所述推荐模块包含决策子模块、语义相似度算法子模块、推荐排序子模块；所述在线模块包含推荐子模块和反馈子模块；数据模块将有效数据传送给推荐模块，推荐模块接收来自数据模块的数据和评估模块的指标，推荐相关病例，将推荐结果传递至在线模块；在线模块将推荐结果传递给用户，同时用户将推荐结果的反馈返回在线模块。

著录项

公开/公告号CN105653840A

专利类型发明专利
公开/公告日2016-06-08

原文格式PDF
申请/专利权人青岛中科慧康科技有限公司;
展开▼

申请/专利号CN201510969657.3
发明设计人赵一飞;王飞跃;施小博;
展开▼

申请日2015-12-21
分类号G06F19/00(20110101);
代理机构37222 山东清泰律师事务所;
代理人宁燕
地址 266109 山东省青岛市高新区火炬路100号盘谷创客空间D座206-7房间
入库时间 2023-12-18 15:42:25

法律信息

法律状态公告日

法律状态信息

法律状态
2019-01-04

授权

授权
2018-10-16

专利申请权的转移 IPC(主分类):G06F19/00 登记生效日:20180925 变更前: 变更后: 申请日:20151221

专利申请权、专利权的转移
2016-07-06

实质审查的生效 IPC(主分类):G06F19/00 申请日:20151221

实质审查的生效
2016-06-08

公开

公开

说明书

技术领域

本发明涉及自然语言处理、信息检索和医疗数据挖掘等技术领域。尤其涉及一种应用于互联网问诊平台中的基于词句分布表示的相似病例推荐系统及相应的方法，该系统能够利用互联网问诊平台资源优势，通过算法的改进和优化解决了词汇鸿沟问题，从语义层面实现互联网问诊平台相似案例的精准推荐。

背景技术

随着互联网的高速发展，互联网的接受程度越来越高。近年来，由于医疗资源紧张，看病贵、看病难等问题的不断出现，越来越多的人开始在网上查阅病情。互联网问诊平台是互联网在医疗领域的新应用。在线的问诊平台中，患者在平台的一端描述自己的病情症状，平台另一端的医生可以根据用户描述的症状及时地做出诊断，并且提供建议给患者，患者将医生回答的满意度反馈给系统。借助互联网问诊平台，医生和患者可以突破时间和空间限制，突破资源分配不均等限制。然而，许多患者面对的疾病和症状可能在此之前已有过相似的患者描述过并且已经得到了比较权威而且有效的解答。因此，将这些已经被医生回答且质量较高的相似病例自动推荐给患者作为参考有着重要的意义。一方面可以减少患者在线等待医生回复的时间，另一方面也可以使医生不必重复回答同一种疾病，同时也节省了医生的时间，节约了社会成本。

相似病例推荐，即根据在线用户中提交的病情描述，在庞大的历史数据库中匹配语义最相近的案例，将语义最相近的案例作为参考案例推荐给患者。所以，其核心任务是计算查询问题与历史问题之间的语义相似度。但是，自然语言提问方式的多样性和用户用词的差异性，给相似问题检索带来了巨大的挑战。两个语义相似的句子在语言表达形式和用词上可能完全不同，后者在自然语言理解领域，称之为词汇鸿沟(lexicalgap)问题。经过对现有技术文献的检索发现，目前有许多的国内外学者对计算语义相似度有了一定的研究，如向量空间模型、BM25模型等，但是这些模型无法很好地解决“语义鸿沟”问题。相比而言，Jeon等人提出的基于翻译的方法(translationbasedmethod) 在社区问答中得到了广泛的研究，并且实验结果表明，该方法可以有效解决词汇鸿沟问题。然而，实施基于翻译的方法所需的单语平行语料库不易获取，且大部分研究中假设问答对是平行语料库的做法并不实际。Wordembedding相关的工作在语义相关性方面有显著的成效，如何融合现有技术，实现真正意义上的语义匹配，搭建智能推荐系统，是优化相似病例推荐的关键。

发明内容

本发明的目的在于克服现有技术的不足，提供一种适用于互联网问诊平台的相似病例精准推荐系统及相应的方法，该系统可以根据患者对疾病症状的描述在历史病例数据库中找到相似病例并推荐给患者作为参考。本模型方法也可以推广到其他的应用场景，如知识问答平台、一般社区问答平台等。

为了实现上述目的，根据本发明的一方面，提出了一种基于词句分布表示的相似病例推荐系统。本发明的具体技术方案为：

一种基于词句分布表示的相似病例推荐的系统，包含数据模块 001、推荐模块002、评估模块003和在线模块004；所述数据模块 001包含数据采集子模块、数据存储子模块、数据预处理子模块、分词子模块和词向量训练子模块；所述推荐模块002包含决策子模块、语义相似度算法子模块、推荐排序子模块；所述在线模块004包含推荐子模块和反馈子模块；数据模块001将有效数据传送给推荐模块 002，推荐模块002接收来自数据模块001的数据和评估模块003的指标，推荐相关病例，将推荐结果传递至在线模块004；在线模块004 将推荐结果传递给用户，同时用户将推荐结果的反馈返回在线模块 004。

优化地，所述数据模块001通过数据采集子模块采集在线数据、通过数据存储子模块存储历史数据，通过数据预处理子模块和分词子模块将数据进行提取和去噪声等处理，并将数据转化成符合要求的格式，词向量训练子模块提供相似度计算所要求的词向量等数据；其中数据采集单元与在线模块004相连，实时采集在线提问和反馈等相关数据；分词功能子模块与词向量训练子模块和推荐模块002中的语义相似度算法子模块相连，按需求对存储数据进行分词；词向量训练模块与推荐模块中的语义相似度算法子模块相连，可将词句映射至多维连续空间，将词句分布表示成向量形式，并定期更新。词向量训练子模块利用历史病例数据库中的数据训练词句的分布表示，将词句映射分布至多维连续空间，以向量形式表示，通过自学习无监督的获取语义位置，并定期的训练和更新推荐模块中使用的词向量。

优化地，所述推荐模块002可挖掘历史病例数据，为在线提问推荐可参考性病例；其中，决策单元与评估模块003相连，根据其提供的评估指标，确定语义相似度算法的选择；语义相似度计算模块，根据数据模块提供的分布表示的词句向量等数据，结合相关模型算法，计算病例之间的语义相似性。决策过程子模块结合评价模块003的需求选择不同的算法模型；语义相似度算法子模块存储若干算法，用于计算两个病情描述Q和D语义相似度sim(Q，D)，其计算思路主要根据所述数据模块001提供的词句分布表示的向量，结合相关信息检索模型或相关策略，得到病例的语义相似性；推荐排序模块根据语义相似度算法模块执行结果，结合产品设计要求，确定最终推荐病例个数等，提供给在线模块004。

优化地，所述评估模块003用于根据需求设定相应指标并提供给推荐模块，供其算法选择做参考，其包括准确率、召回率、MAP值等。

优化地，所述在线模块004执行所述推荐模块的结果，同时实时为数据模块提供相关数据；其中推荐子模块将推荐病例传送给用户，用户将对推荐病例的反馈返回给反馈子模块。

为了实现上述目的，根据本发明的另一方面，提出一种相似病例推荐系统的使用方法，其具体技术方案为：

一种基于词句分布表示的相似病例推荐的系统的使用方法：其特征在于，该方法包含以下步骤：

步骤S1：数据模块采集实时病例信息，预处理后联合历史病例进行分词；

步骤S2：根据步骤S1的分词结果，进行词句的分布表示训练；

步骤S3：将步骤S1和步骤S2的结果按需传递至推荐模块；

步骤S4：评估模块按要求设定任务的评定指标，然后传递至推荐模块的决策子模块中；

步骤S5：推荐模块的决策子模块根据评定指标选取相关算法模型；

步骤S6：根据步骤S3和步骤S5的结果，推荐模块语义相似度计算子模块计算历史病例与当前病例之前的语义相似度；

步骤S7：推荐模块的推荐排序单元根据步骤S6的结果进行排序，并将结果传递至在线模块；

步骤S8：在线模块执行步骤S7的结果，并检测相关反馈数据传递至数据模块。

优化地，该方法还包含步骤S9、数据模块会定期从在线模块采集数据，定期更新数据库，定期训练更新词句向量。

本发明提供了一种基于词句分布表示的相似病例推荐系统及相应的方法，利用互联网问诊平台的大数据优势，通过大量的计算分析，深入挖掘医疗数据背后的潜在价值。利用互联网大数据做相似病例推荐，克服语言鸿沟，其核心是计算患者不同描述的语义相似性，将词句映射分布至连续空间，以多维向量表示，通过高维空间位置关系来获取词句相似性，最终实现了语义上进行相似病例的精准推荐。既减少了患者在线等待医生回复的时间，另一方面也可以使医生不必重复回答同一种疾病，同时也节省了医生的时间，节约了社会成本。

附图说明

图1：本发明实施例的相似病例推荐系统结构图；

图2：本发明实施例的相似病例推荐方法流程图；

图3：图1所示的相似病例推荐系统的数据模块的工作流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

本发明提出了一种基于词句分布表示的相似病例推荐系统，该系统可用于在线问诊平台的相似病例推荐。该系统一方面不断收集、处理问诊平台的相关数据，最大化的整合利用了现有资源、提高了互联网问诊的效率；另一方面通过推荐模块相关智能算法，从语义角度获取相关病例的相似度。

图1为根据本发明一实施例的相似病例推荐系统结构图。如图1 所示，所述系统包括数据模块001、推荐模块002、评估模块003、在线模块004，其中：

所述数据模块001的功能是为相似病例推荐系统提供数据采集、存储、预处理、分词等初步的信息处理，并提供词句分布向量训练等功能。该模块包含数据采集子模块、数据预处理子模块、数据存储子模块、分词子模块、词向量训练子模块等。数据采集子模块从互联网问诊平台中获取用户提交的当前病例数据和用户反馈等信息，并将返回的数据提交至数据存储子模块；数据预处理子模块过滤用户描述中的噪声信息以及其他与语义计算无关的信息；数据存储子模块存储经过预处理的信息，并且将已经获得医生解答并且得到高评价的历史患者提问D信息和医生回答信息A存储起来，在计算语义相似度的时候，负责将历史描述D从平台历史病例数据库中提取出来，和当前患者的病情描述Q一起传递给分词子模块；分词子模块通过分词算法将整段的句子切分成词语序列，分词的结果对后面的语义理解和相似度计算具有十分重要的意义和影响，分词子模块负责将连续的句子切分化成离散的词语，并且将结果传递给智能算法模块。

所述推荐模块002，主要用于对两个病情描述Q和D计算其语义相似度sim(Q，D)，该模块是本系统的核心模块，将相似度问题转换成条件概率的计算sim(Q，D)≈P(Q|D)，其方法包括但不限于以下两类算法模型：

模型一：基于词语分布表示的模型，将两个句子的相似度的计算转换成条件概率分布的计算，并进一步转换成词句的生成概率： sim(Q，D)≈P(Q|D)＝∏_w∈QP(w|D)。其中Q是用户提交的病情描述，D是历史数据库中已经得到医生回答的病情描述，w表示的句子中的词语。P(w|D)是条件概率，可以通过但不仅限于以下两种方法计算得到：

方法2.其特点在于，将条件概率P(w|D)表示成文本信息的统计特征， $P (w | D) = \frac{| D |}{| D | + λ} P_{m x} (w | D) + \frac{λ}{| D | + λ} P_{m l} (w | C o n l l),$ 其中，|D|是某条历史描述的长度； P_mx(w|D)＝(1-β)P_ml(w|D)+β∑_t∈Dsim(w,t)P_ml(t|D)，其中，β用于控制语义相似度对求条件概率的影响。该方法采用两个词之间的条件概率来代替其相似度。

模型二：基于句子分布表示的模型，其特点在于，将病情描述的句子映射到向量空间，将计算句子相似度问题转化为计算两个向量之间的距离问题，一般常用欧式距离或余弦相似度表示。用向量表示的句子相似度可以通过但不仅限于以下两种方法计算得到：

方法1.其特点在于，用户描述的句子向量由组成该句子的序列的词语向量构成，句子的向量会由着词语的顺序和内容不同而有差异。词语的向量可由随机梯度下降和反向传播算法得到，在固定的语料库中训练完成后的词语向量是固定的。在得到两个句子Q和D的向量和之后，计算两个句子的语义相似度sim(Q,D)，就可以表示为：

$s i m (Q, D) = \cos (\vec{Q}, \vec{D}) = \frac{Σ_{i = 1}^{n} \vec{Q_{i}} \times \vec{D_{i}}}{\sqrt{Σ_{i = 1}^{n} {(\vec{Q_{i}})}^{2}} \times \sqrt{Σ_{i = 1}^{n} {(\vec{D_{i}})}^{2}}}$

其中，n表示语义向量的维数，和分别表示当前用户病情描述和历史用户病情描述的句子向量的第i维。

方法2.其特点在于，将模型1中方法1的极大似然估计P_ml用 sim(w,D)代替，则P(w|D)＝(1-λ)sim(w,D)+λsim(w,Conll)，其中sim(w,D)表示词向量和句子向量之间的相似度即两个向量之间的余弦距离。则两个句子之间的相似度就可以通过条件概率计算。

所述评估模块003，主要用于根据不同的需求提供相关的评价指标，来评估整个系统的性能，指导算法模型的选取；常见的评价指标有MAP，准确率、召回率等。例如用于给用户的在线推荐，则需要较高的准确率；如果想尽可能挖掘某类病例，或了解平台问题分布情况，则召回率会更为合适。

所述在线模块004，其包括推荐子模块和反馈子模块，将002；反馈给001根据算法模块的计算结果，以相似度为指标，将历史数据库中的历史描述与当前用户提交的描述进行相似性对比之后，按照降相似度降序排列之后，取排名最靠前的历史案例作为推荐结果，这样就实现了从语义相似层面将最优的结果推荐给了用户。然后将用户对推荐结果的反馈用于系统的改进和优化。

图2为根据本发明一实施例的相似病例推荐方法流程图。如图2 所示，该方法包括以下步骤：

步骤S1，所述数据模块采集实时病例信息，预处理后联合历史病例进行分词，具体步骤如图3所示：