首页> 中国专利> 基于词句分布表示的相似病例推荐系统及相应的方法

基于词句分布表示的相似病例推荐系统及相应的方法

摘要

本发明涉及自然语言处理、信息检索和医疗数据挖掘等技术领域。尤其涉及一种应用于互联网问诊平台中的基于词句分布表示的相似病例推荐系统及相应的方法。本发明的系统包含数据模块、推荐模块、评估模块和在线模块;所述数据模块包含数据采集子模块、数据存储子模块、数据预处理子模块、分词子模块和词向量训练子模块;所述推荐模块包含决策子模块、语义相似度算法子模块、推荐排序子模块;所述在线模块包含推荐子模块和反馈子模块;数据模块将有效数据传送给推荐模块,推荐模块接收来自数据模块的数据和评估模块的指标,推荐相关病例,将推荐结果传递至在线模块;在线模块将推荐结果传递给用户,同时用户将推荐结果的反馈返回在线模块。

著录项

  • 公开/公告号CN105653840A

    专利类型发明专利

  • 公开/公告日2016-06-08

    原文格式PDF

  • 申请/专利权人 青岛中科慧康科技有限公司;

    申请/专利号CN201510969657.3

  • 发明设计人 赵一飞;王飞跃;施小博;

    申请日2015-12-21

  • 分类号G06F19/00(20110101);

  • 代理机构37222 山东清泰律师事务所;

  • 代理人宁燕

  • 地址 266109 山东省青岛市高新区火炬路100号盘谷创客空间D座206-7房间

  • 入库时间 2023-12-18 15:42:25

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-01-04

    授权

    授权

  • 2018-10-16

    专利申请权的转移 IPC(主分类):G06F19/00 登记生效日:20180925 变更前: 变更后: 申请日:20151221

    专利申请权、专利权的转移

  • 2016-07-06

    实质审查的生效 IPC(主分类):G06F19/00 申请日:20151221

    实质审查的生效

  • 2016-06-08

    公开

    公开

说明书

技术领域

本发明涉及自然语言处理、信息检索和医疗数据挖掘等技术领 域。尤其涉及一种应用于互联网问诊平台中的基于词句分布表示的相 似病例推荐系统及相应的方法,该系统能够利用互联网问诊平台资源 优势,通过算法的改进和优化解决了词汇鸿沟问题,从语义层面实现 互联网问诊平台相似案例的精准推荐。

背景技术

随着互联网的高速发展,互联网的接受程度越来越高。近年来, 由于医疗资源紧张,看病贵、看病难等问题的不断出现,越来越多的 人开始在网上查阅病情。互联网问诊平台是互联网在医疗领域的新应 用。在线的问诊平台中,患者在平台的一端描述自己的病情症状,平 台另一端的医生可以根据用户描述的症状及时地做出诊断,并且提供 建议给患者,患者将医生回答的满意度反馈给系统。借助互联网问诊 平台,医生和患者可以突破时间和空间限制,突破资源分配不均等限 制。然而,许多患者面对的疾病和症状可能在此之前已有过相似的患 者描述过并且已经得到了比较权威而且有效的解答。因此,将这些已 经被医生回答且质量较高的相似病例自动推荐给患者作为参考有着 重要的意义。一方面可以减少患者在线等待医生回复的时间,另一方 面也可以使医生不必重复回答同一种疾病,同时也节省了医生的时间, 节约了社会成本。

相似病例推荐,即根据在线用户中提交的病情描述,在庞大的历 史数据库中匹配语义最相近的案例,将语义最相近的案例作为参考案 例推荐给患者。所以,其核心任务是计算查询问题与历史问题之间的 语义相似度。但是,自然语言提问方式的多样性和用户用词的差异性, 给相似问题检索带来了巨大的挑战。两个语义相似的句子在语言表达 形式和用词上可能完全不同,后者在自然语言理解领域,称之为词汇 鸿沟(lexicalgap)问题。经过对现有技术文献的检索发现,目前有 许多的国内外学者对计算语义相似度有了一定的研究,如向量空间模 型、BM25模型等,但是这些模型无法很好地解决“语义鸿沟”问题。 相比而言,Jeon等人提出的基于翻译的方法(translationbasedmethod) 在社区问答中得到了广泛的研究,并且实验结果表明,该方法可以有 效解决词汇鸿沟问题。然而,实施基于翻译的方法所需的单语平行语 料库不易获取,且大部分研究中假设问答对是平行语料库的做法并不 实际。Wordembedding相关的工作在语义相关性方面有显著的成效, 如何融合现有技术,实现真正意义上的语义匹配,搭建智能推荐系统, 是优化相似病例推荐的关键。

发明内容

本发明的目的在于克服现有技术的不足,提供一种适用于互联网 问诊平台的相似病例精准推荐系统及相应的方法,该系统可以根据患 者对疾病症状的描述在历史病例数据库中找到相似病例并推荐给患 者作为参考。本模型方法也可以推广到其他的应用场景,如知识问答 平台、一般社区问答平台等。

为了实现上述目的,根据本发明的一方面,提出了一种基于词句 分布表示的相似病例推荐系统。本发明的具体技术方案为:

一种基于词句分布表示的相似病例推荐的系统,包含数据模块 001、推荐模块002、评估模块003和在线模块004;所述数据模块 001包含数据采集子模块、数据存储子模块、数据预处理子模块、分 词子模块和词向量训练子模块;所述推荐模块002包含决策子模块、 语义相似度算法子模块、推荐排序子模块;所述在线模块004包含推 荐子模块和反馈子模块;数据模块001将有效数据传送给推荐模块 002,推荐模块002接收来自数据模块001的数据和评估模块003的 指标,推荐相关病例,将推荐结果传递至在线模块004;在线模块004 将推荐结果传递给用户,同时用户将推荐结果的反馈返回在线模块 004。

优化地,所述数据模块001通过数据采集子模块采集在线数据、 通过数据存储子模块存储历史数据,通过数据预处理子模块和分词子 模块将数据进行提取和去噪声等处理,并将数据转化成符合要求的格 式,词向量训练子模块提供相似度计算所要求的词向量等数据;其中 数据采集单元与在线模块004相连,实时采集在线提问和反馈等相关 数据;分词功能子模块与词向量训练子模块和推荐模块002中的语义 相似度算法子模块相连,按需求对存储数据进行分词;词向量训练模 块与推荐模块中的语义相似度算法子模块相连,可将词句映射至多维 连续空间,将词句分布表示成向量形式,并定期更新。词向量训练子 模块利用历史病例数据库中的数据训练词句的分布表示,将词句映射 分布至多维连续空间,以向量形式表示,通过自学习无监督的获取语 义位置,并定期的训练和更新推荐模块中使用的词向量。

优化地,所述推荐模块002可挖掘历史病例数据,为在线提问推 荐可参考性病例;其中,决策单元与评估模块003相连,根据其提供 的评估指标,确定语义相似度算法的选择;语义相似度计算模块,根 据数据模块提供的分布表示的词句向量等数据,结合相关模型算法, 计算病例之间的语义相似性。决策过程子模块结合评价模块003的需 求选择不同的算法模型;语义相似度算法子模块存储若干算法,用于 计算两个病情描述Q和D语义相似度sim(Q,D),其计算思路主要根 据所述数据模块001提供的词句分布表示的向量,结合相关信息检索 模型或相关策略,得到病例的语义相似性;推荐排序模块根据语义相 似度算法模块执行结果,结合产品设计要求,确定最终推荐病例个数 等,提供给在线模块004。

优化地,所述评估模块003用于根据需求设定相应指标并提供给 推荐模块,供其算法选择做参考,其包括准确率、召回率、MAP值 等。

优化地,所述在线模块004执行所述推荐模块的结果,同时实时 为数据模块提供相关数据;其中推荐子模块将推荐病例传送给用户, 用户将对推荐病例的反馈返回给反馈子模块。

为了实现上述目的,根据本发明的另一方面,提出一种相似病例 推荐系统的使用方法,其具体技术方案为:

一种基于词句分布表示的相似病例推荐的系统的使用方法:其特 征在于,该方法包含以下步骤:

步骤S1:数据模块采集实时病例信息,预处理后联合历史病例 进行分词;

步骤S2:根据步骤S1的分词结果,进行词句的分布表示训练;

步骤S3:将步骤S1和步骤S2的结果按需传递至推荐模块;

步骤S4:评估模块按要求设定任务的评定指标,然后传递至推 荐模块的决策子模块中;

步骤S5:推荐模块的决策子模块根据评定指标选取相关算法模 型;

步骤S6:根据步骤S3和步骤S5的结果,推荐模块语义相似度计 算子模块计算历史病例与当前病例之前的语义相似度;

步骤S7:推荐模块的推荐排序单元根据步骤S6的结果进行排序, 并将结果传递至在线模块;

步骤S8:在线模块执行步骤S7的结果,并检测相关反馈数据传 递至数据模块。

优化地,该方法还包含步骤S9、数据模块会定期从在线模块采 集数据,定期更新数据库,定期训练更新词句向量。

本发明提供了一种基于词句分布表示的相似病例推荐系统及相 应的方法,利用互联网问诊平台的大数据优势,通过大量的计算分析, 深入挖掘医疗数据背后的潜在价值。利用互联网大数据做相似病例推 荐,克服语言鸿沟,其核心是计算患者不同描述的语义相似性,将词 句映射分布至连续空间,以多维向量表示,通过高维空间位置关系来 获取词句相似性,最终实现了语义上进行相似病例的精准推荐。既减 少了患者在线等待医生回复的时间,另一方面也可以使医生不必重复 回答同一种疾病,同时也节省了医生的时间,节约了社会成本。

附图说明

图1:本发明实施例的相似病例推荐系统结构图;

图2:本发明实施例的相似病例推荐方法流程图;

图3:图1所示的相似病例推荐系统的数据模块的工作流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,以下结合具 体实施例,并参照附图,对本发明进一步详细说明。

本发明提出了一种基于词句分布表示的相似病例推荐系统,该系 统可用于在线问诊平台的相似病例推荐。该系统一方面不断收集、处 理问诊平台的相关数据,最大化的整合利用了现有资源、提高了互联 网问诊的效率;另一方面通过推荐模块相关智能算法,从语义角度获 取相关病例的相似度。

图1为根据本发明一实施例的相似病例推荐系统结构图。如图1 所示,所述系统包括数据模块001、推荐模块002、评估模块003、 在线模块004,其中:

所述数据模块001的功能是为相似病例推荐系统提供数据采集、 存储、预处理、分词等初步的信息处理,并提供词句分布向量训练等 功能。该模块包含数据采集子模块、数据预处理子模块、数据存储子 模块、分词子模块、词向量训练子模块等。数据采集子模块从互联网 问诊平台中获取用户提交的当前病例数据和用户反馈等信息,并将返 回的数据提交至数据存储子模块;数据预处理子模块过滤用户描述中 的噪声信息以及其他与语义计算无关的信息;数据存储子模块存储经 过预处理的信息,并且将已经获得医生解答并且得到高评价的历史患 者提问D信息和医生回答信息A存储起来,在计算语义相似度的时 候,负责将历史描述D从平台历史病例数据库中提取出来,和当前 患者的病情描述Q一起传递给分词子模块;分词子模块通过分词算 法将整段的句子切分成词语序列,分词的结果对后面的语义理解和相 似度计算具有十分重要的意义和影响,分词子模块负责将连续的句子 切分化成离散的词语,并且将结果传递给智能算法模块。

所述推荐模块002,主要用于对两个病情描述Q和D计算其语 义相似度sim(Q,D),该模块是本系统的核心模块,将相似度问题转 换成条件概率的计算sim(Q,D)≈P(Q|D),其方法包括但不限于以下 两类算法模型:

模型一:基于词语分布表示的模型,将两个句子的相似度的计算 转换成条件概率分布的计算,并进一步转换成词句的生成概率: sim(Q,D)≈P(Q|D)=∏w∈QP(w|D)。其中Q是用户提交的病情描 述,D是历史数据库中已经得到医生回答的病情描述,w表示的句子 中的词语。P(w|D)是条件概率,可以通过但不仅限于以下两种方法 计算得到:

方法1.其特点在于,将条件概率P(w|D)表示成文本信息的统计 特征,P(w|D)=(1-λ)∑t∈Dsim(w,t)Pml(t|D)+λPml(w|Conll),其 中,λ是平滑参数,Pml(t|D)和Pml(w|Conll)可以利用极大似然估计来 计算,其体现的是历史描述的文本统计特征, #(w,Conll)表示词语w在历史记录中出现的次数,|Conll|是历史记录 条数。sim(w,t)是两个词语之间的相似度,两个词语的相似度越高, 则sim(w,t)的值越大,当w和t是同一个词语时,sim(w,t)的值为1。

方法2.其特点在于,将条件概率P(w|D)表示成文本信息的统计特 征,P(w|D)=|D||D|+λPmx(w|D)+λ|D|+λPml(w|Conll),其中,|D|是某条 历史描述的长度; Pmx(w|D)=(1-β)Pml(w|D)+β∑t∈Dsim(w,t)Pml(t|D),其中,β用 于控制语义相似度对求条件概率的影响。该方法采用两个词之间的条 件概率来代替其相似度。

模型二:基于句子分布表示的模型,其特点在于,将病情描述的 句子映射到向量空间,将计算句子相似度问题转化为计算两个向量之 间的距离问题,一般常用欧式距离或余弦相似度表示。用向量表示的 句子相似度可以通过但不仅限于以下两种方法计算得到:

方法1.其特点在于,用户描述的句子向量由组成该句子的序列的 词语向量构成,句子的向量会由着词语的顺序和内容不同而有差异。 词语的向量可由随机梯度下降和反向传播算法得到,在固定的语料库 中训练完成后的词语向量是固定的。在得到两个句子Q和D的向量 和之后,计算两个句子的语义相似度sim(Q,D),就可以表示为:

sim(Q,D)=cos(Q,D)=Σi=1nQi×DiΣi=1n(Qi)2×Σi=1n(Di)2

其中,n表示语义向量的维数,和分别表示当前用户病情描 述和历史用户病情描述的句子向量的第i维。

方法2.其特点在于,将模型1中方法1的极大似然估计Pml用 sim(w,D)代替,则P(w|D)=(1-λ)sim(w,D)+λsim(w,Conll), 其中sim(w,D)表示词向量和句子向量之间的相似度即两个向量之间 的余弦距离。则两个句子之间的相似度就可以通过条件概率计算。

所述评估模块003,主要用于根据不同的需求提供相关的评价指 标,来评估整个系统的性能,指导算法模型的选取;常见的评价指标 有MAP,准确率、召回率等。例如用于给用户的在线推荐,则需要 较高的准确率;如果想尽可能挖掘某类病例,或了解平台问题分布情 况,则召回率会更为合适。

所述在线模块004,其包括推荐子模块和反馈子模块,将002; 反馈给001根据算法模块的计算结果,以相似度为指标,将历史数据 库中的历史描述与当前用户提交的描述进行相似性对比之后,按照降 相似度降序排列之后,取排名最靠前的历史案例作为推荐结果,这样 就实现了从语义相似层面将最优的结果推荐给了用户。然后将用户对 推荐结果的反馈用于系统的改进和优化。

图2为根据本发明一实施例的相似病例推荐方法流程图。如图2 所示,该方法包括以下步骤:

步骤S1,所述数据模块采集实时病例信息,预处理后联合历史病 例进行分词,具体步骤如图3所示:

步骤S1:数据模块采集实时病例信息,预处理后联合历史病例 进行分词;

步骤S2:根据步骤S1的分词结果,进行词句的分布表示训练;

步骤S3:将步骤S1和步骤S2的结果按需传递至推荐模块;

步骤S4:评估模块按要求设定任务的评定指标,然后传递至推 荐模块的决策子模块中;

步骤S5:推荐模块的决策子模块根据评定指标选取相关算法模 型;

步骤S6:根据步骤S3和步骤S5的结果,推荐模块语义相似度计 算子模块计算历史病例与当前病例之前的语义相似度;

步骤S7:推荐模块的推荐排序单元根据步骤S6的结果进行排序, 并将结果传递至在线模块;

步骤S8:在线模块执行步骤S7的结果,并检测相关反馈数据传 递至数据模块。

步骤S9:数据模块会定期从在线模块采集数据,定期更新数据库, 定期训练更新词句向量。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号