首页> 中国专利> 一种药物名称匹配方法和装置

一种药物名称匹配方法和装置

摘要

本发明提供的药物名称匹配方法和装置,该方法包括:训练得到电子病历语料集的词向量;利用所述电子病历语料集的词向量对药物名称编码抽取,得到药物实体词向量;对所述药物实体词向量进行相似比较,基于相似程度对同义药物名词进行归类。本发明提供的药物名称匹配方法和装置,直接用大量的电子病历数据训练词向量,从而克服了像药物名称这样的专有名词在通用语料集中出现频次较少的缺点。此外,在原有的经典工程特征基础上,加上了药物实体匹配特有的特征,提高了药物匹配的准确性。

著录项

  • 公开/公告号CN112711642A

    专利类型发明专利

  • 公开/公告日2021-04-27

    原文格式PDF

  • 申请/专利权人 阿里巴巴集团控股有限公司;

    申请/专利号CN201911018984.5

  • 发明设计人 仇伟;黄祥;陈漠沙;李林琳;司罗;

    申请日2019-10-24

  • 分类号G06F16/28(20190101);G06F16/36(20190101);G16H70/40(20180101);

  • 代理机构31243 上海百一领御专利代理事务所(普通合伙);

  • 代理人陈贞健;王路丰

  • 地址 英属开曼群岛大开曼资本大厦一座四层847号邮箱

  • 入库时间 2023-06-19 10:46:31

说明书

技术领域

本发明涉及信息技术领域,尤其涉及一种药物名称匹配方法和装置。

背景技术

随着近年来医疗信息化政策的不断颁布,医院的信息化建设也在不断的完善,已经积累了相当数量的电子病历数据,为神经语言程序学(NLP,Neuro-LinguisticProgramming)技术在医疗文本信息的落地提供了数据支持。而在其中,每个医院有着自己的药物命名知识库,对于药物的命名习惯及其体系有所不同,如甜杏仁与南杏仁、切诺与桉柠蒎肠溶软胶囊,实际上前后两者所指向的是相同的药物。倘若能够在不同医院的药物知识库中,把指向相同的药物实体匹配起来,消除了由于药物命名所带来的歧义,能够为后续跨医院,跨区域的病历分析、质检提供极大的支持。

发明内容

本发明的一个目的是提供一种药物名称匹配方法和装置,以解决对同义药物名称进行匹配的问题。

根据本发明的第一方面,提供一种药物名称匹配方法,包括:

训练得到电子病历语料集的词向量;

利用所述电子病历语料集的词向量对药物名称编码抽取,得到药物实体词向量;

对所述药物实体词向量进行相似比较,基于相似程度对同义药物名词进行归类。

进一步,本发明所述的药物名称匹配方法,所述药物实体词向量包括:药物学名词向量;

利用所述电子病历语料集的词向量对药物名称编码抽取,得到药物实体词向量的步骤还包括:

利用统一医学语言系统抽取得到所述药物学名词向量。

进一步,本发明所述的药物名称匹配方法,所述药物实体词向量包括:药物别名词向量;

利用所述电子病历语料集的词向量对药物名称编码抽取,得到药物实体词向量的步骤还包括:

得到药物别名的至少两个词向量;

从所述药物别名的至少两个词向量抽取欧式距离最小的向量作为所述药物别名词向量。

进一步,本发明所述的药物名称匹配方法,所述药物实体词向量包括:药物定义词向量;

利用所述电子病历语料集的词向量对药物名称编码抽取,得到药物实体词向量的步骤还包括:

选取药物定义信息;

将所述药物定义信息分词,得到至少两个标记;

对得到的所述标记编码,得到所述药物定义词向量。

进一步,本发明所述的药物名称匹配方法,对所述药物实体词向量进行相似比较的步骤包括:

将待比较的所述药物实体词向量输入全连接层,得到组成向量;

将所述组成向量与工程特征相关联;

将关联后所述组成向量输入归一化指数函数层,得到所述相似程度。

进一步,本发明所述的药物名称匹配方法,所述工程特征包括以下至少一项:药物科室、关联药物、上位词。

进一步,本发明所述的药物名称匹配方法,还包括:

获取用户搜索药品的搜索记录;

将所述搜索记录作为药物名称进行同义药物名词归类;

基于归类后的同义药物名称向用户推荐产品。

根据本发明的第二方面,提供一种药物名称匹配装置,包括:

训练模块,用于训练得到电子病历语料集的词向量;

编码抽取模块,用于利用所述电子病历语料集的词向量对药物名称编码抽取,得到药物实体词向量;

相似比较模块,用于对所述药物实体词向量进行相似比较,基于相似程度对同义药物名词进行归类。

进一步,本发明所述的药物名称匹配装置,所述药物实体词向量包括:药物学名词向量;

所述编码抽取模块包括:

药物学名子模块,用于利用统一医学语言系统抽取得到所述药物学名词向量。

进一步,本发明所述的药物名称匹配装置,所述药物实体词向量包括:药物别名词向量;

所述编码抽取模块包括:药物别名子模块;

所述药物别名子模块用于:

得到药物别名的至少两个词向量;

从所述药物别名的至少两个词向量抽取欧式距离最小的向量作为所述药物别名词向量。

进一步,本发明所述的药物名称匹配装置,所述药物实体词向量包括:药物定义词向量;

所述编码抽取模块包括:药物定义子模块;

所述药物定义子模块用于:

选取药物定义信息;

将所述药物定义信息分词,得到至少两个标记;

对得到的所述标记编码,得到所述药物定义词向量。

进一步,本发明所述的药物名称匹配装置,所述相似比较模块包括:

全连接层子模块,用于将待比较的所述药物实体词向量输入全连接层,得到组成向量;

工程特征子模块,用于将所述组成向量与工程特征相关联;

归一化指数函数层子模块,用于将关联后所述组成向量输入归一化指数函数层,得到所述相似程度。

进一步,本发明所述的药物名称匹配装置,所述工程特征包括以下至少一项:药物科室、关联药物、上位词。

进一步,本发明所述的药物名称匹配装置,还包括:药品推荐模块;

所述药品推荐模块,用于:

获取用户搜索药品的搜索记录;

将所述搜索记录作为药物名称输入所述编码抽取模块;

基于所述相似比较模块输出的同义药物名称向用户推荐产品。

根据本发明的第三方面,提供一种存储设备,所述存储设备存储计算机程序指令,所述计算机程序指令根据本发明所述的方法进行执行。

根据本发明的第四方面,提供一种计算设备,包括:用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发所述计算设备执行本发明所述的方法。

本发明提供的药物名称匹配方法和装置,直接用大量的电子病历数据训练词向量,从而克服了像药物名称这样的专有名词在通用语料集中出现频次较少的缺点。此外,在原有的经典工程特征基础上,加上了药物实体匹配特有的特征,提高了药物匹配的准确性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:

图1为本发明实施例一的药物名称匹配方法的流程示意图;

图2为本发明实施例二的药物名称匹配方法的流程示意图;

图3为本发明实施例的药物实体词向量的定义结构示意图;

图4为本发明实施例的相似性网络工作原理示意图;

图5为本发明实施例三的药物名称匹配装置的结构示意图;

图6为本发明实施例四的药物名称匹配装置的结构示意图;

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本发明作进一步详细描述。

图1为本发明实施例一的药物名称匹配方法的流程示意图,如图1所示,本发明实施例一提供的药物名称匹配方法包括:

步骤S101,训练得到电子病历语料集的词向量。

步骤S102,利用所述电子病历语料集的词向量对药物名称编码抽取,得到药物实体词向量。

步骤S103,对所述药物实体词向量进行相似比较,基于相似程度对同义药物名词进行归类。

具体地,利用开源Glove预先训练电子病历语料集的词向量。Glove指用于训练词向量的开源模型。也可采用其他词向量训练方式,诸如,word2vec以及Elmo等。利用训练得到的词向量对药物名称进行编码抽取,得到药物实体词向量。药物实体词向量被定义为三种形式:药物学名词向量、药物别名词向量和药物实体词向量,将在实施例二重点阐述。利用神经网络中的全连接层对药物实体词向量进行相似比较,设立相似度范围阈值,对相似度处于相似度范围阈值内的药物名词,判定其相似程度高,将其归入一个同义药物名词的列表中,该同义药物名词的列表中的全部药物名词包括同一种药物的不同药物名称。

本发明实施例一提供的药物名称匹配方法,直接用大量的电子病历数据训练词向量,从而克服了像药物名称这样的专有名词在通用语料集中出现频次较少的缺点。

图2为本发明实施例二的药物名称匹配方法的流程示意图,如图2所示,本发明实施例二提供的药物名称匹配方法包括:

步骤S201,训练得到电子病历语料集的词向量。

具体地,利用开源Glove预先训练电子病历语料集的词向量。Glove指用于训练词向量的开源模型。也可才用其他词向量训练方式,诸如,word2vec以及Elmo等。

步骤S202,利用所述电子病历语料集的词向量对药物名称编码。

图3为本发明实施例的药物实体词向量的定义结构示意图,如图3所示,药物实体词向量被定义为三种形式:药物学名词向量、药物别名词向量和药物实体词向量。

步骤S203,利用统一医学语言系统抽取得到所述药物学名词向量。

如图3左上角所示,步骤S203用于得到药物学名词向量。统一医学语言系统可以为Bi-LSTM(Bidirectional LSTM),Bi-LSTM指双向LSTMUMLS(Unified Medical LanguageSystem),又称为一体化医学语言系统,是对生物医学科学领域内许多受控词表的一部纲目式汇编。直接采用在步骤S201预先训练好的词向量药物名称编码,通过与Bi-LSTM相比较,抽提出符合Bi-LSTM的标准的向量,作为药物学名词向量。

步骤S204,得到药物别名的至少两个词向量;从所述药物别名的至少两个词向量抽取欧式距离最小的向量作为所述药物别名词向量。

如图3右上角所示,步骤S204用于得到药物别名词向量。由于药物别名是一个由药物别名组成的列表,通过步骤S201得到药物名称具有多个词向量时,判定该药物名称为药物别名,即对每一个药物别名编码可得到多个词向量。例如,计算词向量,分别得到药物实体S的药物别名词向量以及药物实体T的药物别名词向量,取两者欧式距离最小的两个词向量,分别记为药物实体S的药物别名词向量以及药物实体T的药物别名词向量。

步骤S205,选取药物定义信息;将所述药物定义信息分词,得到至少两个标记;对得到的所述标记编码,得到所述药物定义词向量。

如图3所示,步骤S204用于得到药物定义词向量。通过检索电子版标准药物说明书,将标准药物说明书中的第一句话记为药物定义,得到药物定义信息。通过现有分词方法,将药物定义信息分割为若干标记(token),按照步骤S201的方式对各个token计算词向量。

步骤S206,将待比较的所述药物实体词向量输入全连接层,得到组成向量。

其中,药物实体词向量包括:药物学名词向量、药物别名词向量和药物实体词向量。即将步骤S203~S205得到的药物学名词向量、药物别名词向量和药物实体词向量全部输入神经网络的全连接层进行计算,可得到输出结果作为组成向量。神经网络可采用循环神经网络(RNN,recursive neural network)、前馈神经网络(CNN,Feedforward NeuralNetworks)或长短期记忆网络(LSTM,Long Short-term memory)。循环神经网络是以序列(sequence)数据为输入,在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络。前馈神经网络包含卷积计算且具有深度结构,是深度学习(deep learning)的代表算法之一。长短期记忆网络是RNN的变式,可用于处理和预测时间序列中间隔和延迟相对较长的事件。

步骤S207,将所述组成向量与工程特征相关联。

其中,所述工程特征包括以下至少一项:药物科室、关联药物、上位词。

步骤S208,将关联后所述组成向量输入归一化指数函数层,得到所述相似程度,基于相似程度对同义药物名词进行归类。

图4为本发明实施例的相似性网络工作原理示意图,如图4所示,将两个待比较的药物实体向量输入神经网络的全连接层,将得到的输出结果与工程特征相关联,然后输入归一化指数函数层,通过归一化指数函数(softmax)计算,即可得到待比较的药物实体向量的相似度,对相似度处于相似度范围阈值内的药物名词,判定其相似程度高,将其归入一个同义药物名词的列表中,该同义药物名词的列表中的全部药物名词包括同一种药物的不同药物名称。最后,根据工程特征对在同义药物名词的列表中的错误数据进行剔除,将上位词不同的药物名称、电子病历中开出药物的科室不一致的药物名称和在电子病历中与该药物最常联用的药物不一致的药物名称剔除,得到最终的同义药物名词的列表。

本发明实施例二提供的药物名称匹配方法,在原有的经典工程特征基础上,加上了药物实体匹配特有的特征,提高了药物匹配的准确性。

基于本发明的应用场景,本发明实施例一或二提供的药物名称匹配方法,还包括:

获取用户搜索药品的搜索记录;

将所述搜索记录作为药物名称进行同义药物名词归类;

基于归类后的同义药物名称向用户推荐产品。

例如,在用户通过电商平台购买药品,会基于自身的背景对药物进行搜索,通常会输入用户自认的药物名称,而这些药物名称很有可能属于同一药物的不同名称。可以获取用户对药物的搜索记录作为药物名称,再通过本发明所述的药物名称匹配方法进行处理,得到药物的同义药物名词作为标准的药物名称后,获取与该同义药物名词相对应的产品信息,例如购买链接、药物介绍等,将该类产品信息返回给用户,供用户购买药品。由于本发明是通过统一医学语言系统的标准药物名称进行匹配,因此匹配得到的药物名称中,与统一医学语言系统相同的药物名称即为标准的药物名称。由此可以实现药物名称的网络用语、通俗用语的统一,实现数据标准化的存储和应用,尤其对于电商平台,可以为用户购买药品提供更便捷的标准化服务。

图5为本发明实施例三的药物名称匹配装置的结构示意图,如图5所示,本发明实施例三提供的药物名称匹配装置包括:

训练模块31,用于训练得到电子病历语料集的词向量。

编码抽取模块32,用于利用所述电子病历语料集的词向量对药物名称编码抽取,得到药物实体词向量。

相似比较模块33,用于对所述药物实体词向量进行相似比较,基于相似程度对同义药物名词进行归类。

本发明实施例三的药物名称匹配装置,为图1所示的药物名称匹配方法的实现装置,具体可参考图1的实施例一,此处不再赘述。

图6为本发明实施例四的药物名称匹配装置的结构示意图,如图6所示,本发明实施例四提供的药物名称匹配装置包括:

训练模块31,用于训练得到电子病历语料集的词向量。

编码抽取模块32,用于利用所述电子病历语料集的词向量对药物名称编码抽取,得到药物实体词向量。

其中,所述编码抽取模块32包括:药物学名子模块321、药物别名子模块323和药物定义子模块323。

药物学名子模块321,用于利用统一医学语言系统抽取得到所述药物学名词向量。

药物别名子模块322,用于:

得到药物别名的至少两个词向量;

从所述药物别名的至少两个词向量抽取欧式距离最小的向量作为所述药物别名词向量。

药物定义子模块323,用于:

选取药物定义信息;

将所述药物定义信息分词,得到至少两个标记;

对得到的所述标记编码,得到所述药物定义词向量。

其中,药物实体词向量包括:药物学名词向量、药物别名词向量和药物实体词向量。

相似比较模块33,用于利用全连接层对所述药物实体词向量进行相似比较,基于相似程度对同义药物名词进行归类。

其中,相似比较模块33包括:全连接层子模块331、工程特征子模块332和归一化指数函数层子模块333。

全连接层子模块331,用于将待比较的所述药物实体词向量输入全连接层,得到组成向量。

工程特征子模块332,用于将所述组成向量与工程特征相关联。

其中,所述工程特征包括以下至少一项:药物科室、关联药物、上位词。

归一化指数函数层子模块333,用于将关联后所述组成向量输入归一化指数函数层,得到所述相似程度。

本发明实施例四的药物名称匹配装置,为图2所示的药物名称匹配方法的实现装置,具体可参考图2的实施例二,此处不再赘述。

基于本发明的应用场景,本发明实施例三或四提供的药物名称匹配装置,还包括:所述药品推荐模块。

所述药品推荐模块与所述编码抽取模块、所述相似比较模块相连接;

所述药品推荐模块获取用户搜索药品的搜索记录,并将所述搜索记录作为药物名称输入所述编码抽取模块以进行同义药物名词的归类处理,并获取所述相似比较模块输出的归类后的同义药物名称,基于同义药物名称向用户推荐产品。其具体原理请参见实施例二之后的详细描述,此处不再赘述。

根据本发明的实施例,还提供一种存储设备,所述存储设备存储计算机程序指令,所述计算机程序指令根据本发明实施例一或实施例二所述的方法进行执行。

在本发明一个典型的配置中,存储设备包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的装置或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。

根据本发明的实施例,还提供一种计算设备,包括:用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发所述计算设备执行本发明实施例一或实施例二所述的方法。

在本发明一个典型的配置中,计算设备均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

本发明所指计算设备包括但不限于任何一种可与用户进行人机交互(例如通过触摸板进行人机交互)的电子产品,例如智能手机、平板电脑等移动电子产品,所述移动电子产品可以采用任意操作系统,如android操作系统、iOS操作系统等。

需要注意的是,本发明可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一些实施例中,本发明的软件程序可以通过处理器执行以实现上文步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号