首页> 中国专利> 一种面向多数据源的症状体征类实体识别方法及装置

一种面向多数据源的症状体征类实体识别方法及装置

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明提供了一种面向多数据源的症状体征类实体识别方法及装置，涉及医疗实体识别技术领域。方法包括：获取原始数据中的待处理语句；将待处理语句进行单字切分，确定每个文字；根据预先训练完成的CRF训练模型，确定待处理语句中的每个文字在待处理语句中的实体标记，并确定待处理语句的实体标记序列；根据待处理语句的实体标记序列，确定待处理语句的第一组候选实体；根据预先设置的症状体征类术语切分策略，对待处理语句进行术语切分，确定第二组候选实体；对各候选实体进行筛选，分别形成第一组症状体征类候选实体和第二组症状体征类候选实体；根据预先设置的判断策略确定症状体征类实体结果。

著录项

公开/公告号CN106897559A

专利类型发明专利
公开/公告日2017-06-27

原文格式PDF
申请/专利权人黑龙江特士信息技术有限公司;哈尔滨工业大学;
展开▼

申请/专利号CN201710103706.4
发明设计人李雪莉;关毅;黄玉丽;
展开▼

申请日2017-02-24
分类号G06F19/00(20110101);G06F17/30(20060101);G06F17/27(20060101);
代理机构11127 北京三友知识产权代理有限公司;
代理人王涛;贾磊
地址 150000 黑龙江省哈尔滨市经开区哈平路集中区松花路9号中国云谷软件园1号楼214室
入库时间 2023-06-19 02:40:00

法律信息

法律状态公告日

法律状态信息

法律状态
2020-02-18

专利权的转移 IPC(主分类):G16H50/20 登记生效日:20200123 变更前: 变更后: 变更前: 变更后: 申请日:20170224

专利申请权、专利权的转移
2019-09-17

授权

授权
2017-07-21

实质审查的生效 IPC(主分类):G06F19/00 申请日:20170224

实质审查的生效
2017-06-27

公开

公开

说明书

技术领域

本发明涉及医疗实体识别技术领域，尤其涉及一种面向多数据源的症状体征类实体识别方法及装置。

背景技术

目前，随着网络和医疗信息技术的发展、中国人口逐渐趋于老年化、互联网医疗逐渐兴起，人们对医疗服务需求水平越来越高。而这也与医疗资源的相对短缺之间的矛盾越发明显。要实现疾病的智能诊断与治疗，离不开从医疗大数据中识别出疾病与其症状体征的对应关系，此过程即为症状体征实体识别过程。

近年来，作为医疗健康数据分析的重要的一步，医疗实体识别(例如症状体征类的实体识别)可以抽取出相关文本中存在的医疗术语，对后续研究的性能起到重要的作用。目前常见的实体识别技术有基于词表的医学实体识别和基于条件随机场(ConditionalRandom Fields，简称CRF)的医学实体识别，然而基于词表的医学实体识别仅仅依靠术语库匹配，缺少上下文语境识别，且术语库匹配存在较大局限性。而基于CRF的医学实体识别技术，缺少大数据语料库和语言规则的应用，语料均为人工标注后的语料，而没有利用半监督学习等方法，增加对数量更庞大的未标注数据的使用，使得模型不够完善，缺少基于语言学与医疗信息的规则，仅仅依靠模型，对数据的针对性不够强。可见，当前的实体识别方案并不能准确进行症状体征类实体识别。

发明内容

本发明的实施例提供一种面向多数据源的症状体征类实体识别方法及装置，以解决当前的实体识别方案并不能准确进行症状体征类实体识别的问题。

为达到上述目的，本发明采用如下技术方案：

一种面向多数据源的症状体征类实体识别方法，包括：

获取原始数据中的待处理语句；

将所述待处理语句进行单字切分，确定待处理语句中的每个文字；

根据预先训练完成的CRF训练模型，确定待处理语句中的每个文字在待处理语句中的实体标记，并确定待处理语句的实体标记序列；

根据待处理语句的实体标记序列，确定待处理语句的第一组候选实体；

根据预先设置的症状体征类术语切分策略，对所述待处理语句进行术语切分，确定第二组候选实体；

根据第一组候选实体和第二组候选实体中各候选实体的末尾字符，对各候选实体进行筛选，分别形成第一组症状体征类候选实体和第二组症状体征类候选实体；

若第一组症状体征类候选实体和第二组症状体征类候选实体不相同，根据预先设置的判断策略从第一组症状体征类候选实体和第二组症状体征类候选实体中确定症状体征类实体结果。

具体的，所述根据预先设置的判断策略从第一组症状体征类候选实体和第二组症状体征类候选实体中确定症状体征类实体结果，包括：

确定待处理语句在进行术语切分时，是否通过预先设置的切分规则进行切分；

若待处理语句在进行术语切分时，通过预先设置的切分规则进行切分，则选择所述第二组症状体征类候选实体中的候选实体作为症状体征类实体结果；

若待处理语句在进行术语切分时，未通过预先设置的切分规则进行切分，则选择所述第一组症状体征类候选实体中的候选实体作为症状体征类实体结果；

或者，确定来源于相同待处理语句的原始字符串的第一组症状体征类候选实体和第二组症状体征类候选实体中，实体个数少，且实体包含的字符数多的一组实体作为症状体征类实体结果；

所述症状体征类实体结果中的实体类型包括症状实体和体征实体；

在所述第一组症状体征类候选实体和第二组症状体征类候选实体中相对应的实体的实体类型不一致时，选择第二组候选实体中的实体的实体类型作为所述相对应的实体的实体类型。

具体的，所述原始数据包括电子病历数据、结算单数据、临床科研数据、医学知识库数据、期刊文献数据。

具体的，根据预先训练完成的CRF训练模型，确定待处理语句中的每个文字在待处理语句中的实体标记，并确定待处理语句的实体标记序列，包括：

从预先设置的语料库中提取待处理语句中的每个文字的CRF统计特征值；所述预先设置的语料库中记录有原始数据中各语句、各语句中的实体、以及各语句中的实体在各语句中的位置以及实体类别；所述CRF统计特征值包括每个文字在各语句中的分词特征值、词性特征值、字符特征值、上下文特征值以及术语表特征值；

根据每个字在各语句中的CRF统计特征值，确定一训练模型；所述训练模型为：

根据所述训练模型，计算待处理语句中的每个文字的实体标记y_j；

将每个文字的实体标记进行组合，形成待处理语句的实体标记序列；其中，x表示所述待处理语句；y_j表示待处理语句中j位置对应的文字的实体标记；f_i(y_j,y_j-1,x)表示待处理语句中分词特征i的函数值；λ_i为模型参数；m表示分词特征的个数；n表示待处理语句中的文字位置个数；Z(x)表示归一化因子；p(y|x)表示文字在待处理语句中的标记概率。

具体的，根据待处理语句的实体标记序列，确定待处理语句的第一组候选实体，包括：

在实体标记序列中确定各文字对应的分词特征值，并根据所述分词特征值确定待处理语句的第一组候选实体。

进一步的，该面向多数据源的症状体征类实体识别方法，还包括：

在所述待处理语句未在预先设置的语料库中被标注，根据公式：确定待处理语句中各实体的不确定值；其中，IE_k为第k个实体的不确定值；k_start为第k个实体的实体标记的开始位置；k_end为第k个实体的实体标记的尾部位置；为待处理语句中s位置的文字对应第j个实体标记的概率；

将待处理语句中不确定值为1的实体与预先设置的症状体征本体库匹配，若匹配成功，则将匹配成功的实体的实体标记进行保存；

确定待处理语句的预测置信度和字典匹配标记的实体比例；

将预测置信度大于预设置信度阈值和字典匹配标记的实体比例大于预设比例阈值的待处理语句加入到所述语料库中，以进行语料库更新；

其中，所述预测置信度为待处理语句中各文字对应的标记概率的乘积；

所述字典匹配标记的实体比例为：其中，C为待处理语句中预测出的实体总数中出现在预设字典中的实体数；B为待处理语句中预测出的实体总数。

具体的，根据预先设置的症状体征类术语切分策略，对所述待处理语句进行术语切分，确定第二组候选实体，包括：

将待处理语句中的标点符号转换为半角，并将英文字母统一为大写英文字母；

调用预先设置的非医学术语表，检查待处理语句中的原始字符串是否存在非医学术语表中的术语，并将待处理语句中存在的非医学术语表中的术语删除，形成预处理后的待处理语句；

将预处理后的待处理语句采用逆向最大匹配原则与预先设置的症状体征数据库进行匹配，将预处理后的待处理语句中与症状体征数据库中的标准术语名称或同义词相匹配的字符串作为初步实体抽出，并将所述标准术语名称或同义词所对应的术语类型作为所述初步实体的实体类型；

将预处理后的待处理语句的原始字符串与预先设置的句型数据库进行匹配；

若所述预处理后的待处理语句的原始字符串与预先设置的句型数据库中的句型格式匹配，则将所述预处理后的待处理语句的原始字符串采用逆向最大匹配原则与预先设置的疾病本体数据库进行匹配，将与疾病本体数据库中的标准术语名称或同义词相匹配的字符串作为初步实体抽出，并将所述标准术语名称或同义词所对应的术语类型作为所述初步实体的实体类型；

将预处理后的待处理语句中的各初步实体作为第二组候选实体。

具体的，根据第一组候选实体和第二组候选实体中各候选实体的末尾字符，对各候选实体进行筛选，分别形成第一组症状体征类候选实体和第二组症状体征类候选实体，包括：

判断第一组候选实体和第二组候选实体中各候选实体的末尾字符是否为预先设置的非症状体征术语字符；

若各候选实体的末尾字符为预先设置的非症状体征术语字符，将所述候选实体舍弃。

一种面向多数据源的症状体征类实体识别装置，包括：

待处理语句获取单元，用于获取原始数据中的待处理语句；

单字切分单元，用于将所述待处理语句进行单字切分，确定待处理语句中的每个文字；

实体标记序列确定单元，用于根据预先训练完成的CRF训练模型，确定待处理语句中的每个文字在待处理语句中的实体标记，并确定待处理语句的实体标记序列；

第一组候选实体确定单元，用于根据待处理语句的实体标记序列，确定待处理语句的第一组候选实体；

第二组候选实体确定单元，用于根据预先设置的症状体征类术语切分策略，对所述待处理语句进行术语切分，确定第二组候选实体；

候选实体筛选单元，用于根据第一组候选实体和第二组候选实体中各候选实体的末尾字符，对各候选实体进行筛选，分别形成第一组症状体征类候选实体和第二组症状体征类候选实体；

症状体征类实体结果确定单元，用于在第一组症状体征类候选实体和第二组症状体征类候选实体不相同时，根据预先设置的判断策略从第一组症状体征类候选实体和第二组症状体征类候选实体中确定症状体征类实体结果。

具体的，所述症状体征类实体结果确定单元，包括：

术语切分判断模块，用于确定待处理语句在进行术语切分时，是否通过预先设置的切分规则进行切分；

症状体征类实体结果确定模块，用于在待处理语句在进行术语切分时，通过预先设置的切分规则进行切分，则选择所述第二组症状体征类候选实体中的候选实体作为症状体征类实体结果；在待处理语句在进行术语切分时，未通过预先设置的切分规则进行切分，则选择所述第一组症状体征类候选实体中的候选实体作为症状体征类实体结果；

所述症状体征类实体结果确定模块，还用于确定来源于相同待处理语句的原始字符串的第一组症状体征类候选实体和第二组症状体征类候选实体中，实体个数少，且实体包含的字符数多的一组实体作为症状体征类实体结果；所述症状体征类实体结果中的实体类型包括症状实体和体征实体；

实体类型确定模块，用于在所述第一组症状体征类候选实体和第二组症状体征类候选实体中相对应的实体的实体类型不一致时，选择第二组候选实体中的实体的实体类型作为所述相对应的实体的实体类型。

具体的，所述待处理语句获取单元中的原始数据包括电子病历数据、结算单数据、临床科研数据、医学知识库数据、期刊文献数据。

进一步的，所述实体标记序列确定单元，包括：

CRF统计特征值提取模块，用于从预先设置的语料库中提取待处理语句中的每个文字的CRF统计特征值；所述预先设置的语料库中记录有原始数据中各语句、各语句中的实体、以及各语句中的实体在各语句中的位置以及实体类别；所述CRF统计特征值包括每个文字在各语句中的分词特征值、词性特征值、字符特征值、上下文特征值以及术语表特征值；

训练模型确定模块，用于根据每个字在各语句中的CRF统计特征值，确定一训练模型；所述训练模型为：

实体标记计算模块，用于根据所述训练模型，计算待处理语句中的每个文字的实体标记y_j；

实体标记序列确定模块，用于将每个文字的实体标记进行组合，形成待处理语句的实体标记序列；其中，x表示所述待处理语句；y_j表示待处理语句中j位置对应的文字的实体标记；f_i(y_j,y_j-1,x)表示待处理语句中分词特征i的函数值；λ_i为模型参数；m表示分词特征的个数；n表示待处理语句中的文字位置个数；Z(x)表示归一化因子；p(y|x)表示文字在待处理语句中的标记概率。

此外，所述第一组候选实体确定单元，具体用于：

在实体标记序列中确定各文字对应的分词特征值，并根据所述分词特征值确定待处理语句的第一组候选实体。

进一步的，所述的面向多数据源的症状体征类实体识别装置，还包括语料库更新单元，用于：

将待处理语句中不确定值为1的实体与预先设置的症状体征本体库匹配，在匹配成功时，将匹配成功的实体的实体标记进行保存；

确定待处理语句的预测置信度和字典匹配标记的实体比例；

将预测置信度大于预设置信度阈值和字典匹配标记的实体比例大于预设比例阈值的待处理语句加入到所述语料库中，以进行语料库更新；

其中，所述预测置信度为待处理语句中各文字对应的标记概率的乘积；

所述字典匹配标记的实体比例为：其中，C为待处理语句中预测出的实体总数中出现在预设字典中的实体数；B为待处理语句中预测出的实体总数。

此外，所述第二组候选实体确定单元，包括：

预处理模块，用于将待处理语句中的标点符号转换为半角，并将英文字母统一为大写英文字母；调用预先设置的非医学术语表，检查待处理语句中的原始字符串是否存在非医学术语表中的术语，并将待处理语句中存在的非医学术语表中的术语删除，形成预处理后的待处理语句；

症状体征本体库匹配模块，用于将预处理后的待处理语句采用逆向最大匹配原则与预先设置的症状体征数据库进行匹配，将预处理后的待处理语句中与症状体征数据库中的标准术语名称或同义词相匹配的字符串作为初步实体抽出，并将所述标准术语名称或同义词所对应的术语类型作为所述初步实体的实体类型；将预处理后的待处理语句的原始字符串与预先设置的句型数据库进行匹配；若所述预处理后的待处理语句的原始字符串与预先设置的句型数据库中的句型格式匹配，则将所述预处理后的待处理语句的原始字符串采用逆向最大匹配原则与预先设置的疾病本体数据库进行匹配，将与疾病本体数据库中的标准术语名称或同义词相匹配的字符串作为初步实体抽出，并将所述标准术语名称或同义词所对应的术语类型作为所述初步实体的实体类型；

第二组候选实体确定模块，用于将预处理后的待处理语句中的各初步实体作为第二组候选实体。

此外，所述候选实体筛选单元，包括：

非症状体征术语字符判断模块，用于判断第一组候选实体和第二组候选实体中各候选实体的末尾字符是否为预先设置的非症状体征术语字符；

候选实体舍弃模块，用于在各候选实体的末尾字符为预先设置的非症状体征术语字符时，将所述候选实体舍弃。

本发明实施例提供的一种面向多数据源的症状体征类实体识别方法及装置，首先，获取原始数据中的待处理语句；将所述待处理语句进行单字切分，确定待处理语句中的每个文字；根据预先训练完成的CRF训练模型，确定待处理语句中的每个文字在待处理语句中的实体标记，并确定待处理语句的实体标记序列；根据待处理语句的实体标记序列，确定待处理语句的第一组候选实体；然后，根据预先设置的症状体征类术语切分策略，对所述待处理语句进行术语切分，确定第二组候选实体；根据第一组候选实体和第二组候选实体中各候选实体的末尾字符，对各候选实体进行筛选，分别形成第一组症状体征类候选实体和第二组症状体征类候选实体；若第一组症状体征类候选实体和第二组症状体征类候选实体不相同，根据预先设置的判断策略从第一组症状体征类候选实体和第二组症状体征类候选实体中确定症状体征类实体结果。本发明将条件随机场CRF统计机器学习方法与术语切分方法相结合，能够自动识别症状体征类实体，克服了当前的实体识别的数据源较为单一，实体识别不准确的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种面向多数据源的症状体征类实体识别方法的流程图一；

图2为本发明实施例提供的一种面向多数据源的症状体征类实体识别方法的流程图二的A部分；

图3为本发明实施例提供的一种面向多数据源的症状体征类实体识别方法的流程图二的B部分；

图4为本发明实施例提供的一种面向多数据源的症状体征类实体识别装置的结构示意图一；

图5为本发明实施例提供的一种面向多数据源的症状体征类实体识别装置的结构示意图二。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供一种面向多数据源的症状体征类实体识别方法，包括：

步骤101、获取原始数据中的待处理语句。

步骤102、将所述待处理语句进行单字切分，确定待处理语句中的每个文字。

步骤103、根据预先训练完成的CRF训练模型，确定待处理语句中的每个文字在待处理语句中的实体标记，并确定待处理语句的实体标记序列。

步骤104、根据待处理语句的实体标记序列，确定待处理语句的第一组候选实体。

步骤105、根据预先设置的症状体征类术语切分策略，对所述待处理语句进行术语切分，确定第二组候选实体。

步骤106、根据第一组候选实体和第二组候选实体中各候选实体的末尾字符，对各候选实体进行筛选，分别形成第一组症状体征类候选实体和第二组症状体征类候选实体。

步骤107、若第一组症状体征类候选实体和第二组症状体征类候选实体不相同，根据预先设置的判断策略从第一组症状体征类候选实体和第二组症状体征类候选实体中确定症状体征类实体结果。

本发明实施例提供的一种面向多数据源的症状体征类实体识别方法，首先，获取原始数据中的待处理语句；将所述待处理语句进行单字切分，确定待处理语句中的每个文字；根据预先训练完成的CRF训练模型，确定待处理语句中的每个文字在待处理语句中的实体标记，并确定待处理语句的实体标记序列；根据待处理语句的实体标记序列，确定待处理语句的第一组候选实体；然后，根据预先设置的症状体征类术语切分策略，对所述待处理语句进行术语切分，确定第二组候选实体；根据第一组候选实体和第二组候选实体中各候选实体的末尾字符，对各候选实体进行筛选，分别形成第一组症状体征类候选实体和第二组症状体征类候选实体；若第一组症状体征类候选实体和第二组症状体征类候选实体不相同，根据预先设置的判断策略从第一组症状体征类候选实体和第二组症状体征类候选实体中确定症状体征类实体结果。本发明将条件随机场CRF统计机器学习方法与术语切分方法相结合，能够自动识别症状体征类实体，克服了当前的实体识别的数据源较为单一，实体识别不准确的问题。

为了使本领域的技术人员更好的了解本发明，下面结合具体的实例来说明本发明。如图2和图3所示(其中，图2为一种面向多数据源的症状体征类实体识别方法的A部分，图3为一种面向多数据源的症状体征类实体识别方法的B部分，此处分为A、B部分是由于本发明实施例的步骤较多，并非表示实际意义上的区别，A部分与B部分形成整个步骤201至步骤220，其中图2示出了步骤201至步骤211，图3示出了步骤212至步骤220。)，本发明实施例提供一种面向多数据源的症状体征类实体识别方法，包括：

步骤201、获取原始数据中的待处理语句。

具体的，所述原始数据包括症状体征临床治疗数据、症状体征研发实验数据、症状体征销售数据、症状体征科技文献数据、症状体征电子商务数据等，但不仅局限于此。

步骤202、将所述待处理语句进行单字切分，确定待处理语句中的每个文字。

例如，待处理语句为“一周前头晕加剧，伴咳嗽”，则单字切分后，每个文字为：“一”“周”“前”“头”“晕”“加”“剧”“，”“伴”“咳”“嗽”。

步骤203、从预先设置的语料库中提取待处理语句中的每个文字的CRF统计特征值。

所述预先设置的语料库中记录有原始数据中各语句、各语句中的实体、以及各语句中的实体在各语句中的位置以及实体类别；所述CRF统计特征值包括每个文字在各语句中的分词特征值、词性特征值、字符特征值、上下文特征值以及术语表特征值。

对于预先设置的语料库可以由人为预先标注，例如语句：

“主诉：一周前头晕加剧，伴咳嗽。

查体：无压痛及反跳痛，肠鸣音4次/分。”

则对于症状体征类实体，可以分别标注出：

c＝头晕P＝1:6 1:7t＝症状

c＝咳嗽P＝1:121:13t＝症状

c＝压痛P＝2:42:5t＝体征

c＝反跳痛P＝2:72:9t＝体征

c＝肠鸣音P＝2:112:13t＝体征

其中，c表示症状体征类实体，P表示症状体征类实体所在语料中句子的行号及句子中字符位置，t表示症状体征实体类别(在本发明中症状体征实体类别包括症状实体和体征实体)。

对于CRF统计特征值，例如语句“无压痛及反跳痛，肠鸣音4次/分”，其实体标记序列为“OBEOBIEOBIEOOOO”。例如，对于“痛”字，CRF统计特征说明如下表1所示：

表1：

步骤204、根据每个字在各语句中的CRF统计特征值，确定一训练模型。

其中，所述训练模型为：

步骤205、根据所述训练模型，计算待处理语句中的每个文字的实体标记y_j。

其中，x表示所述待处理语句；y_j表示待处理语句中j位置对应的文字的实体标记；f_i(y_j,y_j-1,x)表示待处理语句中分词特征i的函数值；λ_i为模型参数，训练得到的模型参数可使句子的训练模型p(y|x)的和达到最大；m表示分词特征的个数；n表示待处理语句中的文字位置个数；Z(x)表示归一化因子；p(y|x)表示文字在待处理语句中的标记概率。

对于f_i(y_j,y_j-1,x)，其表示若y_j、y_j-1、x均出现在语料中，则f_i(y_j,y_j-1,x)＝1，否则为0。

步骤206、将每个文字的实体标记进行组合，形成待处理语句的实体标记序列。

例如语句“无压痛及反跳痛，肠鸣音4次/分”，其实体标记序列为“OBEOBIEOBIEOOOO”。

步骤207、在实体标记序列中确定各文字对应的分词特征值，并根据所述分词特征值确定待处理语句的第一组候选实体。

例如，对于“无压痛及反跳痛，肠鸣音4次/分”，其实体标记序列为“OBEOBIEOBIEOOOO”，因此，可识别出第一组候选实体为“压痛”、“反跳痛”、“肠鸣音”。

步骤208、将待处理语句中的标点符号转换为半角，并将英文字母统一为大写英文字母。

步骤209、调用预先设置的非医学术语表，检查待处理语句中的原始字符串是否存在非医学术语表中的术语，并将待处理语句中存在的非医学术语表中的术语删除，形成预处理后的待处理语句。

步骤210、将预处理后的待处理语句采用逆向最大匹配原则与预先设置的症状体征数据库进行匹配，将预处理后的待处理语句中与症状体征数据库中的标准术语名称或同义词相匹配的字符串作为初步实体抽出，并将所述标准术语名称或同义词所对应的术语类型作为所述初步实体的实体类型。

此处，预先设置的症状体征数据库可以包括如下表2所示的症状体征数据表，该症状体征数据表可以是在国际ICD10和权威医学工具书的基础上扩充构建而成的，其中包含词与词之间同义关系、词与词之间的概念属分关系等，具体表现为表中的标准术语名称、同义词、上位词等。

表2：

标准术语名称同义词上位词名称术语类型疼痛症状头痛疼痛症状压痛体征血压体征心率体征

步骤211、将预处理后的待处理语句的原始字符串与预先设置的句型数据库进行匹配。

步骤212、若所述预处理后的待处理语句的原始字符串与预先设置的句型数据库中的句型格式匹配，则将所述预处理后的待处理语句的原始字符串采用逆向最大匹配原则与预先设置的疾病本体数据库进行匹配，将与疾病本体数据库中的标准术语名称或同义词相匹配的字符串作为初步实体抽出，并将所述标准术语名称或同义词所对应的术语类型作为所述初步实体的实体类型。

此处的步骤211和步骤212是为了避免剩余字符串有可能还有实体没被抽出取来，因此需要进一步的判断和抽取。

此处的预先设置的句型数据库可以包括如下表3所示的句型数据表：

表3：

步骤213、将预处理后的待处理语句中的各初步实体作为第二组候选实体。

通过上述步骤210和步骤212的具体规则，即可形成最终的第二组候选实体。

步骤214、判断第一组候选实体和第二组候选实体中各候选实体的末尾字符是否为预先设置的非症状体征术语字符。

该预先设置的非症状体征术语字符可以是例如“药、手术、术、检查”等。

步骤215、若各候选实体的末尾字符为预先设置的非症状体征术语字符，将所述候选实体舍弃。

在步骤215之后，执行步骤216或者步骤219。

步骤216、在第一组症状体征类候选实体和第二组症状体征类候选实体不相同时，确定待处理语句在进行术语切分时，是否通过预先设置的切分规则进行切分。

即是否通过上述步骤211和步骤212的处理。

在步骤216之后，执行步骤217或者步骤218。

步骤217、若待处理语句在进行术语切分时，通过预先设置的切分规则进行切分，则选择所述第二组症状体征类候选实体中的候选实体作为症状体征类实体结果。

步骤218、若待处理语句在进行术语切分时，未通过预先设置的切分规则进行切分，则选择所述第一组症状体征类候选实体中的候选实体作为症状体征类实体结果。

步骤219、在第一组症状体征类候选实体和第二组症状体征类候选实体不相同时，确定来源于相同待处理语句的原始字符串的第一组症状体征类候选实体和第二组症状体征类候选实体中，实体个数少，且实体包含的字符数多的一组实体作为症状体征类实体结果。

例如，原始数据为“表现为腹部膨隆”。

第一组症状体征类候选实体为“腹部膨隆【症状】”；

第二组症状体征类候选实体为“膨隆【症状】”；

则，最终结果为“腹部膨隆【症状】”。

在步骤217、218和步骤219之后，执行步骤220。

步骤220、在所述第一组症状体征类候选实体和第二组症状体征类候选实体中相对应的实体的实体类型不一致时，选择第二组候选实体中的实体的实体类型作为所述相对应的实体的实体类型。

例如，原始数据为“随之有腹膜炎表现”。

第一组症状体征类候选实体为“腹膜炎【疾病】”；

第二组症状体征类候选实体为“腹膜炎【症状】”；

则，最终结果为“腹膜炎【症状】”。

通过上述步骤201至步骤220，最终可以得到症状体征类实体识别结果。

另外，为了实现对语料库进行更新，可以由人工总结发现新的句型特征，并人工标注加入到语料库中；另外，还可以在所述待处理语句未在预先设置的语料库中被标注，根据公式：确定待处理语句中各实体的不确定值；其中，IE_k为第k个实体的不确定值；k_start为第k个实体的实体标记的开始位置；k_end为第k个实体的实体标记的尾部位置；为待处理语句中s位置的文字对应第j个实体标记的概率。

例如，“无压痛及反跳痛，肠鸣音4次/分”，实体标记序列为“OBEOBIEOBIEOOOO”，位置序列为“0 1 2 3 4 5 6 7 8 9 10 11 12 13 14”，看出实体“压痛”，位置为“1 2”，因此，K_start为1，K_end为2。

将待处理语句中不确定值为1的实体与预先设置的症状体征本体库匹配，若匹配成功，则将匹配成功的实体的实体标记进行保存。

确定待处理语句的预测置信度和字典匹配标记的实体比例。

将预测置信度大于预设置信度阈值和字典匹配标记的实体比例大于预设比例阈值的待处理语句加入到所述语料库中，以进行语料库更新。

其中，所述预测置信度为待处理语句中各文字对应的标记概率的乘积。

所述字典匹配标记的实体比例为：其中，C为待处理语句中预测出的实体总数中出现在预设字典中的实体数；B为待处理语句中预测出的实体总数。

可见，通过语料库的更新，可以实现实体识别所需语料数据利用半监督自学习方法，实现语料库不断丰富，解决了语料库数目不足、不完整的问题。

对应于上述图1、图2和图3所示的方法实施例，如图4所示，本发明实施例提供一种面向多数据源的症状体征类实体识别装置，包括：

待处理语句获取单元31，用于获取原始数据中的待处理语句。

单字切分单元32，用于将所述待处理语句进行单字切分，确定待处理语句中的每个文字。

实体标记序列确定单元33，用于根据预先训练完成的CRF训练模型，确定待处理语句中的每个文字在待处理语句中的实体标记，并确定待处理语句的实体标记序列。

第一组候选实体确定单元34，用于根据待处理语句的实体标记序列，确定待处理语句的第一组候选实体。

第二组候选实体确定单元35，用于根据预先设置的症状体征类术语切分策略，对所述待处理语句进行术语切分，确定第二组候选实体。

候选实体筛选单元36，用于根据第一组候选实体和第二组候选实体中各候选实体的末尾字符，对各候选实体进行筛选，分别形成第一组症状体征类候选实体和第二组症状体征类候选实体。

症状体征类实体结果确定单元37，用于在第一组症状体征类候选实体和第二组症状体征类候选实体不相同时，根据预先设置的判断策略从第一组症状体征类候选实体和第二组症状体征类候选实体中确定症状体征类实体结果。

具体的，如图5所示，所述症状体征类实体结果确定单元37，包括：

术语切分判断模块371，用于确定待处理语句在进行术语切分时，是否通过预先设置的切分规则进行切分。

症状体征类实体结果确定模块372，用于在待处理语句在进行术语切分时，通过预先设置的切分规则进行切分，则选择所述第二组症状体征类候选实体中的候选实体作为症状体征类实体结果；在待处理语句在进行术语切分时，未通过预先设置的切分规则进行切分，则选择所述第一组症状体征类候选实体中的候选实体作为症状体征类实体结果。

所述症状体征类实体结果确定模块372，还用于确定来源于相同待处理语句的原始字符串的第一组症状体征类候选实体和第二组症状体征类候选实体中，实体个数少，且实体包含的字符数多的一组实体作为症状体征类实体结果；所述症状体征类实体结果中的实体类型包括症状实体和体征实体。

实体类型确定模块373，用于在所述第一组症状体征类候选实体和第二组症状体征类候选实体中相对应的实体的实体类型不一致时，选择第二组候选实体中的实体的实体类型作为所述相对应的实体的实体类型。

具体的，所述待处理语句获取单元31中的原始数据包括电子病历数据、结算单数据、临床科研数据、医学知识库数据、期刊文献数据。

进一步的，如图5所示，所述实体标记序列确定单元33，包括：

CRF统计特征值提取模块331，用于从预先设置的语料库中提取待处理语句中的每个文字的CRF统计特征值；所述预先设置的语料库中记录有原始数据中各语句、各语句中的实体、以及各语句中的实体在各语句中的位置以及实体类别；所述CRF统计特征值包括每个文字在各语句中的分词特征值、词性特征值、字符特征值、上下文特征值以及术语表特征值。

训练模型确定模块332，用于根据每个字在各语句中的CRF统计特征值，确定一训练模型；所述训练模型为：

实体标记计算模块333，用于根据所述训练模型，计算待处理语句中的每个文字的实体标记y_j。

实体标记序列确定模块334，用于将每个文字的实体标记进行组合，形成待处理语句的实体标记序列；其中，x表示所述待处理语句；y_j表示待处理语句中j位置对应的文字的实体标记；f_i(y_j,y_j-1,x)表示待处理语句中分词特征i的函数值；λ_i为模型参数；m表示分词特征的个数；n表示待处理语句中的文字位置个数；Z(x)表示归一化因子；p(y|x)表示文字在待处理语句中的标记概率。

此外，所述第一组候选实体确定单元34，具体用于：

在实体标记序列中确定各文字对应的分词特征值，并根据所述分词特征值确定待处理语句的第一组候选实体。

进一步的，如图5所示，所述的面向多数据源的症状体征类实体识别装置，还包括语料库更新单元38用于：

在所述待处理语句未在预先设置的语料库中被标注，根据公式：确定待处理语句中各实体的不确定值；其中，IE_k为第k个实体的不确定值；k_start为第k个实体的实体标记的开始位置；k_end为第k个实体的实体标记的尾部位置；为待处理语句中s位置的文字对应第j个实体标记的概率。

将待处理语句中不确定值为1的实体与预先设置的症状体征本体库匹配，在匹配成功时，将匹配成功的实体的实体标记进行保存。

确定待处理语句的预测置信度和字典匹配标记的实体比例。

将预测置信度大于预设置信度阈值和字典匹配标记的实体比例大于预设比例阈值的待处理语句加入到所述语料库中，以进行语料库更新。

其中，所述预测置信度为待处理语句中各文字对应的标记概率的乘积。

所述字典匹配标记的实体比例为：其中，C为待处理语句中预测出的实体总数中出现在预设字典中的实体数；B为待处理语句中预测出的实体总数。

此外，如图5所示，所述第二组候选实体确定单元35，包括：

预处理模块351，用于将待处理语句中的标点符号转换为半角，并将英文字母统一为大写英文字母；调用预先设置的非医学术语表，检查待处理语句中的原始字符串是否存在非医学术语表中的术语，并将待处理语句中存在的非医学术语表中的术语删除，形成预处理后的待处理语句。

症状体征本体库匹配模块352，用于将预处理后的待处理语句采用逆向最大匹配原则与预先设置的症状体征数据库进行匹配，将预处理后的待处理语句中与症状体征数据库中的标准术语名称或同义词相匹配的字符串作为初步实体抽出，并将所述标准术语名称或同义词所对应的术语类型作为所述初步实体的实体类型；将预处理后的待处理语句的原始字符串与预先设置的句型数据库进行匹配；若所述预处理后的待处理语句的原始字符串与预先设置的句型数据库中的句型格式匹配，则将所述预处理后的待处理语句的原始字符串采用逆向最大匹配原则与预先设置的疾病本体数据库进行匹配，将与疾病本体数据库中的标准术语名称或同义词相匹配的字符串作为初步实体抽出，并将所述标准术语名称或同义词所对应的术语类型作为所述初步实体的实体类型。

第二组候选实体确定模块353，用于将预处理后的待处理语句中的各初步实体作为第二组候选实体。

此外，如图5所示，所述候选实体筛选单元36，包括：

非症状体征术语字符判断模块361，用于判断第一组候选实体和第二组候选实体中各候选实体的末尾字符是否为预先设置的非症状体征术语字符。

候选实体舍弃模块362，用于在各候选实体的末尾字符为预先设置的非症状体征术语字符时，将所述候选实体舍弃。

值得说明的是，本发明实施例提供的一种面向多数据源的症状体征类实体识别装置的具体实现方式可以参见上述的方法实施例，此处不再赘述。

本发明实施例提供的一种面向多数据源的症状体征类实体识别装置，首先，获取原始数据中的待处理语句；将所述待处理语句进行单字切分，确定待处理语句中的每个文字；根据预先训练完成的CRF训练模型，确定待处理语句中的每个文字在待处理语句中的实体标记，并确定待处理语句的实体标记序列；根据待处理语句的实体标记序列，确定待处理语句的第一组候选实体；然后，根据预先设置的症状体征类术语切分策略，对所述待处理语句进行术语切分，确定第二组候选实体；根据第一组候选实体和第二组候选实体中各候选实体的末尾字符，对各候选实体进行筛选，分别形成第一组症状体征类候选实体和第二组症状体征类候选实体；若第一组症状体征类候选实体和第二组症状体征类候选实体不相同，根据预先设置的判断策略从第一组症状体征类候选实体和第二组症状体征类候选实体中确定症状体征类实体结果。本发明将条件随机场CRF统计机器学习方法与术语切分方法相结合，能够自动识别症状体征类实体，克服了当前的实体识别的数据源较为单一，实体识别不准确的问题。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种面向多数据源的症状体征类实体识别方法及装置 [P] . 中国专利： CN106897559B . 2019.09.17
2. 一种面向多数据源的社保类实体识别方法及装置 [P] . 中国专利： CN106933802B . 2020.02.21
3. Methods and apparatus for performing multi-data-source, non-ETL queries and entity resolution [P] . 美国专利： US8037050B2 . 2011-10-11

机译：用于执行多数据源，非ETL查询和实体解析的方法和装置
4. Entity`s e.g. human, virtual personification e.g. face, creating method for managing user interface of information searching system, involves creating virtual personification representing entity by synthesizing entity representation [P] . 法国专利： FR2894351A1 . 2007-06-08

机译：实体的人类的虚拟拟人化脸，一种用于管理信息搜索系统用户界面的方法，包括通过合成实体表示来创建虚拟拟人表示实体
5. Methods and Apparatus for Performing Multi-Data-Source, Non-ETL Queries and Entity Resolution [P] . 美国专利： US2010030750A1 . 2010-02-04

机译：执行多数据源，非ETL查询和实体解析的方法和设备