首页> 中国专利> 一种中文病理文本结构化处理方法

一种中文病理文本结构化处理方法

摘要

本发明涉及一种中文病理文本结构化处理方法,包括以下步骤:从病理报告文本数据的样本与指标的层次结构中提取出各个样本所对应的模板信息;对模板信息进行提取,包括短句切分和指标名提取;短句分类;对每个样本结合分类结果集合CLUSTER和短句集CLAUSE,计算指标名列表中的每个指标名在短句语料中的TF值、IDF值和C-value值,筛选出TF值、IDF值和C-value值满足阈值的指标名,作为最终模板中的成分。本发明能够将非结构化的中文病理文本结构化。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-02-23

    授权

    授权

  • 2015-10-07

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20150520

    实质审查的生效

  • 2015-09-09

    公开

    公开

说明书

技术领域

本发明涉及自然语言处理技术领域,特别是涉及一种中文病理文本结构化处理方法。

背景技术

随着互联网的迅速发展和国内医疗行业信息化进程的逐渐推进,医疗行业的信息量也 在呈指数式爆炸增长。同时,伴随着生活水平的提高,人们也逐渐从最基本的能看病,转 向关注医疗诊断的效率和准确度。传统医疗方式下积累的以及现阶段每天实时增加的大量 非结构化的病理数据,不仅不易于存储管理,而且不能满足如今的病理分析需求。

如何从非结构化的病理数据中获取有用的信息成为当前的研究热点之一。现有的自然 语言处理技术和数据挖掘技术,如分词、聚类分类、信息抽取等,已经能在很大程度上解 决这一问题,但如何高效且准确地从非结构化的中文病理文本中获取有用的信息仍是一大 难题。

发明内容

本发明所要解决的技术问题是提供一种中文病理文本结构化处理方法,能够将非结构 化的中文病理文本结构化。

本发明解决其技术问题所采用的技术方案是:提供一种中文病理文本结构化处理方 法,包括以下步骤:

(1)从病理报告文本数据的样本与指标的层次结构中提取出各个样本所对应的模板 信息;

(2)对模板信息进行提取,包括短句切分和指标名提取;短句分类;

(3)对每个样本结合分类结果集合CLUSTER和短句集CLAUSE,计算指标名列表 中的每个指标名在短句语料中的TF值、IDF值和C-value值,筛选出TF值、IDF值和C-value 值阈值的指标名,作为最终模板中的成分。

所述步骤(2)中短句切分是采用正则匹配的方法,当病理报告文本数据中检测到符 合正则表达式时进行断句,从而将病理报告文本数据切分成若干短句。

所述步骤(2)的指标名提取具体包括:(A)样本名的提取:利用开源的分词工具, 结合人体组织器官词库以及样本名出现在短句的第一个文本片段中的规律,对无关文本进 行过滤筛选,提取出每个短句对应的样本名;(B)指标名的提取:将短句按标点符号切分 成若干语义上独立的文本片段,将每个文本片段先用特殊词库匹配和数量词匹配进行筛 选,再对匹配失败的文本片段用统计方法进行处理;最后通过将经过上述操作得到的键值 对中的指标名去重合并,得到每个短句对应的若干指标名。

所述步骤(2)中的短句分类包括:

先对短句集合CLAUSE进行初步分类,将样本名完全相同的短句归为一类,归类后的 每个子类的指标名列表为其所包含的所有短句的指标名列表的去重合并,最后得到经过初 步分类的子类集合CLAUSE_PC;

将初步分类后的每个子类的样本名sn跟组织器官词典DIC中的词word两两计算相似 度,并放到一个二维数组Array中,其中,Arrayij的值是编号为i的子类的样本名和编号为 j的组织器官词典中的词的样本名相似度;

优先处理样本名相似度完全相同的子类:将该子类中的所有短句都被归入组织器官词 word下,将分类信息写入分类结果集合CLUSTER,并将该子类从子类集合中移除;

处理样本名相似度值近似的子类:每个子类都能找到零个到多个组织器官词word满 足要求,对那些能够找到至少一个满足要求的组织器官词word的子类,计算该子类的指 标名列表和与其对应的每个组织器官word的指标名列表的指标名相似度,找到指标名相 似度最大的组织器官词word’,将该子类c就归入相似度最大的组织器官词word’下,将分 类信息写入分类结果集合CLUSTER,更新相似度最大的组织器官词word’在MATCHED 集合中的指标值列表,同时将该子类c从子类集合中移除;

对子类集合中余下的子类,直接采用初步分类的结果将短句分类,将分类信息写入分 类结果集合CLUSTER,同时,将每个子类的样本名和指标值列表信息写入UNMATCHED 集合中;

输出分类结果集合CLUSTER,以及MATCHED集合和UNMATCHED集合。

有益效果

由于采用了上述的技术方案,本发明与现有技术相比,具有以下的优点和积极效果: 本发明中的模板是从训练数据集里提取出来的,因此对此类文本结构化的准确率较现有的 通用方法要高;本发明中提取的模板会被定期优化,以适应最新的数据结构化需求。

附图说明

图1是本发明中病理文本层次结构图;

图2是样本名提取的数据流图;

图3是指标名提取的数据流图;

图4是短句切分和指标名提取的顶层数据流图;

图5是短句初步分类的数据流图;

图6是模板提取的数据流图;

图7是模板应用的数据流图。

具体实施方式

下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而 不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人 员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定 的范围。

本发明的实施方式涉及一种中文病理文本结构化处理方法,包括以下步骤:(1)从病 理报告文本数据的样本与指标的层次结构中提取出各个样本所对应的模板信息;(2)对 模板信息进行提取,包括短句切分和指标名提取;短句分类;(3)对每个样本结合分类结 果集合CLUSTER和短句集CLAUSE,计算指标名列表中的每个指标名在短句语料中的TF 值、IDF值和C-value值,筛选出TF值、IDF值和C-value值满足阈值的指标名,作为最 终模板中的成分。

病理报告文本数据主要包含如下信息(见表1):病人基本信息、肉眼所见、镜下所 见、病理诊断。本方法是针对病理文本数据中的“肉眼所见”部分。

表1 病理文本数据样例

医生书写的病理文本一般都会遵循一定的书写规范。如在病理文本的“肉眼所见”字 段中,一般会包含若干个样本,针对其中某个样本,又会有若干个指标来描述,从而构成 样本与指标的层次结构(见图1)。

以表1中的病理文本数据为例,该例中的样本名有十二指肠、肿块、管壁样物、胆总 管、胆囊、结节等;其中,十二指肠的指标名有长度、周径、粘膜等。

通过本方法的处理,可以从病理文本数据的“肉眼所见”字段中提取出若干样本分别 对应的模板信息。仍以表1中的病理文本数据为例,部分样本的模板样例如表2所示。

表2样本的模板样例

模板提取主要包括3个关键步骤,具体有:

第一步为短句切分和指标名提取。首先根据总结的规则,将一句病理文本切分成若干 句语义上独立的短句。这里采用正则匹配的方法,当病理文本中检测到符合正则表达式时 进行断句,从而将病理文本切分成若干短句。正则表达式为:

。另送,|,另送|另送|N[0|o].{0,10}:|,找到|找到|。|.另送|;|,另见|另见|见

指标名提取可以细分为两个阶段:

第一阶段为样本名的提取,如图2所示,由于医学病理报告的书写规范要求,样本名 一般出现在短句的第一个文本片段中。根据这个特性,再利用开源的分词工具,结合人体 组织器官词库以及总结的规律,对无关文本进行过滤筛选,可以提取出每个短句对应的样 本名。

第二阶段为指标名的提取,如图3所示,结合医学病理报告的书写特点,可以整理出 4个特殊的词库:颜色库、质地库、形状库、状态库。将短句按标点符号(这里主要为冒 号和逗号)切分成若干语义上独立的文本片段(每个文本片段包含一个“<指标名,指标值>” 键值对或“<null,指标值>”(指标名缺省)键值对),将每个文本片段先用特殊词库匹配和 数量词匹配进行筛选,再对匹配失败的文本片段用统计方法进行处理。最后,通过将经过 上述操作得到的键值对中的指标名去重合并,可以得到每个短句对应的若干指标名。

同时,为了后期处理方便,此处给每个短句添加一个唯一的编号。

经过以上两个阶段,每个短句从纯文本描述表示转变为“<唯一短句编号c#,样本名sn, 指标名列表list>”表示。图4为短句切分和指标名提取的顶层数据流图。

第二步为短句分类。为使样本的模板尽可能全面地覆盖可能会出现的描述内容,需要 先对短句进行分类,将描述同一样本的短句放到同一个分类中。短句分类算法的基本思想 是尽可能地将每个短句归类到跟它有关联的人体组织器官词库中的某一组织器官词下。同 时,该算法有个“副产品”,就是最后被匹配上的组织器官词都会有一个指标名列表,未 匹配上词库的样本名也会汇总为相应的指标名列表。

算法具体步骤如下:

1)先对短句集合CLAUSE进行初步分类,见图5,将样本名完全相同的短句归为一 类,归类后的每个子类的指标名列表为其所包含的所有短句的指标名列表的去重合并,最 后得到经过初步分类的子类集合CLAUSE_PC。

2)为避免重复计算样本名相似度,先将初步分类后的每个子类的样本名sn跟组织器 官词典DIC中的词word两两计算相似度,放到一个二维数组Array中。其中,Arrayij的值 是编号为i的子类的样本名和编号为j的组织器官词典中的词的样本名相似度。这里我们 将带样本名的短句集作为训练数据,用Google的开源项目word2vec训练出对应的词向量 文件,在该词向量文件中,每个词(在我们的实验中是样本名或指标名)会有一个高维的 向量表示,则计算子类样本名和组织器官词的样本名相似度,即计算这两个向量的余弦相 似度。余弦相似度计算公式为:

similaritySN(sn,word)=cos(θ)=A·B||A||||B||   (公式1)

其中,A为样本名sn对应的词向量,B为组织器官词word对应的词向量,A·B为两 个向量的内积,||A||和||B||分别为两个向量的模。

特殊地,若子类样本名和组织器官词完全相同,则样本名相似度直接置为1。

3)优先处理样本名相似度为1的子类。对词典DIC中的某一词word而言,一旦有某 个子类c的样本名与word完全一致,那么子类c对应的指标名列表一定是描述word的, 更新word的指标名列表(word的指标名列表信息存放在集合MATCHED中)。同时,子 类c中的所有短句都被归入组织器官词word下,将分类信息写入集合CLUSTER,并将该 子类从子类集合中移除。

4)处理样本名相似度值在区间(0,1)中的子类。每个子类都能找到零个到多个word满 足要求,对那些可以找到至少一个满足要求的word的子类c,计算c的指标名列表和与其 对应的每个word的指标名列表的指标名相似度。指标名相似度计算方法类似于样本名相 似度计算,不同之处,由于指标名列表是由若干个指标名组成的,这里简单对两个列表的 指标名两两计算余弦相似度并进行累加。

找到指标名相似度最大的word’,该子类c就归入word’下,将分类信息写入集合 CLUSTER,更新word’在MATCHED中的指标值列表,同时将子类c从子类集合中移除。

5)对子类集合中余下的子类,直接采用初步分类的结果将短句分类,将分类信息写 入集合CLUSTER。同时,将每个子类的样本名和指标值列表信息写入UNMATCHED集合 中。

6)输出分类结果集CLUSTER,以及“副产品”集合MATCHED和集合UNMATCHED。

经过上述算法,可以得到短句的分类结果集CLUSTER、集合MATCHED和集合 UNMATCHED。

第三步为模板提取。上一步得到的“副产品”--MATCHED和UNMATCHED中,已 经分别对每个类别的组织器官词和样本名有若干个指标名描述。如图6所示,对每个组织 器官词或样本名,结合分类结果集合CLUSTER和短句集CLAUSE,计算指标名列表中的 每个指标名在短句语料对应子类中的TF值、IDF值和C-value值,筛选出TF值、IDF值 和C-value值满足阈值的指标名,作为最终模板中的成分。这里我们将TF和IDF单独作为 统计筛选参数,而不是按照信息检索中TF-IDF的常用方法将IDF作为TF的权重。不难理 解,模板中的指标名必然是在训练数据集中出现频率高、涉及范围广的字或词,因此应筛 选出TF值大于阈值thresholdTF或者IDF值小于阈值thresholdIDF的指标名;C-value值可 以用于解决术语嵌套问题,因此应筛选出C-value值大于阈值thresholdCvalue的指标名。

计算指标名w的TF值的公式如下:

TF(w)=CwC   (公式2)

其中,Cw为子类中w出现的次数,C为子类中的总词数。

计算指标名w的IDF值公式如下:

IDF(w)=log(DDw)   (公式3)

其中,D为子类中的全部短句数,Dw为子类中有w出现的短句数。

计算指标名w的C-value值计算公式如下:

   (公式4)

其中,|w|为w中的字数,f(w)为w在子类中出现的次数,Tw为子类中包含指标名w 的所有候选指标名的集合,P(Tw)为集合中候选指标名的数目。

如图7所示,模板应用和优化的主要思路是:对新的一句病理文本,先切分短句,再 用短句的第一个文本片段和模板库中的样本名匹配,找到相应的模板。若可以匹配到模板, 则直接调用对应的模板对短句进行结构化,返回结果;若匹配不到模板,则对短句进行简 单处理,如用特殊词库、数量词等进行匹配,返回结果,同时将这句病理文本加入到待处 理库中。当待处理库中的病理文本累积到一定量之后,再次走“短句指标名提取-短句分类 -模板提取”的流程来优化模板。

不难发现,本发明中的模板是从训练数据集里提取出来的,因此对此类文本结构化的 准确率较现有的通用方法要高;本发明中提取的模板会被定期优化,以适应最新的数据结 构化需求。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号