首页> 中国专利> 一种中文病理文本结构化处理方法

一种中文病理文本结构化处理方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明涉及一种中文病理文本结构化处理方法，包括以下步骤：从病理报告文本数据的样本与指标的层次结构中提取出各个样本所对应的模板信息；对模板信息进行提取，包括短句切分和指标名提取；短句分类；对每个样本结合分类结果集合CLUSTER和短句集CLAUSE，计算指标名列表中的每个指标名在短句语料中的TF值、IDF值和C-value值，筛选出TF值、IDF值和C-value值满足阈值的指标名，作为最终模板中的成分。本发明能够将非结构化的中文病理文本结构化。

著录项

公开/公告号CN104899260A

专利类型发明专利
公开/公告日2015-09-09

原文格式PDF
申请/专利权人东华大学;上海交通大学医学院附属瑞金医院;
展开▼

申请/专利号CN201510260060.1
发明设计人陈德华;冯洁莹;朱立峰;乐嘉锦;刘茜茜;薛瑞东;
展开▼

申请日2015-05-20
分类号
代理机构上海泰能知识产权代理事务所;
代理人宋缨
地址 201620 上海市松江区松江新城人民北路2999号
入库时间 2023-12-18 10:55:13

法律信息

法律状态公告日

法律状态信息

法律状态
2018-02-23

授权

授权
2015-10-07

实质审查的生效 IPC(主分类):G06F17/30 申请日:20150520

实质审查的生效
2015-09-09

公开

公开

说明书

技术领域

本发明涉及自然语言处理技术领域，特别是涉及一种中文病理文本结构化处理方法。

背景技术

随着互联网的迅速发展和国内医疗行业信息化进程的逐渐推进，医疗行业的信息量也在呈指数式爆炸增长。同时，伴随着生活水平的提高，人们也逐渐从最基本的能看病，转向关注医疗诊断的效率和准确度。传统医疗方式下积累的以及现阶段每天实时增加的大量非结构化的病理数据，不仅不易于存储管理，而且不能满足如今的病理分析需求。

如何从非结构化的病理数据中获取有用的信息成为当前的研究热点之一。现有的自然语言处理技术和数据挖掘技术，如分词、聚类分类、信息抽取等，已经能在很大程度上解决这一问题，但如何高效且准确地从非结构化的中文病理文本中获取有用的信息仍是一大难题。

发明内容

本发明所要解决的技术问题是提供一种中文病理文本结构化处理方法，能够将非结构化的中文病理文本结构化。

本发明解决其技术问题所采用的技术方案是：提供一种中文病理文本结构化处理方法，包括以下步骤：

(1)从病理报告文本数据的样本与指标的层次结构中提取出各个样本所对应的模板信息；

(2)对模板信息进行提取，包括短句切分和指标名提取；短句分类；

(3)对每个样本结合分类结果集合CLUSTER和短句集CLAUSE，计算指标名列表中的每个指标名在短句语料中的TF值、IDF值和C-value值，筛选出TF值、IDF值和C-value 值阈值的指标名，作为最终模板中的成分。

所述步骤(2)中短句切分是采用正则匹配的方法，当病理报告文本数据中检测到符合正则表达式时进行断句，从而将病理报告文本数据切分成若干短句。

所述步骤(2)的指标名提取具体包括：(A)样本名的提取：利用开源的分词工具，结合人体组织器官词库以及样本名出现在短句的第一个文本片段中的规律，对无关文本进行过滤筛选，提取出每个短句对应的样本名；(B)指标名的提取：将短句按标点符号切分成若干语义上独立的文本片段，将每个文本片段先用特殊词库匹配和数量词匹配进行筛选，再对匹配失败的文本片段用统计方法进行处理；最后通过将经过上述操作得到的键值对中的指标名去重合并，得到每个短句对应的若干指标名。

所述步骤(2)中的短句分类包括：

先对短句集合CLAUSE进行初步分类，将样本名完全相同的短句归为一类，归类后的每个子类的指标名列表为其所包含的所有短句的指标名列表的去重合并，最后得到经过初步分类的子类集合CLAUSE_PC；

将初步分类后的每个子类的样本名sn跟组织器官词典DIC中的词word两两计算相似度，并放到一个二维数组Array中，其中，Array_ij的值是编号为i的子类的样本名和编号为 j的组织器官词典中的词的样本名相似度；

优先处理样本名相似度完全相同的子类：将该子类中的所有短句都被归入组织器官词 word下，将分类信息写入分类结果集合CLUSTER，并将该子类从子类集合中移除；

处理样本名相似度值近似的子类：每个子类都能找到零个到多个组织器官词word满足要求，对那些能够找到至少一个满足要求的组织器官词word的子类，计算该子类的指标名列表和与其对应的每个组织器官word的指标名列表的指标名相似度，找到指标名相似度最大的组织器官词word’，将该子类c就归入相似度最大的组织器官词word’下，将分类信息写入分类结果集合CLUSTER，更新相似度最大的组织器官词word’在MATCHED 集合中的指标值列表，同时将该子类c从子类集合中移除；

对子类集合中余下的子类，直接采用初步分类的结果将短句分类，将分类信息写入分类结果集合CLUSTER，同时，将每个子类的样本名和指标值列表信息写入UNMATCHED 集合中；

输出分类结果集合CLUSTER，以及MATCHED集合和UNMATCHED集合。

有益效果

由于采用了上述的技术方案，本发明与现有技术相比，具有以下的优点和积极效果：本发明中的模板是从训练数据集里提取出来的，因此对此类文本结构化的准确率较现有的通用方法要高；本发明中提取的模板会被定期优化，以适应最新的数据结构化需求。

附图说明

图1是本发明中病理文本层次结构图；

图2是样本名提取的数据流图；

图3是指标名提取的数据流图；

图4是短句切分和指标名提取的顶层数据流图；

图5是短句初步分类的数据流图；

图6是模板提取的数据流图；

图7是模板应用的数据流图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明的实施方式涉及一种中文病理文本结构化处理方法，包括以下步骤：(1)从病理报告文本数据的样本与指标的层次结构中提取出各个样本所对应的模板信息；(2)对模板信息进行提取，包括短句切分和指标名提取；短句分类；(3)对每个样本结合分类结果集合CLUSTER和短句集CLAUSE，计算指标名列表中的每个指标名在短句语料中的TF 值、IDF值和C-value值，筛选出TF值、IDF值和C-value值满足阈值的指标名，作为最终模板中的成分。

病理报告文本数据主要包含如下信息(见表1)：病人基本信息、肉眼所见、镜下所见、病理诊断。本方法是针对病理文本数据中的“肉眼所见”部分。

表1 病理文本数据样例

医生书写的病理文本一般都会遵循一定的书写规范。如在病理文本的“肉眼所见”字段中，一般会包含若干个样本，针对其中某个样本，又会有若干个指标来描述，从而构成样本与指标的层次结构(见图1)。

以表1中的病理文本数据为例，该例中的样本名有十二指肠、肿块、管壁样物、胆总管、胆囊、结节等；其中，十二指肠的指标名有长度、周径、粘膜等。

通过本方法的处理，可以从病理文本数据的“肉眼所见”字段中提取出若干样本分别对应的模板信息。仍以表1中的病理文本数据为例，部分样本的模板样例如表2所示。

表2样本的模板样例

模板提取主要包括3个关键步骤，具体有：

第一步为短句切分和指标名提取。首先根据总结的规则，将一句病理文本切分成若干句语义上独立的短句。这里采用正则匹配的方法，当病理文本中检测到符合正则表达式时进行断句，从而将病理文本切分成若干短句。正则表达式为：

。另送，|，另送|另送|N[0|o].{0,10}:|,找到|找到|。|.另送|；|，另见|另见|见

指标名提取可以细分为两个阶段：

第一阶段为样本名的提取，如图2所示，由于医学病理报告的书写规范要求，样本名一般出现在短句的第一个文本片段中。根据这个特性，再利用开源的分词工具，结合人体组织器官词库以及总结的规律，对无关文本进行过滤筛选，可以提取出每个短句对应的样本名。

第二阶段为指标名的提取，如图3所示，结合医学病理报告的书写特点，可以整理出 4个特殊的词库：颜色库、质地库、形状库、状态库。将短句按标点符号(这里主要为冒号和逗号)切分成若干语义上独立的文本片段(每个文本片段包含一个“<指标名,指标值>” 键值对或“<null,指标值>”(指标名缺省)键值对)，将每个文本片段先用特殊词库匹配和数量词匹配进行筛选，再对匹配失败的文本片段用统计方法进行处理。最后，通过将经过上述操作得到的键值对中的指标名去重合并，可以得到每个短句对应的若干指标名。

同时，为了后期处理方便，此处给每个短句添加一个唯一的编号。

经过以上两个阶段，每个短句从纯文本描述表示转变为“<唯一短句编号c#,样本名sn, 指标名列表list>”表示。图4为短句切分和指标名提取的顶层数据流图。

第二步为短句分类。为使样本的模板尽可能全面地覆盖可能会出现的描述内容，需要先对短句进行分类，将描述同一样本的短句放到同一个分类中。短句分类算法的基本思想是尽可能地将每个短句归类到跟它有关联的人体组织器官词库中的某一组织器官词下。同时，该算法有个“副产品”，就是最后被匹配上的组织器官词都会有一个指标名列表，未匹配上词库的样本名也会汇总为相应的指标名列表。

算法具体步骤如下：

1)先对短句集合CLAUSE进行初步分类，见图5，将样本名完全相同的短句归为一类，归类后的每个子类的指标名列表为其所包含的所有短句的指标名列表的去重合并，最后得到经过初步分类的子类集合CLAUSE_PC。

2)为避免重复计算样本名相似度，先将初步分类后的每个子类的样本名sn跟组织器官词典DIC中的词word两两计算相似度,放到一个二维数组Array中。其中，Array_ij的值是编号为i的子类的样本名和编号为j的组织器官词典中的词的样本名相似度。这里我们将带样本名的短句集作为训练数据，用Google的开源项目word2vec训练出对应的词向量文件，在该词向量文件中，每个词(在我们的实验中是样本名或指标名)会有一个高维的向量表示，则计算子类样本名和组织器官词的样本名相似度，即计算这两个向量的余弦相似度。余弦相似度计算公式为：

$similaritySN (sn, word) = \cos (θ) = \frac{A \cdot B}{| | A | | | | B | |}$ (公式1)

其中，A为样本名sn对应的词向量，B为组织器官词word对应的词向量，A·B为两个向量的内积，||A||和||B||分别为两个向量的模。

特殊地，若子类样本名和组织器官词完全相同，则样本名相似度直接置为1。

3)优先处理样本名相似度为1的子类。对词典DIC中的某一词word而言，一旦有某个子类c的样本名与word完全一致，那么子类c对应的指标名列表一定是描述word的，更新word的指标名列表(word的指标名列表信息存放在集合MATCHED中)。同时，子类c中的所有短句都被归入组织器官词word下，将分类信息写入集合CLUSTER，并将该子类从子类集合中移除。

4)处理样本名相似度值在区间(0,1)中的子类。每个子类都能找到零个到多个word满足要求，对那些可以找到至少一个满足要求的word的子类c，计算c的指标名列表和与其对应的每个word的指标名列表的指标名相似度。指标名相似度计算方法类似于样本名相似度计算，不同之处，由于指标名列表是由若干个指标名组成的，这里简单对两个列表的指标名两两计算余弦相似度并进行累加。

找到指标名相似度最大的word’，该子类c就归入word’下，将分类信息写入集合 CLUSTER，更新word’在MATCHED中的指标值列表，同时将子类c从子类集合中移除。

5)对子类集合中余下的子类，直接采用初步分类的结果将短句分类，将分类信息写入集合CLUSTER。同时，将每个子类的样本名和指标值列表信息写入UNMATCHED集合中。

6)输出分类结果集CLUSTER，以及“副产品”集合MATCHED和集合UNMATCHED。

经过上述算法，可以得到短句的分类结果集CLUSTER、集合MATCHED和集合 UNMATCHED。

第三步为模板提取。上一步得到的“副产品”--MATCHED和UNMATCHED中，已经分别对每个类别的组织器官词和样本名有若干个指标名描述。如图6所示，对每个组织器官词或样本名，结合分类结果集合CLUSTER和短句集CLAUSE，计算指标名列表中的每个指标名在短句语料对应子类中的TF值、IDF值和C-value值，筛选出TF值、IDF值和C-value值满足阈值的指标名，作为最终模板中的成分。这里我们将TF和IDF单独作为统计筛选参数，而不是按照信息检索中TF-IDF的常用方法将IDF作为TF的权重。不难理解，模板中的指标名必然是在训练数据集中出现频率高、涉及范围广的字或词，因此应筛选出TF值大于阈值thresholdTF或者IDF值小于阈值thresholdIDF的指标名；C-value值可以用于解决术语嵌套问题，因此应筛选出C-value值大于阈值thresholdCvalue的指标名。

计算指标名w的TF值的公式如下：

$TF (w) = \frac{C_{w}}{C}$ (公式2)

其中，C_w为子类中w出现的次数，C为子类中的总词数。

计算指标名w的IDF值公式如下：

$IDF (w) = \log (\frac{D}{D_{w}})$ (公式3)

其中，D为子类中的全部短句数，D_w为子类中有w出现的短句数。

计算指标名w的C-value值计算公式如下：

(公式4)

其中，|w|为w中的字数，f(w)为w在子类中出现的次数，T_w为子类中包含指标名w 的所有候选指标名的集合，P(T_w)为集合中候选指标名的数目。

如图7所示，模板应用和优化的主要思路是：对新的一句病理文本，先切分短句，再用短句的第一个文本片段和模板库中的样本名匹配，找到相应的模板。若可以匹配到模板，则直接调用对应的模板对短句进行结构化，返回结果；若匹配不到模板，则对短句进行简单处理，如用特殊词库、数量词等进行匹配，返回结果，同时将这句病理文本加入到待处理库中。当待处理库中的病理文本累积到一定量之后，再次走“短句指标名提取-短句分类 -模板提取”的流程来优化模板。

不难发现，本发明中的模板是从训练数据集里提取出来的，因此对此类文本结构化的准确率较现有的通用方法要高；本发明中提取的模板会被定期优化，以适应最新的数据结构化需求。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种中文病理文本结构化处理方法 [P] . 中国专利： CN104899260B . 2018.02.23
2. 非结构化中文乳腺超声文本的结构化处理方法 [P] . 中国专利： CN106502982B . 2019.04.09
3. Text processing method, involves separating text and layout information by utilizing structured data files, and automatically inserting information into existing layout, where structured data are formed in extensible markup language format [P] . 德国专利： DE102005025752A1 . 2006-12-07

机译：文本处理方法涉及通过利用结构化数据文件来分离文本和布局信息，并自动将信息插入现有布局中，在结构化数据中以可扩展标记语言格式形成结构化数据
4. METHOD, SYSTEM, COMPUTER DEVICE AND COMPUTER-READABLE MEDIUM ON THE BASIS OF CHINESE LANGUAGE ONTOLOGY DATABASE AUTOMATICALLY GENERATED FROM STRUCTURED NETWORK KNOWLEDGE [P] . 世界知识产权组织专利： WO2018019289A1 . 2018-02-01

机译：基于结构化网络知识自动生成的中文本体数据库的方法，系统，计算机设备和计算机可读介质
5. A system and method for discriminating removing boilerplate text in documents comprising structured labelled text elements [P] . 英国专利： GB201821327D0 . 2019-02-13

机译：一种用于区分去除包括结构化标记文本元素的文档中的样板文本的系统和方法