首页> 中国专利> 一种用于不孕不育症临床表型信息的自然语言处理方法及系统

一种用于不孕不育症临床表型信息的自然语言处理方法及系统

摘要

本发明提出一种用于不孕不育症临床表型信息的自然语言处理方法及系统,通过自然语言预处理、标点符号拆分、字段拆分法将中文临床表型原始字符串转换为中文和英文临床表型初始字符串、独立字符串和拆分字符串;基于预先建立的中文和英文本体词典,对临床表型初始字符串、独立字符串和拆分字符串进行精确匹配和模糊匹配,经过加权法则,最终输出与中文和英文本体词典匹配的一个或者多个本体。其中,模糊匹配旨在通过语义近似度来计算。本发明同时还提供了自然语言处理系统及介质,包括读取、转换、拆分、匹配和输出模块。本发明解决了中文临床表型信息和本体词典快速匹配的难题,为不孕不育症等疾病的全外显子测序分析带来了便利。

著录项

  • 公开/公告号CN112765318A

    专利类型发明专利

  • 公开/公告日2021-05-07

    原文格式PDF

  • 申请/专利权人 阅尔基因技术(苏州)有限公司;

    申请/专利号CN202110072754.8

  • 发明设计人 张晶;罗俊峰;

    申请日2021-01-20

  • 分类号G06F16/33(20190101);G06F16/36(20190101);G06F40/242(20200101);G06F40/247(20200101);G06F40/289(20200101);G06F40/30(20200101);

  • 代理机构32218 南京天华专利代理有限责任公司;

  • 代理人莫英妍;傅婷婷

  • 地址 215123 江苏省苏州市工业园区桑田街218号生物医药产业园二期20号楼301单元

  • 入库时间 2023-06-19 10:54:12

说明书

技术领域

本发明属于临床表型信息计算机处理领域,尤其是一种用于不孕不育症临床表型信息的自然语言处理方法及系统。

背景技术

我国现有不孕不育患者超过4000万,已成为肿瘤和心血管病之外的第三大疾病。随着社会压力的骤增,空气和食品污染的加重,不孕不育发病率从20年前的3.5%到已经上升为2016年的12.5%,有些地区已经超过15%,意味着每8对夫妻中就有一对患有不孕不育。根据研究表明,除了物理、化学、微生物等环境因子,个体自身的遗传因素也对不孕不育的发生有重要和深远的影响。

随着高通量测序技术在临床的广泛应用,以及遗传变异解读指南和数据库的完善,更加微观尺度的基因单碱基变异(SNV)、短插入缺失(InDel)和拷贝数变异(CNV),性染色体数量异常和Y染色体微缺失,对不孕不育的临床意义开始被逐渐发现和重视。遗传检测可明确诊断病因,使临床可以针对病因提出更加有效的治疗方式,避免尝试性和过度治疗。同时,明确的致病基因变异可通过胚胎植入前单基因遗传疾病诊断进行遗传阻断,避免后代仍然出现不育或其它健康问题。

目前,在临床实践中诊断不孕不育病因的方法可分为单基因检测、基因集合检测和全外显子测序等方法。其中,单基因检测和基因集合检测一般针对于由已知单个基因或某类单基因变异引起的不孕不育症的检测。全外显子测序不仅适用于由已知单个基因或者基因合集变异引起的不孕不育症的检测,通过结合临床诊断表型,还可以筛选出与不育不孕症有关的未知潜在的致病变异位点,为临床科研提供更多有效的证据支撑。

全外显子测序输出了海量的位点信息,人工筛选与临床表型信息相关的数百个候选位点信息是不切合实际的。借助于相应的工具,例如Exomiser、Phenomizer、Phenolyzer等,将不孕不育症的临床表型信息和人类表型本体(HPO)快速匹配起来,将有助于更高效的筛选与不孕不育症有关的潜在致病性位点。然而,医疗从业人员在医疗信息化平台中输入的不孕不育临床表型信息大多都是以非标准化语言呈现的,例如:格式复杂多样,经常使用多语言混杂,使用不规范语法,使用缩略语或者俗称代替标准术语,录入错误信息,文字中夹杂符号等杂乱信息,没有统一的标准等情况。这为实现不孕不育临床表型信息和表型本体的快速匹配带来了不便。

为了解决上述技术问题,需要把非标准化的临床表型进行自然语言处理,转化为可被计算机识别的标准化临床表型并与本体词典进行匹配。自动化的临床表型自然语言处理和本体词典匹配将会为不孕不育症的全外显子测序分析带来便利。

发明内容

本发明所解决的技术问题在于提供一种用于不孕不育症临床表型信息的自然语言处理方法及系统,解决了中文临床表型信息和本体词典快速匹配的难题,为不孕不育症等疾病的全外显子测序分析带来了便利。

实现本发明目的的技术解决方案为:

一种用于不孕不育症临床表型信息的自然语言处理方法,包括读取中文临床表型字符串或者中文临床表型相关文档;通过自然语言预处理、标点符号拆分、字段拆分法将中文临床表型原始字符串转换为中文和英文临床表型初始字符串、独立字符串和拆分字符串;基于预先建立的中文和英文本体词典,对临床表型初始字符串、独立字符串和拆分字符串进行精确匹配和模糊匹配,最终经加权法则输出与中文和英文本体词典匹配的一个或者多个本体。其中,模糊匹配旨在通过语义近似度来计算。本发明同时还提供了对应的自然语言处理系统及介质,包括读取、转换、拆分、匹配和输出模块。

本发明采用以上技术方案与现有技术相比,具有以下技术效果:

1、本发明通过特有函数来计算语义近似度,具有创新性,输出符合标准的临床表型术语可快速被计算机识别并与本体词典进行匹配;

2、本发明克服了由于传统中文数据库更新不及时或数据库内容不全对字符串-本体匹配造成的限制,通过加权方法对中英文精确匹配和模糊匹配结果进行排序,提升了检索准确度和效率;

3、本发明解决了人工匹配耗时久、匹配结果因人而异、无法自动化接入全外显子自动化分析流程等问题,大大提升了全外显子测序分析的效率;

4、本发明不局限于不孕不育症临床表型数据与人类表型本体的匹配,还可以应用到其他领域,如心血管疾病等临床表型与本体的匹配等。

附图说明

图1是本发明实施例1的不孕不育症临床表型信息的中文切分和匹配方法。

图2为本发明实施例2的不孕不育症临床表型信息的英文切分和匹配方法。

图3为本发明用于不孕不育症临床表型的自然语言处理方法的整体流程和加权法则。

具体实施方式

下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。

实施例1

如图1所示,本发明提供一种用于不孕不育症临床表型信息的中文切分和匹配方法。

步骤101,对中文临床表型字符串进行自然语言预处理,得到预处理后的中文临床表型初始字符串。

由于医疗从业人员输入的不孕不育临床表型信息大多都是以非标准化语言呈现的,包含了复杂的格式(例如:“OR 35枚,18枚MII”),多语言混杂(例如:“全外检测+Microdeletion/Microduplication”,“day3一枚7C2移植未孕”),不规范语法(例如:“前列腺ca”),缩略语或者俗称代替标准术语(例如:“RSA”,“IVF”,“PCOS”),错误信息(例如:“CVAVD”,“CUAVD”),文字中夹杂符号(例如:“无精?。”,“FSH 55↑”,“<1mL”)等情况,加大了中文临床表型原始字符串与本体词典的匹配难度。为了提升精确识别和模糊识别的准确度,发明人首先对中文临床表型原始字符串进行自然语言预处理,生成可被计算机识别的中文临床表型初始字符串。

对中文临床表型原始字符串进行自然语言预处理,生成预处理后的中文临床表型初始字符串可以按照如下具体方式实施:将中文临床表型原始字符串编码统一修改为UTF-8编码格式;将半角符号全部转换为全角符号;将阿拉伯数字转换为中文大写数字;剔除无意义字符串,例如重点关注,无,未检查,未查,正常,既往病史,具体表现为,要求检查,祥见附件,等;将不规整的临床描述替换为标准的中文文字描述,例如:用小于替换<,用百分比替换%,用较高替换↑,用较低替换↓,用直径大小替换Φ,用厘米替换cm,用毫升替换ml或者mL,等;将缩略语或者人工输入有误的缩略语变为中文全称,例如:当文中出现CUAVD、CVAVD、CBAVD、CBVAD,替换为先天性单侧输精管缺如,AsAbt替换为抗精子抗体,ICSI替换为卵胞浆内单精子显微注射技术,SCOS替换为唯支持细胞综合征,MMAF替换为精子鞭毛多发形态异常,PCOS替换为多囊卵巢综合征,IVF替换为体外受精,RSA替换为反复自然流产,ca替换为癌症,等;将英文名称替换为中文名称,例如:用微复制替换Microduplication,用微缺失替代Microdeletion;将大写字母变为小写字母;最终得到预处理后的中文临床表型初始字符串。

其中,无意义字符串由预先建立的中文非临床术语词典(如表1所示)提供,不规整的临床描述、缩略语、人工输入有误的缩略语和对应中文标准化描述由预先建立的中文临床表型标准术语词典(如表2所示)提供。

表1

表2

步骤102,判断预处理后的中文临床表型初始字符串是否含有标点符号。如果不包含标点符号,则不进行标点符号拆分,直接输出为中文独立字符串。

步骤103,如果包含了标点符号,则对预处理后的中文临床表型初始字符串进行拆分,得到中文独立字符串。

中文临床表型初始字符串夹杂着标点符号,这种长句结构经常包含了一个或者多个不孕不育症的临床表型,因此,需要根据标点符号对其进行拆分,得到具有独立语义的字符串。这里的标点符号包含却不限于句号、问号、叹号、逗号、顿号、分号、冒号、引号、括号、破折号、省略号、着重号、书名号、间隔号、连接号、专名号、编号序号、注释号、隐讳号、虚缺号、斜线号、标识号、代替号、连珠号和/或箭头号,等。例如:“先天性单侧输精管缺如,梗阻性无精症:男性不育。”,通过标点符号拆分,可得到“先天性单侧输精管缺如”,“梗阻性无精症”,“男性不育”三个独立的中文独立字符串。

对于没有标点符号的中文临床表型初始字符串,将不进行标点符号拆分,直接输出为中文独立字符串。例如:“无精子”,则不进行标点符号拆分,“无精子”可直接作为中文独立字符串进入下个步骤。

步骤104,判断中文独立字符串是否与中文本体词典精确匹配。

步骤105,如果中文独立字符串与中文本体词典精确匹配,则输出精确匹配的中文独立字符串。

其中,所述的中文本体词典包含却不局限于人类表型本体词典(HPO)。其中HPO词典包含若干个本体:表型异常本体,例如,骨骼系统异常、血液或者造血组织异常等;遗传模式本体,例如,常染色体显性遗传、常染色体隐性遗传等;临床修饰本体,例如,进展速度、出发因素、位置或严重程度等;临床发展过程本体和频率本体,例如,频繁性、偶尔性等。

中文本体包括本体名称、本体描述词、本体同义词或别称、本体缩略语。所述的本体词典语言为中文。

步骤106,对中文独立字符串进行拆分,得到中文拆分字符串。

步骤107,判断中文拆分字符串是否与中文本体词典精确匹配。

步骤108,如果中文拆分字符串与中文本体词典精确匹配,输出精确匹配的中文拆分字符串。

对中文独立字符串的拆分可以通过相应的分词工具来实现。中文的分词工具常见的有jieba、SnowNLP、THULAC、NLPIR等。拆分方法包括最大匹配法,以及搜索引擎构建倒排索引分词。

中文独立字符串的最大匹配拆分法步骤为:载入中文本体训练数据,该中文本体训练数据包括了中文本体词典的本体名称、本体描述词、本体同义词或别称、以及本体缩略语;对中文独立字符串进行拆分,当遇到中文本体训练数据中已经出现的本体名称、本体描述词、本体同义词或别称、本体缩略语,将其作为整体独立拆分出来。

例如:对“先天性单侧输精管缺如”进行拆分,由于“输精管缺如”已经存在于中文本体词典中,将作为整体独立拆分出来,所以最后的拆分结果为:“先天性”、“单侧”、“输精管缺如”三个中文拆分字符串。通过判断是否能与中文本体词典精确匹配,输出匹配字符串“输精管缺如”。

例如:对“梗阻性无精症”进行拆分,由于“梗阻性无精症”存在于中文本体词典中,最终拆分结果为“梗阻性无精症”一个中文拆分字符串。通过判断是否能与中文本体词典精确匹配,输出匹配字符串“梗阻性无精症”。

例如:对“全部精子异常”进行拆分,由于无已经存在于中文本体词典中的字符串,最终拆分的结果为:“全部”、“精子”、“异常”三个中文拆分字符串。

可选的,中文独立字符串的拆分还可以通过搜索引擎构建倒排索引分词来实现。

例如:对“先天性单侧输精管缺如”进行拆分,最终分词结果为:“先天”、“天性”、“先天性”、“单侧”、“输精”、“缺如”、“输精管”、“输精管缺如”八个中文拆分字符串。通过精确查找,可以找到“输精管缺如”与中文本体词典精确匹配,输出“输精管缺如”。

例如:对“梗阻性无精症”进行拆分,最终分词结果为:“梗阻”、“梗阻性”、“无精症”、“非梗阻性无精症”四个中文拆分字符串。通过精确查找,可以找到“无精症”以及“非梗阻性无精症”与中文本体词典精确匹配,输出“无精症”以及“非梗阻性无精症”。

例如:对“全部精子异常”进行拆分,最终分词结果为:“全部”、“精子”、“异常”三个中文拆分字符串,无与中文本体词典精确匹配的拆分字符串。

步骤109,对中文拆分字符串进行语义近似度来匹配。

步骤110,输出语义近似度最接近的中文本体词典的一个本体或多个本体。

例如,中文独立字符串“全部精子异常”未能与中文本体词典精确匹配,通过拆分后“全部”、“精子”、“异常”三个中文拆分字符串,经过精确查找,也未能与中文本体词典进行精确匹配。执行步骤109后,通过语义近似度对其与中文本体词典每个本体进行模糊匹配,输出前八个依次最匹配的本体,为“精子无活力症”、“精子头部异常”、“精子颈部异常”、“精子运动异常”、“大头精子”、“精子尾部异常”、“精子形态异常”、“精子活力降低”。

根据权利要求7到9中所述的函数来计算中文独立字符串“全部精子异常”与中文本体词典每个本体的语义近似度。表3所示为中文独立字符串“全部精子异常”与中文本体“精子头部异常”匹配的计算方法举例。其中每个拆分字符串在其独立字符串或者本体中出现的频次、包含该拆分字符串本体的个数如表3所示:

表3

中文拆分字符串“全部”的TF-IDF计算方法为:

“全部精子异常”与“精子头部异常”之间余弦距离的计算方法为:

实施例2

如图2所示,本发明提供一种用于不孕不育症临床表型信息的英文切分和匹配方法。

步骤201,对中文临床表型字符串进行自然语言预处理,得到预处理后的英文临床表型初始字符串。

对中文临床表型原始字符串进行自然语言预处理,生成预处理后的英文临床表型初始字符串可以按照如下具体方式实施:将中文临床表型原始字符串编码统一修改为UTF-8编码格式;将全角符号全部转换为半角符号;将阿拉伯数字转换为英文数字;剔除无意义字符串,例如重点关注,无,未检查,未查,正常,既往病史,具体表现为,要求检查,祥见附件,等;将不规整的临床描述替换为标准的英文文字描述,例如:用less than替换<,用percentage替换%,用high替换↑,用low替换↓,用diameter size替换Φ,用centimeter替换cm,用millilitre替换ml或者mL,等;将缩略语或者人工输入有误的缩略语变为英文全称,例如:当文中出现CUAVD、CVAVD、CBAVD、CBVAD,替换为congenital unilateral absenceof the vas deferens,AsAbt替换为anti-spermatzoon antibody,TESA替换为testicularsperm aspiration,ICSI替换为Intracytoplasmic sperm injection,SCOS替换为sertolicell only syndrome,MMAF替换为multiple morphologicalabnormalities of the spermflagella,PCOS替换为polycysticovarysyndrome,等;将大写字母变为小写字母,例如:用microduplication替代Microduplication,用microdeletion替代Microdeletion;将中文临床表型字符串自动翻译为英文;最终得到预处理后的英文临床表型初始字符串。

其中,无意义字符串由预先建立的中文非临床术语词典(如表1所示)提供,不规整的临床描述、缩略语、人工输入有误的缩略语和对应英文标准化描述由预先建立的英文临床表型标准术语词典(如表4所示)提供。

表4

步骤202,判断预处理后的英文临床表型初始字符串是否含有标点符号。如果不包含标点符号,则不进行标点符号拆分。

步骤203,如果包含了标点符号,则对预处理后的英文临床表型初始字符串进行拆分,得到英文独立字符串。

步骤204,判断英文独立字符串是否与英文本体词典精确匹配。

步骤205,如果英文独立字符串与英文本体词典精确匹配,则输出精确匹配的英文独立字符串。

其中,所述的英文本体词典包含却不局限于人类表型本体词典(HPO)。同中文本体词典,HPO词典包含若干个本体。

英文本体包括本体名称、本体描述词、本体同义词或别称、本体缩略语、本体跨库对应的其他本体词典,以及所述所有内容的总体描述。其中所述的跨库对应的其他本体词典,包括却不局限于国际临床医学标准术语(SNOMED CT医学名词)、人类疾病本体、组合表型本体、人类皮肤病本体、传染病本体、致病性疾病本体、哺乳动物表型本体等。所述的英文本体词典为英文。同时,英文本体词典包含了本体的树状(DAG)上下级结构,即hp之间的parents-children属种对应关系。

步骤206,对英文独立字符串进行拆分,得到英文拆分字符串。

步骤207,判断英文拆分字符串是否与英文本体词典精确匹配。

步骤208,如果英文拆分字符串与英文本体词典精确匹配,输出精确匹配的英文拆分字符串。

对英文独立字符串的拆分可以通过相应的分词工具来实现。英文的分词工具常见的有NLTK、Keras、Sklearn、SpaCy、Gensim等。

英文独立字符串的拆分法包括了N-gram(从1到30任意长度)拆分法则,即拆分为任意长度的拆分字符串。所述的拆分法也包括了拆分器的保存等。

例如:对“congenital unilateral absent vas deferens”进行拆分,最终拆分结果为:“congenital”、“congenital unilateral”、“congenital unilateral absent”、“congenital unilateral absent vas”、“congenital unilateral absent vasdeferens”、“unilateral”、“unilateral absent”、“unilateral absent vas”、“unilateral absent vas deferens”、“absent”、“absent vas”、“absent vas deferens”、“vas”、“vas deferens”、“deferens”十五个英文拆分字符串。通过判断是否能与英文本体词典精确匹配,输出匹配字符串“absent vas deferens”。

例如:对“obstructive azoospermia”进行拆分,最终拆分结果为:“obstructive”、“azoospermia”、“obstructive azoospermia”三个英文拆分字符串。通过精确查找,可以找到“obstructive azoospermia”与英文本体词典精确匹配,输出“azoospermia”和“obstructive azoospermia”。

例如:对“all sperm abnormalities”进行拆分,最终分词结果为:“all”、“allsperm”、“all sperm abnormalities”、“sperm”、“sperm abnormalities”、“abnormalities”六个英文拆分字符串,无与英文本体词典精确匹配的拆分字符串。

可选的,英文独立字符串的拆分法还包含了停用词的去除、词形还原、词干提取等自然语言处理方法,在此将不做赘述。

步骤209,对英文拆分字符串进行语义近似度匹配。

步骤210,输出语义近似度最接近的英文本体词典的一个本体或多个本体。

例如,英文独立字符串“all sperm abnormalities”以及其英文拆分字符串,没有与其精确匹配的英文本体,根据权利要求7到9中所述的函数,通过语义近似度来进行模糊匹配,即可找到与该英文独立字符串最大匹配的一个或多个本体,具体方法不做赘述。

实施例3

如图3所示,本发明实施例提供了用于不孕不育症临床表型的自然语言处理方法的整体流程和加权法则。

如图3所示的整体流程,通过对中文临床表型原始字符串的自然语言处理、拆分、精确匹配、和模糊匹配,输出以下字符串:与中文本体词典精确匹配的中文独立字符串(步骤304)、与英文本体词典精确匹配的英文独立字符串(步骤304)、与中文本体词典精确匹配的中文拆分字符串(步骤306)、与英文本体词典精确匹配的英文拆分字符串(步骤306)、与中文独立字符串最大匹配的中文本体词典的一个或多个本体(步骤307)、以及与英文独立字符串最大匹配的英文本体词典的一个或多个本体(步骤307);

例如,步骤302、303,对中文临床表型原始字符串“先天性单侧输精管缺如?”进行中文自然语言预处理、标点符号拆分,得到中文独立字符串“先天性单侧输精管缺如”。步骤304,通过精确查找,未找到与中文本体词典精确匹配的中文独立字符串。步骤305,通过最大拆法将“先天性单侧输精管缺如”拆分为“先天性”、“单侧”、“输精管缺如”三个中文拆分字符串。步骤306,经过精确查找,输出与中文本体词典精确匹配的中文拆分字符串“输精管缺如”。步骤307,通过语义近似度对其与中文本体词典每个本体进行模糊匹配,输出前三个依次最匹配的本体,为“输精管缺如”、“输精管闭锁”、“不育症”。

同时,步骤302、303,对中文临床表型原始字符串“先天性单侧输精管缺如?”进行英文自然语言预处理、标点符号拆分,得到英独立字符串“congenital unilateral absentvas deferens”。步骤304,通过精确查找,未找到与英文本体词典精确匹配的英文独立字符串。步骤305,通过N-gram拆法将“先天性单侧输精管缺如”拆分为:“congenital”、“congenital unilateral”、“congenital unilateral absent”、“congenital unilateralabsent vas”、“congenital unilateral absent vas deferens”、“unilateral”、“unilateral absent”、“unilateral absent vas”、“unilateral absent vas deferens”、“absent”、“absent vas”、“absent vas deferens”、“vas”、“vas deferens”、“deferens”十五个英文拆分字符串。步骤306,经过精确查找,输出与英文本体词典精确匹配的英文拆分字符串“absent vas deferens”(输精管缺如)。步骤307,通过语义近似度对其与英文本体词典每个本体进行模糊匹配,输出前三个依次最匹配的本体,为“absent vas deferens”(输精管缺如)、“atretic vas deferens”(输精管闭锁)、“abnormal vas deferensmorphology”(输精管形态异常)。

因此,通过对中文独立字符串“先天性单侧输精管缺如”和英文独立字符串“congenital unilateral absent vas deferens”的自然语言处理、拆分、精确匹配、和模糊匹配,步骤304、306、307输出字符串如表5所示:

表5

步骤308,根据权利要求10中所述的加权函数,来计算最终与中文独立字符串、英文独立字符串匹配的一个或多个本体。加权方法如下所示:

“输精管缺如”加权后的整体权重为:

“输精管闭锁”加权后的整体权重为:

“不育症”加权后的整体权重为:

“输精管形态异常”加权后的整体权重为:

根据加权后的权重大小,最终输出与“先天性单侧输精管缺如”、“congenitalunilateral absent vas deferens”最终匹配的结果,从大到小依次为:“输精管缺如”、“输精管闭锁”、“输精管形态异常”和“不育症”。

为了方便本领域技术人员理解,上述示例中的中文临床表型原始字符串,经过自然语言预处理和标点符号拆分,仅得到单一的中文独立字符串,和对应的单一的英文独立字符串。在实际情况中,中文临床表型原始字符串往往以长句结构出现,经过自然语言预处理和标点符号拆分,可以得到多个中文独立字符串和对应的英文独立字符串。在此情况下,步骤304到308的整体流程和加权法则将会应用到每一对中英文独立字符串。

以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进,这些改进应视为本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号