首页> 中国专利> 基于预训练语言模型的电子病历文本命名实体识别方法

基于预训练语言模型的电子病历文本命名实体识别方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明属于医疗信息数据处理技术领域，具体涉及一种基于预训练语言模型的电子病历文本命名实体识别方法，包括：从公开数据集收集电子病历文本作为原始文本，并预处理；基于规范医疗术语集对经预处理的原始文本实体标注，得标注文本；将标注文本输入预训练语言模型，得字向量表示的训练文本；构建BiLSTM‑CRF序列标注模型，对训练文本进行学习，得训练的标注模型；以训练的标注模型作为实体识别模型，输入测试文本即可输出标注的类别标签序列。利用在超大规模中文语料中训练得到深层语言模型中的文本特征和语义信息，能够提供更好的语义压缩效果，避免人工标注繁琐复杂的问题，且不依赖词典和规则，提高了命名实体识别的查全率和准确率。

著录项

公开/公告号CN110705293A

专利类型发明专利
公开/公告日2020-01-17

原文格式PDF
申请/专利权人中国科学院苏州生物医学工程技术研究所;
展开▼

申请/专利号CN201910785097.4
发明设计人戴亚康;戴斌;耿辰;周志勇;胡冀苏;
展开▼

申请日2019-08-23
分类号
代理机构北京远大卓悦知识产权代理事务所(普通合伙);
代理人韩飞
地址 215163 江苏省苏州市高新区科技城科灵路88号
入库时间 2023-12-17 06:47:23

法律信息

法律状态公告日

法律状态信息

法律状态
2020-02-18

实质审查的生效 IPC(主分类):G06F40/295 申请日:20190823

实质审查的生效
2020-01-17

公开

公开

相似文献

专利
中文文献
外文文献

1. 基于预训练语言模型的电子病历文本命名实体识别方法 [P] . 中国专利： CN110705293A . 2020-01-17
2. 基于预训练语言模型的法律文本类案检索方法及系统 [P] . 中国专利： CN114065760A . 2022-02-18
3. Method of selecting training text for language model, and method of training language model using the training text, and computer and computer program for executing the methods [P] . 美国专利： US10418029B2 . 2019-09-17

机译：选择用于语言模型的训练文本的方法，使用该训练文本的训练语言模型的方法以及用于执行该方法的计算机和计算机程序
4. METHOD OF SELECTING TRAINING TEXT FOR LANGUAGE MODEL, AND METHOD OF TRAINING LANGUAGE MODEL USING THE TRAINING TEXT, AND COMPUTER AND COMPUTER PROGRAM FOR EXECUTING THE METHODS [P] . 美国专利： US2018114524A1 . 2018-04-26

机译：用于语言模型的训练文本的选择方法，以及使用该训练文本的训练语言模型的方法，以及用于执行该方法的计算机和计算机程序
5. Method of selecting training text for language model, and method of training language model using the training text, and computer and computer program for executing the methods [P] . 美国专利： US9934776B2 . 2018-04-03

机译：选择用于语言模型的训练文本的方法，使用该训练文本的训练语言模型的方法以及用于执行该方法的计算机和计算机程序