基于文本分类算法梳理MedDRA中文术语集

韩兵; 杨桂秀; 磨筱垚

首页> 中文期刊>中国新药与临床杂志 >基于文本分类算法梳理MedDRA中文术语集

基于文本分类算法梳理MedDRA中文术语集

开具论文收录证明 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

目的基于单字和穷举分词的文本分类算法构建负例分析和类别相似度偏度分析方法,查找、发现和修正《国际医学术语词典》(MedDRA)可能存在的问题。方法选择MedDRA 25.1中文版,使用单字和穷举分词生成术语的文本向量,采用逆频率指数和卡方加权生成类特征向量,采用余弦相似度计算文本向量与类特征向量的相似度。负例分析以相似度最大值作为术语类别判定标准。穷举分词向量取各术语前20位余弦相似度计算偏度,在两种类特征下余弦相似度分布均为负偏度,作为判定易混淆术语的指标。人工校验和分析计算结果。结果负例分析发现低位语594个分类错误,其中346个为首选语一致的同义词,154个错误因罗马数字造成,94个因字符增减和字序变化造成,其中16个疑似为翻译错误和不准确。类别相似度偏度分析发现各术语层级字面上易混淆的医学术语共165个,其中以涉及卵巢生殖细胞、淋巴瘤的医学术语最为典型。结论文本分类算法的负例分析可反推字典数据本身的错误,类别相似度偏度分析可发现字面易混淆的医学术语。

著录项

来源
《中国新药与临床杂志》|2023年第5期|331-336|共6页
作者
韩兵; 杨桂秀; 磨筱垚;
展开▼
作者单位

首都医科大学附属北京世纪坛医院,北京100038;

北京信安佳康医疗科技有限公司,北京100120;

展开▼
原文格式 PDF
正文语种 chi
中图分类药事组织;
关键词
MedDRA; 术语; 算法; 文本挖掘; 负例分析; 相似度;
入库时间 2024-01-21 08:22:41

相似文献

中文文献
外文文献
专利

1. 构建基于MedDRA术语的中医临床试验编码术语集初探 [J] . 李庆娜 ,陆芳 ,赵阳 . 中国药物警戒 . 2015,第1期
2. 基于粗糙集的中文文本分类算法与应用 [J] . 陈沛 ,毛安定 . 中国新通信 . 2013,第23期
3. 基于混合字词特征的中文短文本分类算法 [J] . 刘硕 ,王庚润 ,彭建华 . 计算机科学 . 2022,第4期
4. 基于深度学习的中文文本分类算法 [J] . 薛兴荣 ,靳其兵 . 计算机与数字工程 . 2022,第1期
5. 基于Stacking-Bert集成学习的中文短文本分类算法 [J] . 郑承宇 ,王新 ,王婷 . 科学技术与工程 . 2022,第10期
6. 一种基于EP的中文文本自动分类算法 [C] . 许红涛 ,范明 ,昝红英 . 2005第一届中国分类技术与应用研讨会（CSCA） . 2005
7. 基于粗糙集的中文文本分类算法研究及应用 [A] . 张保富 . 2010

基于文本分类算法梳理MedDRA中文术语集

摘要

著录项

相似文献

相关主题

期刊订阅