首页> 中文期刊>中国新药与临床杂志 >基于文本分类算法梳理MedDRA中文术语集

基于文本分类算法梳理MedDRA中文术语集

     

摘要

目的基于单字和穷举分词的文本分类算法构建负例分析和类别相似度偏度分析方法,查找、发现和修正《国际医学术语词典》(MedDRA)可能存在的问题。方法选择MedDRA 25.1中文版,使用单字和穷举分词生成术语的文本向量,采用逆频率指数和卡方加权生成类特征向量,采用余弦相似度计算文本向量与类特征向量的相似度。负例分析以相似度最大值作为术语类别判定标准。穷举分词向量取各术语前20位余弦相似度计算偏度,在两种类特征下余弦相似度分布均为负偏度,作为判定易混淆术语的指标。人工校验和分析计算结果。结果负例分析发现低位语594个分类错误,其中346个为首选语一致的同义词,154个错误因罗马数字造成,94个因字符增减和字序变化造成,其中16个疑似为翻译错误和不准确。类别相似度偏度分析发现各术语层级字面上易混淆的医学术语共165个,其中以涉及卵巢生殖细胞、淋巴瘤的医学术语最为典型。结论文本分类算法的负例分析可反推字典数据本身的错误,类别相似度偏度分析可发现字面易混淆的医学术语。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号