首页> 中文会议>第五届全国信息检索学术会议CCIR2009 >基于模板抽取和丰富特征的药名词典生成

基于模板抽取和丰富特征的药名词典生成

页面导航

摘要
著录项
相似文献
相关主题

摘要

近年来，关于药的作用及其对人类健康影响的研究越来越多，相关的文献也迅速增长，工业界认为90％的药物标靶来自于生物医学文献，随之基于药的相关检索逐渐成为焦点。而为相关专家提高检索效率、方便获得资料的第一步就是要准确的识别出药名，构建药名词典。文中给出了从生物医学文献中抽取出药名来构建词典的方法，第一次将基于上下文模板的命名实体识别方法用于药名实体识别并结合了丰富的特征对候选药名进行去噪。它首先由有限的药名种子出发，从大量未标生物医学文献中抽取出上下文信息;然后选取每个上下文的引导词从而构建模板，文中所用生成模板的方法简单有效，利用它抽取出粗糙的候选药名集合：最后选择丰富的特征利用机器学习的方法，对候选词典进行去噪，得到高质量的大规模药名词典。词典中包含了很多在常用数据库(Drugbank)中没有的药名，抽样调查准确率达到了73％，潜在准确率达到了80.8％。方法在模板生成以及候选药名去噪时的特征选择上并不局限于药名属性，可以尝试将该方法用于其它生物医学文献命名实体识别。

著录项

来源
《第五届全国信息检索学术会议CCIR2009》|2009年|633-642|共10页
会议地点上海
作者
徐博; 林鸿飞; 杨志豪;
展开▼
作者单位

中国中文信息学会;

展开▼
会议组织
正文语种
原文格式 PDF
中图分类文字信息处理;
关键词
命名实体识别; 药名识别; 上下文模板; 特征选择;
入库时间 2022-08-17 10:46:44

相似文献

中文文献
外文文献
专利

1. 基于自动生成模板的Web信息抽取技术 [J] . 张彦超 ,刘云 ,李勇 . 北京交通大学学报 . 2009,第005期
2. 一种基于多重词典的中文文本情感特征抽取方法 [J] . 朱艳辉 ,栗春亮 ,徐叶强 . 湖南工业大学学报 . 2011,第002期
3. 基于多特征时间抽取模型的食品安全事件演化序列生成研究 [J] . 王东波 ,叶文豪 ,吴毅 . 情报学报 . 2017,第009期
4. 基于融合SIFT特征和二次聚类视觉词典生成的场景分类方法 [J] . 郭乐新 ,金泰松 ,李玲玲 . 厦门大学学报（自然科学版） . 2013,第002期
5. 基于特征模板的工艺生成方法研究 [J] . 王正刚 ,葛友华 ,刘道标 . 制造技术与机床 . 2005,第006期
6. 基于双向线性变换的可比语料双语词典抽取重排序方法 [C] . Chunyue Zhang ,张春越 ,Tiejun Zhao . 第十二届全国机器翻译研讨会 . -1
7. 基于深度学习的药名实体关系抽取 [A] . 曾东火 . 2017

基于模板抽取和丰富特征的药名词典生成

摘要

著录项

相似文献

相关主题

期刊订阅