您现在的位置: 首页> 研究主题> 实体识别

实体识别

实体识别的相关文献在2002年到2023年内共计588篇,主要集中在自动化技术、计算机技术、科学、科学研究、信息与知识传播 等领域,其中期刊论文226篇、会议论文27篇、专利文献256929篇;相关期刊123种,包括现代图书情报技术、智能计算机与应用、计算机工程等; 相关会议23种,包括中国计算机学会第一届CCF大数据学术会议、第29届中国数据库学术会议、第十一届全国计算语言学学术会议等;实体识别的相关文献由1548位作者贡献,包括李建中、王宏志、高宏等。

实体识别—发文量

期刊论文>

论文:226 占比:0.09%

会议论文>

论文:27 占比:0.01%

专利文献>

论文:256929 占比:99.90%

总计:257182篇

实体识别—发文趋势图

实体识别

-研究学者

  • 李建中
  • 王宏志
  • 高宏
  • 关毅
  • 寇月
  • 王健宗
  • 申德荣
  • 聂铁铮
  • 余正涛
  • 吕学强
  • 期刊论文
  • 会议论文
  • 专利文献

搜索

排序:

年份

作者

    • 彭怀; 宋井宽; 唐向红
    • 摘要: 知识库问答任务是自然语言处理领域中的研究热点之一,目前国内外学者对知识库问答方法的研究大多数是基于英文数据,基于中文数据的研究非常少。由于中文存在语言多变性、语法不明确性、语言歧义性等特点,导致很多英文知识库问答研究方法很难应用于中文数据。针对以上问题,该文提出一种基于信息匹配的中文知识库问答研究方法,探索方法在中文数据上的效果。首先对问题进行主语实体识别和属性值识别;其次将问句中的实体链接到知识库中的实体,使用逻辑回归对候选实体进行筛选;再次抽取其两跳内关系作为候选查询路径,将候选查询路径和问题进行相似度匹配得到匹配度最高的候选路径;最后使用实体拼接来得到多实体情况的查询路径,查询知识库获得最终答案。该方法在CCKS2019 CKBQA测试集上的F值达到了75.6%。
    • 薛振宇; 线岩团; 余正涛; 高盛祥; 普浏清
    • 摘要: 针对越南语事件标注语料稀缺且标注语料中未登陆词过多导致实体识别精度降低的问题,提出一种融合词典与对抗迁移的实体识别模型。将越南语作为目标语言,英语和汉语作为源语言,通过源语言的实体标注信息和双语词典提升目标语言的实体识别效果。采用词级别对抗迁移实现源语言与目标语言的语义空间共享,融合双语词典进行多粒度特征嵌入以丰富目标语言词的语义表征,再使用句子级别对抗迁移提取与语言无关的序列特征,最终通过条件随机场推理模块标注实体识别结果。在越南语新闻数据集上的实验结果表明,在源语言为英语和汉语的情况下,该模型相比主流的单语实体识别模型和迁移学习模型的实体识别性能有明显提升,并且在加入目标语义标注数据后,相比单语实体识别模型的F1值分别增加了19.61和18.73个百分点。
    • 胡宇; 申德荣; 聂铁铮; 寇月
    • 摘要: 生物医学文本蕴含着丰富的探索价值,其为生物医学工作者进行研究提供了宝贵的领域知识.充分且高效地利用海量的生物医学文献,并从中发现重要的隐藏信息、获取专业领域知识,对生物医学研究具有重要的意义.生物医学实体链接是对生物医学文本中的命名实体进行识别,并将表示该实体的某些字符串映射到生物医学领域知识库中对应概念.生物医学实体链接任务通常面临两个主要的挑战:(1)自然语言描述的歧义性.(2)自然语言文本与生物医学知识库的异构性.传统的方法基于特征选择或规则发现,依赖于手动选择特征或定义规则,处理分阶段模型中也可能出现误差传播.因此,本工作提出了一种深度学习和知识库相结合的实体链接方法,通过深度挖掘自然语言文本的隐藏特征,及其与知识库概念图间结构的相似性,将生物医学实体识别与实体-概念对齐两个任务进行联合式处理.该方法旨在通过标准的生物医学知识库,自动获取生物医学实体的语义信息,挖掘生物医学实体之间的语义关系.实验表明,该方法在实体识别与对齐方面取得了较好的效果,显著提高了任务的精确性,在实体链接核心任务上取得了超过10%的性能提升.
    • 刘齐凯; 李鹏程; 陆伟; 程齐凯
    • 摘要: 本文探讨了科技文献中算法实体的自动识别研究,着重研究嵌套型算法实体的识别优化问题。首先通过远程监督学习的方式构建算法实体训练语料,再引入数据增强技术扩充语料规模,最后应用BartNER模型实现科技文献中嵌套算法实体的自动识别。实验结果显示,在引用数据增强技术的基础上BartNER模型取得了76.66%的F1值,证明该方法对嵌套算法实体识别的有效性,同时证明数据增强策略能够有效提升嵌套算法实体的识别效果。
    • 沈同平; 金力; 黄方亮; 许欢庆
    • 摘要: 针对传统HMM模型存在的上下文信息获取困难、未登录词无法处理等问题,本文提出一种优化的HMM模型。优化后的模型充分考虑了上下文的语义联系和依赖关系,采用Bi-gram指数线性插值算法,消除零概率事件,并对未登录词进行处理。使用改进的Viterbi算法求解最可能的状态序列并输出结果,提高模型的识别效果。使用简历数据集和CCKS2017电子病历数据集进行模型对比验证,实验结果表明,优化的HMM模型的实体识别效果优于传统的HMM模型,在CCKS2017电子病历数据集中的准确率和F1值分别达到91.61%和91.21%,提升了15.84%和11.78%;在简历数据集中的准确率和F1值分别达到91.29%和91.07%,提升了8.67%和6.88%。
    • 张亮; 吴闯; 唐希浪; 冯少林
    • 摘要: 故障实体识别是自主获取航空发动机故障知识的基础,对实现航空发动机故障智能诊断起到至关重要的作用。为准确快速搭建航空发动机大规模故障知识库,在定义了“单元”“故障状态”“表征信号”“检查方法”和“解决措施”5种航空发动机故障实体类型的基础上,初步构建了一种以Bert-BiLSTM-CRF模型为基础的航空发动机故障实体识别方法。基于某型航空发动机大规模数据集分析抽取了故障实体,搭建了滑油压力异常故障知识图谱,验证了该方法识别航空发动机多源异构故障数据的有效性。
    • 宋玮琼; 韩柳; 羡慧竹; 姚盛楠; 郭帅
    • 摘要: 知识图谱拥有强大的表达能力,借助知识图谱可快速生成检索配电网设备选型、配置连接的辅助决策规则库,有利于降低配电网规范使用难度。同时,由于自动从技术规范文档提取实体关系时存在实体缺失和语义模糊等问题,文中提出基于GCN的配电网知识图谱构建方法,利用文档的语法依存关系和图神经网络的消息传递能力,实现多元实体关系抽取,以提高知识图谱构建的完整性。实验结果表明,该方法在实体关系提取任务的准确度方面有了明显的提高。基于此,文中还提出了基于知识图谱遍历的配电网计量装置选型规则生成方法,其生成的规则更加精确,避免了模糊性。
    • 任常青
    • 摘要: 地方志承载了当地丰富且悠久的历史、文化和思想,本文以雄安县志为例,对其中所记录的作物物产名称和信息中的7大类实体进行自动识别和抽取,为后续方志古籍知识库、智能问答系统构建提供基础。对雄安县志物产节进行数据预处理后,分别利用条件随机场(Conditional Random Fields,CRF)、Bi-RNN和Bi-LSTM-CRF在该语料上进行实体识别的实验研究,并对最终结果进行对比分析。在全部语料上训练得到的Bi-LSTM-CRF模型的准确率和召回率分别达到了82.27%和88.12%,证明了与单一学习模型相比,融合机器学习与深度学习的模型在实体识别任务中有更好的表现,能够为大规模古籍文本的智能化处理与深度挖掘提供借鉴。
    • 余杰; 纪斌; 吴宏明; 任意; 李莎莎; 马俊; 吴庆波
    • 摘要: 基于span的联合抽取模型在命名实体识别和关系抽取上取得了优异的效果。这些模型将文本span作为候选实体,并将span元组视为候选关系元组。span的语义表示在实体识别和关系分类中共享。然而现有基于span的模型无法很好地捕获这些候选实体和关系的语义,为了解决这些问题,提出了一种融合attention机制的span的联合抽取模型。特别地,attention用于计算相关语义表示,包括span特定特征语义表示和句子上下文的语义表示。实验结果表明,所提出的模型优于以前的模型,并在ACE2005、CoNLL2004和ADE 3个基准数据集上达到了当前最优的结果。
    • 潘正宵; 罗银辉; 李荣枝
    • 摘要: 航行通告信息是保障飞行安全所需的重要情报。针对航行通告信息难以采用统一格式处理特点,通过令牌化实现分词,并通过词嵌入方法,实现了航行通告中命名实体抽取。针对航行通告无标注数据集而无法进行机器学习的问题,采用改进的KMP算法结合实体间距离进行关系抽取。实验结果表明,采用此方法抽取航行通告信息,实现了航信通告信息中实体与关系的提取,得到了格式化的数据,解决了航信通告领域无标注数据集的问题。
  • 查看更多

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号