指代消解
指代消解的相关文献在2001年到2022年内共计147篇,主要集中在自动化技术、计算机技术、语言学、科学、科学研究
等领域,其中期刊论文90篇、会议论文12篇、专利文献2773篇;相关期刊45种,包括人天科学研究、情报理论与实践、现代图书情报技术等;
相关会议9种,包括第四届全国学生计算语言学研讨会(SWCL-2008)、第九届全国计算语言学学术会议、第三届全国信息检索与内容安全学术会议等;指代消解的相关文献由251位作者贡献,包括周国栋、孔芳、朱巧明等。
指代消解
-研究学者
- 周国栋
- 孔芳
- 朱巧明
- 王海东
- 田生伟
- 禹龙
- 韦丽红
- 李培峰
- 刘娟
- 周炫余
- 王厚峰
- 谭魏璇
- 仲兆满
- 刘挺
- 吐尔根·依布拉音
- 周昌乐
- 李艳翠
- 罗飞
- 胡乃全
- 艾山·吾买尔
- 钱培德
- 钱龙华
- 高俊伟
- 乐小虬
- 乔磊
- 付建
- 何婷婷
- 冯冠军
- 刘宗敏
- 刘洋
- 华却才让
- 吴世伟
- 吴宏杰
- 周俊生
- 唐亦非
- 夏吾吉
- 奚雪峰
- 姜剑
- 庞宁
- 张会焱
- 张向荣
- 张超
- 敖文刚
- 明坤
- 李国臣
- 李晨
- 李舟军
- 李辰
- 杜展
- 杨勇
-
-
陈雨;
玄宇航;
张玉志
-
-
摘要:
【目的】命名实体识别是自然语言处理领域的一项基本任务,实体包括人名、地名和组织名等,与其他实体相比,人名与职务、职务变更及人称代词有关。人名的实体识别中,人名语料的残缺及人称指代不明等问题,成为处理中的难点、痛点。基于此观察,本文提出一种融合指代消解的序列标注方法来改进人名识别,这可以有效缓解人名识别中人名语料不完善的问题,并且可以解决人称代词指代不明、人力耗费量大等问题。【方法】具体地,首先利用职务变更进行数据增强,可以有效解决实际应用中标注数据不足的问题。接着为了更好地学习上下文特征,本文使用语言预训练模型BERT和双向长短时记忆网络结合的方式,并利用条件随机场建模来标签序列的关系。最后,针对文本中的人称代词,加入指代消解算法,进一步改进人名识别。【结果】在公共数据集和本文提出的数据集上的实验结果均表明本文提出方法的有效性。
-
-
杨启萌;
禹龙;
田生伟;
艾山·吾买尔
-
-
摘要:
针对深度神经网络模型学习照应语和候选先行语的语义信息忽略了每一个词在句中重要程度,且无法关注词序列连续性关联和依赖关系等问题,提出一种结合语境多注意力独立循环神经网络(Contextual multi-attention independently recurrent neural network,CMAIR)的维吾尔语人称代词指代消解方法.相比于仅依赖照应语和候选先行语语义信息的深度神经网络,该方法可以分析上下文语境,挖掘词序列依赖关系,提高特征表达能力.同时,该方法结合多注意力机制,关注待消解对多层面语义特征,弥补了仅依赖内容层面特征的不足,有效识别人称代词与实体指代关系.该模型在维吾尔语人称代词指代消解任务中的准确率为90.79%,召回率为83.25%,F值为86.86%.实验结果表明,CMAIR模型能显著提升维吾尔语指代消解性能.
-
-
谭荧;
唐亦非
-
-
摘要:
【目的】为改善手动或简单的引文提取方法,提高引文内容分析效果,应精确抽取引文内容。【方法】将引文内容抽取任务具体分为引文句、引文上下文、引文元数据三部分,基于指代消解理论,利用机器学习和层次过滤法对引文上下文进行抽取。【结果】实验数据收集了顺序编码制的中文期刊文献,结果证实该方法抽取引文句并解析参考文献结果正确无误,识别引文上下文的F1值为0.780~0.849。【局限】缺乏中文科学引文语料资源,实验数据选择人工标注小规模数据集,跨域能力有限,不可避免存在文本领域依赖的缺陷。【结论】本研究能够优化和扩大引文内容分析的步骤和范围,为使用引文内容分析法的相关研究者提供参考。
-
-
陈诗;
王东波;
黄水清
-
-
摘要:
[目的 /意义]指代消解是古文信息挖掘的重要组成部分,是古文数字人文研究的技术支撑研究之一.文章使用深度学习的方法对古代汉语文本的人称指代问题进行实验探索,旨于为古文数字人文研究的发展做出推进.[方法/过程]选取《史记》为语料来源,通过阅读大量文献的同时结合语料特征制定标注规范,人工构建实验所需的语料库;另外,使用深度学习的方法对古代汉语文本的人称指代问题进行实验探索,并将文本划分为无词性字单位语料、无词性词单位语料、有词性词单位语料三种,探索不同分割单位与词性特征引入对指代消解效果的影响.[结果/结论]实验结果表明,在Bi-LSTM-CRF模型实验中引入词性特征,消解效果(F均值)达84.01%,而在未引入词性特征的情况下,BERT模型指代消解效果优于Bi-LSTM-CRF,F均值达82.43%.基于Bi-LSTM-CRF模型的无词性字单位文本实验与无词性词单位文本实验中F均值分别为74.13%、77.57%.所利用的深度学习方法能够有效解决古文句内人称代词指代消解问题,同时词性特征的引入能够有效提升模型的指代消解性能.[局限]仅针对句内、有且只有一条指代链的情况进行人称代词指代消解研究,同时文本量较小,实验具有一定局限性.
-
-
谭荧;
唐亦非
-
-
摘要:
[目的]为改善手动或简单的引文提取方法,提高引文内容分析效果,应精确抽取引文内容.[方法]将引文内容抽取任务具体分为引文句、引文上下文、引文元数据三部分,基于指代消解理论,利用机器学习和层次过滤法对引文上下文进行抽取.[结果]实验数据收集了顺序编码制的中文期刊文献,结果证实该方法抽取引文句并解析参考文献结果正确无误,识别引文上下文的F1值为0.780~0.849.[局限]缺乏中文科学引文语料资源,实验数据选择人工标注小规模数据集,跨域能力有限,不可避免存在文本领域依赖的缺陷.[结论]本研究能够优化和扩大引文内容分析的步骤和范围,为使用引文内容分析法的相关研究者提供参考.
-
-
-
-
邓思艺;
乐小虬
-
-
摘要:
[目的]针对先行表述复杂、指代词语义不明的问题,探索更有效的指代消解方法.[方法]采用端到端的框架,使用打分排序法识别指代关系.先对文本段中的连续词序列进行“提及”打分,判断是否为“提及”;然后利用筛选出的候选“提及”对指代关系打分.其中词序列建模采用动态语义注意力机制,引入更匹配当前指代关系的外部词语义,并使用内部注意力编码,突出先行表述中与指代词关联的部分;综合两部分打分排序得到识别结果.[结果]在基于OntoNotes5.0语料库的CoNLL-2012共享任务英语数据上进行实验,同参数情况下,准确率、召回率、F1值分别比基准模型提高2.02%、0.42%、1.14%.[局限]外部语义表征的来源语料不够丰富,有待补充.训练语料皆为新闻、脱口秀或者网络日志等通用文本,可考虑加入科技文献语料,构造更为丰富的指代情境,并评估模型在各种指代情境下的表现.[结论]动态语义注意力模块可在构建词序列表示时注入更有利于当前指代关系识别的语义特征,动态的、有选择性的外部语义注入更有利于指代关系的识别.
-
-
杨启萌;
禹龙;
田生伟;
艾山·吾买尔
-
-
摘要:
针对深度神经网络模型仅学习当前指代链语义信息忽略了单个指代链识别结果的长期影响问题,提出一种结合深度强化学习(deep reinforcement learning)的维吾尔语人称代词指代消解方法.该方法将指代消解任务定义为强化学习环境下顺序决策过程,有效利用之前状态中先行语信息判定当前指代链指代关系.同时,采用基于整体奖励信号优化策略,相比于使用损失函数启发式优化特定的单个决策,该方法直接优化整体评估指标更加高效.最后在维吾尔语数据集进行实验,实验结果显示,该方法在维吾尔语人称代词指代消解任务中的F值为85.80%.实验结果表明,深度强化学习模型能显著提升维吾尔语人称代词指代消解性能.
-
-
-
-
- 《第四届全国学生计算语言学研讨会(SWCL-2008)》
| 2008年
-
摘要:
本文实现了一个基于机器学习的指代消解平台。在此基础上,通过自动语义角色标注工具得到目标动词和语义角色信息,组合语义角色特征和动词驱动特征,研究发现两者的结合能够显著提高系统的性能。对于无法得到语义类别的名词,本文尝试利用动词的选择限制来给这类名词赋予语义类别。在对ACE2003 NWIRE中所有类型名词短语的测试表明,综合考虑语义角色、动词驱动以及动词的选择限制能显著提高系统的召回率和F值。
-
-
-
周国栋;
孔芳;
朱巧明
- 《第九届全国计算语言学学术会议》
| 2007年
-
摘要:
指代是自然语言中常见的语言现象,随着篇章理解相关应用的日益广泛,指代消解显示出前所未有的重要性,已成为自然语言处理的热门研究问题。本文较系统地介绍了指代消解的国内外研究现状,分析了制约指代消解的关键问题,探讨了目前国际上指代消解的研究趋势。
-
-
-
-
- 《第四届全国学生计算语言学研讨会(SWCL-2008)》
| 2008年
-
摘要:
如何让计算机根据自然语言的语义表示消解句子乃至段落篇章中的人称代词,一直是自然语言处理的一大难题。本文依据HNC理论的句类表达式和语义块构成的相关知识,提出了一种基于语义结构平行的人称代词消解算法,通过定义句子语义块的层次结构,制定相关的人称代词消解规则和算法,实现了段落中人称代词的指代消解,经开放测试表明该方法具有较好的消解效果。
-
-
吴宝栋;
杨志豪;
林鸿飞
- 《第九届全国计算语言学学术会议》
| 2007年
-
摘要:
从生物医学文献中抽取蛋白质(基因)相互作用关系对蛋白质知识网络的建立,蛋白质关系的预测,新药的研制等均具有重要的意义。本文提出了一个生物医学文献中的蛋白质相互作用关系抽取系统。该系统首先使用条件随机域模型对文献进行实体识别,然后通过指代消解和链接语法分析等将复杂句子划分为简单句,最后通过识别句子的语法成分从这些语法成分和它们的组合中抽取蛋白质(基因)相互作用关系。本文的最后给出了实验结果和错误分析。
-
-