您现在的位置: 首页> 研究主题> 序列标注

序列标注

序列标注的相关文献在2006年到2023年内共计270篇,主要集中在自动化技术、计算机技术、信息与知识传播、科学、科学研究 等领域,其中期刊论文118篇、会议论文8篇、专利文献30889篇;相关期刊62种,包括现代图书情报技术、计算机工程、计算机工程与设计等; 相关会议6种,包括第六届全国青年计算语言学会议、第25届全国计算机信息管理学术研讨会、第五届全国青年计算语言学研讨会(YWCL 2010)等;序列标注的相关文献由709位作者贡献,包括王李鹏、徐亮、金戈等。

序列标注—发文量

期刊论文>

论文:118 占比:0.38%

会议论文>

论文:8 占比:0.03%

专利文献>

论文:30889 占比:99.59%

总计:31015篇

序列标注—发文趋势图

序列标注

-研究学者

  • 王李鹏
  • 徐亮
  • 金戈
  • 张民
  • 李正华
  • 陆伟
  • 于凤英
  • 孙超
  • 孟茜
  • 徐建
  • 期刊论文
  • 会议论文
  • 专利文献

搜索

排序:

年份

    • 魏鑫炀; 唐向红
    • 摘要: 针对民事裁判文书区别于新闻文本的文本结构和重要信息分布的特点,基于BERT提出了一种结合粗粒度和细粒度抽取方法的结构化民事裁判文书摘要生成方法。首先通过粗粒度抽取方法对裁判文书进行重要的模块信息抽取,以保留文本结构;然后采用基于BERT的序列标注方法构建细粒度的抽取式摘要模型,从句子级别对重要模块的信息进行进一步抽取,以构建最终摘要。实验表明,相比于单一的粗粒度抽取或者细粒度抽取,本文方法均获得了更好的摘要生成性能。
    • 徐况; 夏献军; 冯强中; 王颜颜
    • 摘要: 针对特定的银行产品评论业务场景,从自然语言处理(natural language processing,NLP)的角度出发,将产品评论观点提取和评价任务分别转化为自然语言处理技术中的序列标注问题和情感分类问题,使用ERNIE(enhanced language representation with informative entities)模型进行微调来实现对银行产品评论中的银行名称、产品名、用户观点等实体的自动提取以及对评论文本的自动评价。通过在真实数据集上的验证,微调后的模型能够实现对银行产品评论观点文本中实体进行自动提取和评价且效果良好。
    • 周龚雪; 马伟锋; 龚一飞; 王柳迪
    • 摘要: 针对交通事故文本因果关系抽取过程中因果事件边界难以识别及连锁因果关系难以抽取的问题,将抽取问题转化为序列标注问题,提出了相对逗号位置特征及基于该特征与字词向量混合的多头注意力卷积双向长短时记忆网络的因果关系抽取方法。首先将字词分别编码后与相对逗号位置特征拼接,其次通过卷积神经网络(convolutional neural network,CNN)、双向长短时记忆网络(bidirectional long and short-term memory networks,Bi-LSTM)及多头注意力机制(multihead self-attention,MHSA)提取深层次的语义信息及长距离特征信息,最后采用条件随机场(conditional random field,CRF)分类器进行分类,得到最终的输出结果。在我们创建的交通事故文本数据集上将本模型与主流模型进行比较,结果表明:本模型抽取结果的召回率与F_(1)值分别提高了5.75%和2.54%,可以更有效地抽取交通事故文本中的因果关系。较完整地抽取因果关系有利于人们分析交通事故的成因,从而为如何有效地预防和避免交通事故的再次发生提供参考。
    • 王刚; 孙媛媛; 陈彦光; 林鸿飞
    • 摘要: 是指对文本信息内容进行概括、提取主要内容进而形成摘要的过程。现有的文本摘要模型通常将内容选择和摘要生成独立分析,虽然能够有效提高句子压缩和融合的性能,但是在抽取过程中会丢失部分文本信息,导致准确率降低。基于预训练模型和Transformer结构的文档级句子编码器,提出一种结合内容抽取与摘要生成的分段式摘要模型。采用BERT模型对大量语料进行自监督学习,获得包含丰富语义信息的词表示。基于Transformer结构,通过全连接网络分类器将每个句子分成3类标签,抽取每句摘要对应的原文句子集合。利用指针生成器网络对原文句子集合进行压缩,将多个句子集合生成单句摘要,缩短输出序列和输入序列的长度。实验结果表明,相比直接生成摘要全文,该模型在生成句子上ROUGE-1、ROUGE-2和ROUGE-L的F1平均值提高了1.69个百分点,能够有效提高生成句子的准确率。
    • 张艳丽; 牛任恺; 张鑫磊; 孙志杰; 王利赛
    • 摘要: 使用人工稽查方法判别纸质工单的业务异常情况,数据积压过大,导致异常工单判别结果不精准。面对该问题,提出了基于序列标注的业务异常工单判别方法。使用注意力机制作为业务管控规则,指引业务异常问题的稽查。使用语义消歧中的柱状搜索方法进行解码,完成知识融合。采用序列标注方法构建业务管控规则知识图谱,消除积压数据。解析新增的稽查目标,确定稽查主体。设计稽查核实步骤,实现业务管控支撑智能化。采用深度学习技术,智能解析稽查工单原始信息,判断导致异常的原因,实现稽查工单智能判别。由实验结果可知,该方法用电数据幅值波动范围与实际统计结果一致,且判别结果最高为0.99,具有较高的判别准确度。
    • 卢永美; 卜令梅; 陈黎; 于中华; 张婷婷; 叶莹
    • 摘要: 中医古文献蕴藏着丰富的临床经验,是古代中医在行医过程中对临床诊疗的经验性总结,体现了中医学形成和发展的理论框架和思想基础.然而这些宝贵的临床经验不仅量大,而且分散在不同的文献中,使得中医从业者手工很难快速全面地获取它们,文献检索工具也只能提供文档级别的信息筛选,无法为这种细粒度的信息获取提供支持.此外,古汉语相对于现代汉语的不同特点也限制了主流文本分析工具的使用效果.为此本文提出面向临床经验获取的中医古文献信息抽取任务,用于识别古文献中描述临床经验的文本片段,手工标注了样本数据用于这种抽取模型的训练和测试,并设计了基于深度学习的序列标注器用于完成该任务.考虑到标注数据量小可能带来的过度拟合问题,本文引入对抗训练和虚拟对抗训练来增强模型的泛化能力.一系列充分的实验验证了模型的有效性,表明利用信息抽取技术从古文献获取中医临床经验具有可行性,为这一新的信息抽取任务提供了有希望的研究基线和可复用的标注数据集.
    • 葛君伟; 乔蒙蒙; 方义秋
    • 摘要: 基于句子级别的抽取方法不足以解决中文事件元素分散问题。针对该问题,提出基于上下文融合的文档级事件抽取方法。首先将文档分割为多个段落,利用双向长短期记忆网络提取段落序列特征;其次采用自注意力机制捕获段落上下文的交互信息;然后与文档序列特征融合以更新语义表示;最后采用序列标注方式抽取事件元素并匹配事件类型。与其他事件抽取方法在相同的中文数据集上进行对比,实验结果表明,该方法能有效抽取文档中分散的事件元素,并提升模型的抽取性能。
    • 彭雪; 赵辉; 郑肇谦; 庞海婷
    • 摘要: 融合多种嵌入表示的中文命名实体识别模型FMER-CNER,将百度ERNIE预训练模型生成的字句嵌入与拼音、五笔和四角码嵌入进行融合,得到增强语义特征的融合嵌入表示,再利用BiLSTM-CRF模型进行特征提取和标签解码。模型在MSRA数据集上进行了对比实验,证明了模型的有效性。
    • 宋功鹏; 李阳; 安新周; 张熙; 韩琮师
    • 摘要: 序列标注任务是利用模型将非结构化的文本序列进行提取,并完成模型的训练和预测。基于对条件随机场(condition random fi eld,CRF)和深度神经网络中长短期记忆网络(long short term memory,LSTM),提出了栈式双向的长短期记忆网络(stacked bidirectional long short term memory,Stack Bi-LSTM)和考虑语法结构的神经半马尔可夫条件随机场(neural semi-markov condition random fi eld,NSCRF)的Stack Bi-LSTM-NSCRF模型,本模型底层堆叠式的Bi-LSTM分为两层,下层用来对非结构化的文本进行分词,上层用来进行语块和命名实体的提取工作。顶层NSCRF用来对提取的特征添加限制,以此过滤掉不符合语法的语块和命名实体。通过对本模型进行训练,提高了F1测度,因此本模型对序列标注有很好的效果。
    • 周裕林; 陈艳平; 黄瑞章; 秦永彬; 林川
    • 摘要: 针对中文分词序列标注模型很难获取句子的长距离语义依赖,导致输入特征使用不充分、边界样本少导致数据不平衡的问题,提出了一种基于机器阅读理解模型的中文分词方法。将序列标注任务转换成机器阅读理解任务,通过构建问题信息、文本内容和词组答案的三元组,以有效利用句子中的输入特征;将三元组信息通过Transformer的双向编码器(BERT)进行预训练捕获上下文信息,结合二进制分类器预测词组答案;通过改进原有的交叉熵损失函数缓解数据不平衡问题。在Bakeoff2005语料库的4个公共数据集PKU、MSRA、CITYU和AS上的实验结果表明:所提方法的F_(1)分别为96.64%、97.8%、97.02%和96.02%,与其他主流的神经网络序列标注模型进行对比,分别提高了0.13%、0.37%、0.4%和0.08%。
  • 查看更多

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号