您现在的位置: 首页> 研究主题> 词性标注

词性标注

词性标注的相关文献在1983年到2022年内共计464篇,主要集中在自动化技术、计算机技术、汉语、语言学 等领域,其中期刊论文343篇、会议论文53篇、专利文献6385篇;相关期刊163种,包括现代图书情报技术、辞书研究、现代语文(语言研究)等; 相关会议38种,包括第14届中国少数民族语言文字信息处理学术研讨会、第六届全国青年计算语言学会议、第四届全国少数民族青年自然语言信息处理学术研讨会等;词性标注的相关文献由879位作者贡献,包括刘群、郑家恒、关毅等。

词性标注—发文量

期刊论文>

论文:343 占比:5.06%

会议论文>

论文:53 占比:0.78%

专利文献>

论文:6385 占比:94.16%

总计:6781篇

词性标注—发文趋势图

词性标注

-研究学者

  • 刘群
  • 郑家恒
  • 关毅
  • 古丽拉·阿东别克
  • 吐尔根·依布拉音
  • 李斌
  • 买合木提·买买提
  • 余正涛
  • 周兰江
  • 周枫
  • 期刊论文
  • 会议论文
  • 专利文献

搜索

排序:

年份

    • 唐文; 周兰江; 张建安
    • 摘要: 目前流行的词性标注方法严重依赖语料规模及人工提取特征的质量;然而,老挝语资源稀缺,语料及特征选取面临很大挑战,且老挝语句子本身存在普遍过长的特点.因此,该文提出一种融合细粒度词特征的老挝语词性标注方法,构建了融合细粒度词特征的Att-BiLSTM-CRF模型.首先,以老挝音素和声调符号作为基本单元来进行老挝细粒度词特征的提取,使模型获取更加丰富的语料信息;然后,将细粒度词特征输入BiLSTM中获取句子级别特征;其次,使用自注意力机制防止老挝句子长远上下文信息丢失;最后,使用CRF提取相邻词性约束关系,从而获取最优词性标签.实验结果表明,在有限语料集下,该方法精确率、召回率和F1值分别为93.70%、93.87%、93.62%.
    • 周博学
    • 摘要: 不同于流水线方式的关系抽取方法,在实体关系联合抽取方式中虽然把实体识别和关系抽取两者结合起来,但损失部分实体特征信息。在以BERT预训练模型为核心的SpERT实体关系联合抽取模型输入阶段,融入置信度较高的词性标注和句法依存关系的先验特征;并在模型的关系抽取层中重用输入信息,为关系抽取任务提供更多的特征;在优化模型的损失函数中加入可训练的参数来自主学习两个子任务的损失占比权重。在三个公共的数据集上进行实验,结果表明这些优化策略能够为SpERT模型带来明显性能提升。
    • 库瓦特拜克·马木提; 努尔古丽·艾子木把
    • 摘要: 自然语言处理任务中词性标注是基础性的工作,其可以应用到后续各种NLP任务中。在神经网络自然语言处理任务中多使用分布式词表示,获取单词的语义和语法信息,并取得了非常明显的效果。对于像哈萨克语这样形态丰富的语言,在词性标注时,单词内部的各种信息非常有用。在文章中,我们构建了基础的哈萨克语词性标注语料库,并采用基于字符并联合单词信息,提出一种有效的哈萨克语词标注模型。使用这一方法,避免了传统机器学习方法中手工构建特征的问题,在新疆日报哈文版构建的语料库上,准确率达到了61.40%。为进一步提升性能提供了很好的参考。
    • 汪凯; 梁宇腾; 张玉洁; 徐金安; 陈钰枫
    • 摘要: [目的/意义]汉语分词、词性标注和依存句法分析作为汉语自然语言处理的三大基本任务发挥着至关重要的作用。基于转移的三个任务联合模型曾经取得最好精度,但是随着神经网络和计算能力的发展,具有全局信息建模能力的图模型,在单任务和两个任务上已经超过转移模型。如何在基于图模型下联合三个任务,进一步提升精度成为新的挑战。[方法/过程]本文提出一种基于图的汉语分词、词性标注和依存句法分析的联合模型,通过设计统一的字级别标签实现三个任务的联合,并采用预训练语言模型融合上下文信息的字表示方法和基于双仿射注意力机制的评分函数。本文也设计了联合模型的解法算法用于三个任务的解码。[结果/结论]实验结果表明,本文词性标注任务的引入方式可以建模词性与分词以及词性与依存句法分析之间的关系,从而带来其他两个任务上精度的提升。与目前精度最好的Yan[1]工作相比,在三个任务上都取得最好精度。
    • 马小雯; 袁满; 刘彦林; 李臻; 李慧杰
    • 摘要: 围绕标准文本的词性标注,针对通用词性标注集对标准文本标注不适配的问题,基于词性标注任务研究现状,提出一种针对标准文本特点的词性标注集,去除标准语境下不常用的词性类别,新增专有名词的相关设计。该设计目前应用于标准文本内容理解、知识提取等任务,提高了标注结果的可用性,并为后续文本处理任务提供数据基础。
    • 刘婉婉
    • 摘要: 传统的条件随机场(Conditional Random Fields,CRF)方法虽然可以容纳任意长度的上下文信息且特征设计灵活,但训练代价大、模型复杂度高,尤其在序列标注任务中由于需要计算整个标注序列的联合概率分布使其缺点更加突出.为此,结合一种结构化方式的支持向量机(Structured Support Vector Machine,SSVM)方法,根据黏着语的构词特征和语料的上下文信息进行词性标注研究,本模型相比传统SVM,通过附加额外的约束条件使特征函数能够拟合分布,进而用于处理不同领域内词性标注.通过相关黏着语词性标注实验结果显示,SSVM的词性标注方法相比传统的词性标注算法,准确率有了一定的提高.
    • 王浩学; 徐艳华
    • 摘要: 在词性标注的过程中,汉语中兼类词的存在是影响词性标注准确率的主要原因。本研究以三部词典标注一致的78个形名兼类词为测试对象,基于规则和统计相结合的词性标注方法,将统计的兼类词分布概率与语法搭配规则结合起来,利用兼类词语法搭配模式构建规则库,对国家语委现代汉语通用平衡语料库标注的兼类词结果进行修正,准确率可以提高14.57%。
    • 刘星宇; 宁慧; 张汝波
    • 摘要: 针对如何使用适当的模型或结构使得词性标注结果准确率提升的问题,对隐马尔可夫模型和条件随机场模型进行了深入研究和实验,使用条件随机场的不同特征方程进行了多组实验,并对比了每组实验的准确率.实验结果表明,条件随机场对于解决英文词性标注问题有着更大的优势;将共性的特征与相对具体的后缀特征结合使用所达到的词性标注准确率最高.
    • 张琪; 江川; 纪有书; 冯敏萱; 李斌; 许超; 刘浏
    • 摘要: [目的]探究基于深度学习方法的古籍分词词性一体化标注技术,构建覆盖多领域古籍的自动标注模型.[方法]采用涵盖“经史子集”的25部先秦典籍作为训练语料,在未加入任何人工特征的前提下,基于BERT构建了先秦典籍分词词性一体化标注模型.最终将模型应用于《史记》,并对《史记》中构成事件的4种基本词类(人名、地名、时间词、动词)进行整体统计与个例分析.[结果]在语料涵盖历史、政论等多种领域且体裁多样的条件下,所构建的先秦典籍分词词性一体化标注模型在开放测试中分词准确率达到95.98%,词性标注准确率达到88.97%.在《史记》上的应用进一步证明了模型的稳定性和实用性.[局限]通过绘制词类标注混淆热力图分析模型错标类型,发现因词类分布样本不均衡、部分词类句法特征相似、兼类等所造成的词性误标有待进一步解决.[结论]将深度学习模型BERT应用于古汉语分词与词性标注,所构建的分词词性一体化标注模型适用于史籍、诗歌、典章制度等多领域的先秦典籍.
    • 杨靖; 张帆; 贺畅; 张磊
    • 摘要: 汽车企业需要及时准确地了解消费者对上市车型的评价及需求,当前市场调研公司主要采取面访形式设计问卷题目收集用户对各评价指标满意度打分情况,但这种题目设计存在汽车性能指标描述偏专业不易消费者理解、被访者对指标打分标准不完全一致、数据效度低等弊端.因此本文目的是优化和改进传统调研问卷题目,得到更贴切用户评价的数据.本文首先采用正则表达式的方法对近三年来的文本评价数据进行断句、筛选和分词;然后利用隐马尔科夫模型对简单语句进行词性标注和分析,得到词性结构;再利用因子分子(FA)模型对词性结构获取累积贡献度达到90%以上的词语组;最后利用得到的词语以及词性结构优化当前的问卷题目,确保更准确、高效的产品评价,旨在帮助企业了解车型与用户需求之间的差异,促进产品改进提升.
  • 查看更多

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号