词性标注
词性标注的相关文献在1983年到2022年内共计464篇,主要集中在自动化技术、计算机技术、汉语、语言学
等领域,其中期刊论文343篇、会议论文53篇、专利文献6385篇;相关期刊163种,包括现代图书情报技术、辞书研究、现代语文(语言研究)等;
相关会议38种,包括第14届中国少数民族语言文字信息处理学术研讨会、第六届全国青年计算语言学会议、第四届全国少数民族青年自然语言信息处理学术研讨会等;词性标注的相关文献由879位作者贡献,包括刘群、郑家恒、关毅等。
词性标注
-研究学者
- 刘群
- 郑家恒
- 关毅
- 古丽拉·阿东别克
- 吐尔根·依布拉音
- 李斌
- 买合木提·买买提
- 余正涛
- 周兰江
- 周枫
- 张建安
- 王晓龙
- 赵伟
- 黄昌宁
- 俞士汶
- 冯敏萱
- 刘挺
- 吴金星
- 姜文斌
- 张鹏
- 杜庆治
- 王东海
- 王兴金
- 线岩团
- 胡长建
- 赵凯
- 车万翔
- 邱立坤
- 邵玉斌
- 龙华
- 买买提阿依甫
- 于江德
- 于洪志
- 刘浏
- 姜维
- 尼加提·纳吉米
- 帕丽旦·木合塔尔
- 张帆
- 张梅山
- 张虎
- 朱学锋
- 朱靖波
- 李正华
- 杨同用
- 樊孝忠
- 段慧明
- 牛洪梅
- 王希杰
- 王红斌
- 袁里驰
-
-
唐文;
周兰江;
张建安
-
-
摘要:
目前流行的词性标注方法严重依赖语料规模及人工提取特征的质量;然而,老挝语资源稀缺,语料及特征选取面临很大挑战,且老挝语句子本身存在普遍过长的特点.因此,该文提出一种融合细粒度词特征的老挝语词性标注方法,构建了融合细粒度词特征的Att-BiLSTM-CRF模型.首先,以老挝音素和声调符号作为基本单元来进行老挝细粒度词特征的提取,使模型获取更加丰富的语料信息;然后,将细粒度词特征输入BiLSTM中获取句子级别特征;其次,使用自注意力机制防止老挝句子长远上下文信息丢失;最后,使用CRF提取相邻词性约束关系,从而获取最优词性标签.实验结果表明,在有限语料集下,该方法精确率、召回率和F1值分别为93.70%、93.87%、93.62%.
-
-
周博学
-
-
摘要:
不同于流水线方式的关系抽取方法,在实体关系联合抽取方式中虽然把实体识别和关系抽取两者结合起来,但损失部分实体特征信息。在以BERT预训练模型为核心的SpERT实体关系联合抽取模型输入阶段,融入置信度较高的词性标注和句法依存关系的先验特征;并在模型的关系抽取层中重用输入信息,为关系抽取任务提供更多的特征;在优化模型的损失函数中加入可训练的参数来自主学习两个子任务的损失占比权重。在三个公共的数据集上进行实验,结果表明这些优化策略能够为SpERT模型带来明显性能提升。
-
-
库瓦特拜克·马木提;
努尔古丽·艾子木把
-
-
摘要:
自然语言处理任务中词性标注是基础性的工作,其可以应用到后续各种NLP任务中。在神经网络自然语言处理任务中多使用分布式词表示,获取单词的语义和语法信息,并取得了非常明显的效果。对于像哈萨克语这样形态丰富的语言,在词性标注时,单词内部的各种信息非常有用。在文章中,我们构建了基础的哈萨克语词性标注语料库,并采用基于字符并联合单词信息,提出一种有效的哈萨克语词标注模型。使用这一方法,避免了传统机器学习方法中手工构建特征的问题,在新疆日报哈文版构建的语料库上,准确率达到了61.40%。为进一步提升性能提供了很好的参考。
-
-
汪凯;
梁宇腾;
张玉洁;
徐金安;
陈钰枫
-
-
摘要:
[目的/意义]汉语分词、词性标注和依存句法分析作为汉语自然语言处理的三大基本任务发挥着至关重要的作用。基于转移的三个任务联合模型曾经取得最好精度,但是随着神经网络和计算能力的发展,具有全局信息建模能力的图模型,在单任务和两个任务上已经超过转移模型。如何在基于图模型下联合三个任务,进一步提升精度成为新的挑战。[方法/过程]本文提出一种基于图的汉语分词、词性标注和依存句法分析的联合模型,通过设计统一的字级别标签实现三个任务的联合,并采用预训练语言模型融合上下文信息的字表示方法和基于双仿射注意力机制的评分函数。本文也设计了联合模型的解法算法用于三个任务的解码。[结果/结论]实验结果表明,本文词性标注任务的引入方式可以建模词性与分词以及词性与依存句法分析之间的关系,从而带来其他两个任务上精度的提升。与目前精度最好的Yan[1]工作相比,在三个任务上都取得最好精度。
-
-
马小雯;
袁满;
刘彦林;
李臻;
李慧杰
-
-
摘要:
围绕标准文本的词性标注,针对通用词性标注集对标准文本标注不适配的问题,基于词性标注任务研究现状,提出一种针对标准文本特点的词性标注集,去除标准语境下不常用的词性类别,新增专有名词的相关设计。该设计目前应用于标准文本内容理解、知识提取等任务,提高了标注结果的可用性,并为后续文本处理任务提供数据基础。
-
-
刘婉婉
-
-
摘要:
传统的条件随机场(Conditional Random Fields,CRF)方法虽然可以容纳任意长度的上下文信息且特征设计灵活,但训练代价大、模型复杂度高,尤其在序列标注任务中由于需要计算整个标注序列的联合概率分布使其缺点更加突出.为此,结合一种结构化方式的支持向量机(Structured Support Vector Machine,SSVM)方法,根据黏着语的构词特征和语料的上下文信息进行词性标注研究,本模型相比传统SVM,通过附加额外的约束条件使特征函数能够拟合分布,进而用于处理不同领域内词性标注.通过相关黏着语词性标注实验结果显示,SSVM的词性标注方法相比传统的词性标注算法,准确率有了一定的提高.
-
-
王浩学;
徐艳华
-
-
摘要:
在词性标注的过程中,汉语中兼类词的存在是影响词性标注准确率的主要原因。本研究以三部词典标注一致的78个形名兼类词为测试对象,基于规则和统计相结合的词性标注方法,将统计的兼类词分布概率与语法搭配规则结合起来,利用兼类词语法搭配模式构建规则库,对国家语委现代汉语通用平衡语料库标注的兼类词结果进行修正,准确率可以提高14.57%。
-
-
刘星宇;
宁慧;
张汝波
-
-
摘要:
针对如何使用适当的模型或结构使得词性标注结果准确率提升的问题,对隐马尔可夫模型和条件随机场模型进行了深入研究和实验,使用条件随机场的不同特征方程进行了多组实验,并对比了每组实验的准确率.实验结果表明,条件随机场对于解决英文词性标注问题有着更大的优势;将共性的特征与相对具体的后缀特征结合使用所达到的词性标注准确率最高.
-
-
张琪;
江川;
纪有书;
冯敏萱;
李斌;
许超;
刘浏
-
-
摘要:
[目的]探究基于深度学习方法的古籍分词词性一体化标注技术,构建覆盖多领域古籍的自动标注模型.[方法]采用涵盖“经史子集”的25部先秦典籍作为训练语料,在未加入任何人工特征的前提下,基于BERT构建了先秦典籍分词词性一体化标注模型.最终将模型应用于《史记》,并对《史记》中构成事件的4种基本词类(人名、地名、时间词、动词)进行整体统计与个例分析.[结果]在语料涵盖历史、政论等多种领域且体裁多样的条件下,所构建的先秦典籍分词词性一体化标注模型在开放测试中分词准确率达到95.98%,词性标注准确率达到88.97%.在《史记》上的应用进一步证明了模型的稳定性和实用性.[局限]通过绘制词类标注混淆热力图分析模型错标类型,发现因词类分布样本不均衡、部分词类句法特征相似、兼类等所造成的词性误标有待进一步解决.[结论]将深度学习模型BERT应用于古汉语分词与词性标注,所构建的分词词性一体化标注模型适用于史籍、诗歌、典章制度等多领域的先秦典籍.
-
-
杨靖;
张帆;
贺畅;
张磊
-
-
摘要:
汽车企业需要及时准确地了解消费者对上市车型的评价及需求,当前市场调研公司主要采取面访形式设计问卷题目收集用户对各评价指标满意度打分情况,但这种题目设计存在汽车性能指标描述偏专业不易消费者理解、被访者对指标打分标准不完全一致、数据效度低等弊端.因此本文目的是优化和改进传统调研问卷题目,得到更贴切用户评价的数据.本文首先采用正则表达式的方法对近三年来的文本评价数据进行断句、筛选和分词;然后利用隐马尔科夫模型对简单语句进行词性标注和分析,得到词性结构;再利用因子分子(FA)模型对词性结构获取累积贡献度达到90%以上的词语组;最后利用得到的词语以及词性结构优化当前的问卷题目,确保更准确、高效的产品评价,旨在帮助企业了解车型与用户需求之间的差异,促进产品改进提升.
-
-
-
-
-
-
韩冰;
张慧
- 《中国新闻技术工作者联合会2020年学术年会》
| 2020年
-
摘要:
中英文拼写纠错技术越来越多应用于媒体行业.电子录入不可避免会出现一些错误,人工检测耗时耗力.本文首先从文本纠错常用算法模型出发,介绍中英文拼写纠错中的分词、词性标注和专名识别等常用自然语言处理技术.在此基础上,介绍拼写纠错模型在中国日报社的研究,语料库与规则库建立、主体关系识别功能设计等.最后,结合中国日报英文采编特点,介绍英文拼写纠错模型的应用实践.
-
-
Tianci Xia;
夏天赐;
Yuan Sun;
孙媛
- 《第十七届全国计算语言学学术会议暨第六届基于自然标注大数据的自然语言处理国际学术研讨会(CCL 2018)》
| 2018年
-
摘要:
从无结构文本中抽取实体与实体之间的关系是自然语言处理领域的重要研究内容,同时也为构建知识图谱、问答系统等应用提供重要支撑.基于联合模型的实体关系抽取任务将实体识别和关系抽取同时进行,克服了传统实体关系抽取任务中先识别句子中的实体,然后在进行实体关系判断这两次任务中的错误累加.该文针对藏文语料匮乏,实体识别准确率不高等问题,提出了基于联合模型抽取藏文实体关系的方法.该文基于藏文实体关系抽取任务,提出以下方案:针对藏文分词准确率不高的问题,对藏文进行字级和词级两种方式进行预处理,并给出对比实验,结果表明采用字级处理方式较词级处理方式效果有所提高.藏语是一种语法规则比较强的语言,名词、格助词等能明确指示句子各组块之间的语法和语义结构关系,因此该文将藏文的词性标注特征加入到藏文的字词向量中,实验结果表明方法的有效性.该文借鉴了联合模型处理的优势,提出基于联合模型处理方式,采用端到端的BiLSTM框架将藏文实体关系抽取任务转变为藏文序列标注的问题,实验结果表明,该文的方法较传统的基于藏文处理方式如SVM算法和LR算法,准确率提高了30%-40%.
-
-
LIU Hang;
刘航;
LIU Mingtong;
刘明童;
ZHANG Yujie;
张玉洁;
XU Jinan;
徐金安;
CHEN Yufeng;
陈钰枫
- 《第十七届全国计算语言学学术会议暨第六届基于自然标注大数据的自然语言处理国际学术研讨会(CCL 2018)》
| 2018年
-
摘要:
在汉语一体化依存分析中,如何利用分词、词性标注和句法分析的中间结果作为分析特征成为核心问题,也是三个任务相互制约协调、共同提高性能的关键所在.目前无论基于特征工程的方法还是基于深度学习的方法尚无法充分利用分析过程中依存子树的完整信息,而依存子树作为中间结果的主要成分对三个任务的后续分析具有重要的指导意义.为解决该问题,本文在基于转移的依存分析框架下,提出Stack-Tree LSTM依存子树编码方法,通过对分析栈中所有依存子树的有效建模,获取任意时刻的依存子树的完整信息作为特征参与转移动作决策.利用该编码方式提出词性特征使用方法,融合N-gram特征构建汉语一体化依存分析神经网络模型.最后在宾州汉语树库上进行了验证实验,并与已有方法进行了比较.实验结果显示本文提出的模型在分词、词性标注和依存分析任务上的性能非常接近特征工程最好的结果,并且均超过已有的一体化依存分析神经网络模型.
-
-
-