未登录词
未登录词的相关文献在1991年到2022年内共计167篇,主要集中在自动化技术、计算机技术、科学、科学研究、语言学
等领域,其中期刊论文110篇、会议论文15篇、专利文献11536篇;相关期刊71种,包括信息系统工程、情报理论与实践、现代图书情报技术等;
相关会议12种,包括中国医学科学院/北京协和医学院医学信息研究所/图书馆2012年学术年会、2011语言逻辑和符号学学术会议、第六届中国信息和通信安全学术会议(CCICS'2009)等;未登录词的相关文献由384位作者贡献,包括李健铨、史树敏、张海军等。
未登录词—发文量
专利文献>
论文:11536篇
占比:98.93%
总计:11661篇
未登录词
-研究学者
- 李健铨
- 史树敏
- 张海军
- 张玥杰
- 杨凯程
- 蒋宏飞
- 黄河燕
- 吕学强
- 晋耀红
- 李军辉
- 李想
- 梁吉光
- 赵铁军
- 高东平
- 侯汉清
- 关晓炟
- 冯敏萱
- 刘军
- 吕志强
- 吴夙慧
- 吴英杰
- 周国栋
- 姚家伟
- 娄玉娟
- 孙海霞
- 孙铁利
- 安见才让
- 宋啸天
- 张一珂
- 张会鹏
- 张红阳
- 张鹏远
- 徐冰
- 徐凯波
- 徐慧
- 曲维光
- 曹海龙
- 朱巧明
- 朱聪慧
- 李军莲
- 李超
- 杨沐昀
- 杨雅婷
- 柏文雷
- 武子英
- 熊德意
- 王玥
- 瞿健菊
- 米成刚
- 胡长建
-
-
韩士洋;
马致远;
杨芳艳;
李想;
汪伟
-
-
摘要:
成词信息是一种对中文分词任务十分重要的文本特征。最新中文分词模型之一的WMSEG就是通过引入成词信息来获得最顶尖的分词性能。然而这类模型在建模时并未考虑标签之间的依赖关系,导致其分词性能特别是对未登录词的识别有所欠缺。针对这一问题,通过在学习过程中引入标签嵌入的注意力机制,提出了一种带标签注意力的成词记忆网络来增强标签之间的依赖关系以及标签和字符之间的相关性。实验结果表明,该模型在四个常用数据集上都取得了不弱于WMSEG的分词性能,同时提高了对未登录词的识别能力。
-
-
刘晓彤;
赵小兵
-
-
摘要:
分词是自然语言处理的基础任务,本文针对藏文分词中的特殊问题及其研究成果进行了梳理,为今后学者开展该领域的相关研究提供参考和借鉴。重点阐述和分析了藏文自身语法带来的分词难点和藏文分词时的歧义和未登录词问题,并分析了目前藏文领域研究的最新方法和发展趋势。结果表明,藏文分词的重难点在各种方法中得到了一定程度的解决,但各种单一方法都存在不足,必要时可多种方法结合使用。
-
-
李保珍;
顾秀莲
-
-
摘要:
基于语料库构建词语语义性向量的词嵌入模型,可以定量刻画词语的上下文语义。然而,传统的词嵌入模型在揭示一词多义词汇的语义时,存在着语义空间向量维度不确定或缺乏直观可解释性等局限,此外,对于词汇表外未登录新词语的语义性嵌入识别,尚缺乏有效的途径。针对一词多义问题和未登录词问题,可将词嵌入的优势和词共现的优势相融合,以弥补传统词嵌入模型的语义空间维度不确定、语义维度不可解释及未登录词忽略等方面的不足。主要创新工作包括:基于训练后的词嵌入矩阵与单词归一化的共现矩阵,构建全局性语料词向量;为未登录词创建语料词向量,并与全局性语料词向量进行权重融合,以提高词嵌入的精确率。通过公开数据集的两项实验结果表明,基于词共现的一词多义及未登录词嵌入模型,可有效提升词嵌入的精确度,并可缩短词嵌入的进程时间。
-
-
陈皓宇;
洪嘉伟;
陈致然
-
-
摘要:
未登录词是影响命名实体识别效果的重要因素,现有分词工具在处理未登录词时不仅识别效果欠佳,且存在识别时间较长等问题.为提高分词效果,在现有分词器基础上结合未登录词识别模型,提出了一种基于改进双数组Trie的混合信息未登录词动态识别模型MIDAT,将双数组Trie扩展为字符双数组与概率双数组,利用字符双数组存储字符串词段信息,概率双数组存储字符串节点间的成词概率信息,通过不断识别未登录词,动态更新两个双数组Trie.实验结果表明,在相同的数据集下,结合MIDAT的分词器后对于未登录词的分词效果要优于结巴等常用分词器,同时在时间效率上相比传统的未登录词识别模型提升约8倍.
-
-
杨文珍;
徐豪杰;
汪文妃;
宣建强;
赵维;
吴新丽;
潘海鹏
-
-
摘要:
汉盲翻译是把汉字源文本自动翻译为对应的盲文文本,目前存在着多音字混淆、未登录词不能增加、不符合盲文分词连写规则等挑战.构建一个基于逆向最大匹配分词算法的汉盲翻译系统,能够较好识别多音字,自主添加未登录词,得到较正确的分词连写结果,有效提高了汉盲翻译的准确率.该系统基于词库可以区分出大多数多音字,能够得到较符合盲文分词连写规则的分词结果,并可向词库自主添加未登录词,进而提高中文分词的准确率.实验结果表明该系统能够降低因中文分词错误引起的语句歧义,减少因多音字混淆引起的翻译错误,避免因音节结构分散导致的盲文方数繁多,具有一定的开放性和实用性.
-
-
张炳;
文峥;
赵宇轩;
王苧;
任家东
-
-
摘要:
针对现有漏洞代码切片方法评估过程存在的切片信息抽取不完全、模型复杂度高且泛化能力差、评估过程开环无反馈的问题,提出了一种双粒度轻量级漏洞代码切片方法评估模型(VCSE).针对代码片段,构建了轻量级的TF-IDF与N-gram融合模型,高效绕过了OOV问题,并基于词、字符双粒度提取了代码切片语义及统计特征,设计了高精确率与泛化性能的异质集成分类器,进行漏洞预测分析.实验结果表明,轻量级VCSE的评估效果明显优于当前应用广泛的深度学习模型.
-
-
朱永清;
赵鹏;
赵菲菲;
慕晓冬;
白坤;
尤轩昂
-
-
摘要:
在互联网数据急剧扩张和深度学习技术高速发展的背景下,自动文本摘要任务作为自然语言处理领域的主要研究方向之一,其相关技术及应用被广泛研究.基于摘要任务深化研究需求,以研究过程中存在的关键问题为导向,介绍现有基于深度学习的生成式文本摘要模型,简述定义及来源、数据预处理及基本框架、常用数据集及评价标准等,指出发展优势和关键问题,并针对关键问题阐述对应的可行性解决方案.对比常用的深度预训练模型和创新方法融合模型,分析各模型的创新性和局限性,提出对部分局限性问题的解决思路.进一步地,对该技术领域的未来发展方向进行展望总结.
-
-
胡新棒;
于溆乔;
李邵梅;
张建朋
-
-
摘要:
基于字词联合的中文命名实体识别模型能够兼顾字符级别与词语级别的信息,但受未登录词影响较大且在小规模数据集上存在训练不充分等问题.在现有LR-CNN模型的基础上,提出一种结合知识增强的中文命名实体识别模型,采用相对位置编码的多头注意力机制提高模型上下文信息捕捉能力,通过实体词典融入先验知识降低未登录词的影响并增强模型学习能力.实验结果表明,该模型在保持较快解码速度和较低计算资源占用量的情况下,在MSRA、People Daily、Resume、Weibo数据集上相比SoftLexicon、FLAT等模型F1值均有明显提升,同时具有较强的鲁棒性和泛化能力.
-
-
-
-
瞿健菊;
冯敏萱
- 《第十六届全国计算语言学学术会议暨第五届基于自然标注大数据的自然语言处理国际学术研讨会》
| 2017年
-
摘要:
未登录词语义预测是自然语言处理研究的难点.该文基于知识库的语素构词知识,采用了分阶段的算法自动预测未登录词的语素构词知识,以此实现对未登录词的语义预测.基本思路是通过语素义组合或语素义类组合的匹配,先预测语义层面的知识,再确定相应语素项,最终获得未登录词多层面的语素构词知识.该算法简单、直观、合理,在首素性类、首素义类、首素义、尾素性类、尾素义类、尾素义、构词方式这七项预测内容全部正确的标准下,实验结果的预测正确率为62.32%,召回率为61.72%.
-
-
韩冬;
李军辉;
熊德意;
周国栋
- 《第十六届全国计算语言学学术会议暨第五届基于自然标注大数据的自然语言处理国际学术研讨会》
| 2017年
-
摘要:
神经机器翻译(NMT)为机器翻译系统提供了一种全新的方法,它与传统的统计机器翻译系统(SMT)相比,翻译结果具有更加流畅的优势.但是NMT系统也有着其自身的缺点:翻译精准度的问题,尤其是对未登录词的翻译.2016年,Rico Sennrich和Barry Haddow等人提出了Byte Pair Encoding(BPE)的方法,将原有的单词拆解成了更小单元的高频词进行翻译.现如今,这种方法已经被广泛用于各种开源的神经机器翻译系统中.本文主要针对BPE方法在中英神经机器翻译中的应用,分析BPE方法在多大程度上解决了未登录词翻译的问题.实验表明,与传统的NMT系统相比,BPE方法获得了1.02BLEU值的提升,对未登录词的翻译精准度达到了45%左右,与SMT系统翻译精准度相似.因此可以得出结论:BPE的方法是一种对NMT系统中未登录词问题的行之有效的解决方法.
-
-
-
-
-
高东平
- 《2011语言逻辑和符号学学术会议》
| 2011年
-
摘要:
针对汉语分词中的未登录词识别和歧义消除这两个瓶颈问题和目前方法的不足,将类型论的思想引入到汉语分词领域中,提出了类型匹配模型,以类型论函数贴合为主要算法,融合了全切分、统计,前后缀识别信息等多种技术手段,将分词、未登录词识别、歧义消除,词典的动态扩充有机的融合到一个统一的理论模型当中.在此理论框架的基础上,最后实现了基于类型论的汉语分词系统TTCS.
-
-
孙宏纲;
陆余良
- 《第五届全国数字博物馆与文化自然遗产数字化及保护研讨会》
| 2007年
-
摘要:
为了更准确地得到互联网新闻主题词,本文在研究中,借鉴了基于二元自动切分的索引机制。在新闻主题词提取时,选用二元切分,并充分利用新闻自身的文体特性,弱化了对字典的依赖,强化了对二元词的位置信息的处理。实验证明该方法是一种简单有效的获取新闻主题词,包括未登录词的方法。
-
-
张云涛;
上海交通大学;
龚玲;
王永成
- 《2007年中国智能自动化会议》
| 2007年
-
摘要:
根据人名、地名和组织名的自身用字规律和人名、地名和组织名在上下文环境中对应的指示词来作为度量专有名词类别的特征,从而对从文本中抽取出的未登录词中的各类专有名词进行归类。基于对Internet新闻文本的开放测试,精度和识别率的宏平均分别达到87.8%和92.0%,而微平均则分别达到89.8%和94.4%。
-
-
- 《第四届全国信息检索与内容安全学术会议》
| 2008年
-
摘要:
产品属性抽取是产品意见挖掘的重要任务之一,直接影响着产品意见挖掘的性能.本文提出了一种基于语言依存分析和语料库统计相结合的未登录(OOV)产品属性挖掘算法.该算法基于一个小规模基本产品属性集,从依存分析结果中提取与已有属性相关的统计特征,从而实现从生语料中抽取OOV产品属性,并对OOV产品属性进行排队,将可信度较高的OOV产品属性优先推荐.本文对抽取算法和排序方法的正确率进行了实验评测,并对比了不同统计特征的有效性.实验结果证明,在排队后的前200个产品属性中能取得87.5%的抽取正确率.
-
-
- 《第四届全国信息检索与内容安全学术会议》
| 2008年
-
摘要:
产品属性抽取是产品意见挖掘的重要任务之一,直接影响着产品意见挖掘的性能.本文提出了一种基于语言依存分析和语料库统计相结合的未登录(OOV)产品属性挖掘算法.该算法基于一个小规模基本产品属性集,从依存分析结果中提取与已有属性相关的统计特征,从而实现从生语料中抽取OOV产品属性,并对OOV产品属性进行排队,将可信度较高的OOV产品属性优先推荐.本文对抽取算法和排序方法的正确率进行了实验评测,并对比了不同统计特征的有效性.实验结果证明,在排队后的前200个产品属性中能取得87.5%的抽取正确率.