词嵌入
词嵌入的相关文献在2015年到2022年内共计295篇,主要集中在自动化技术、计算机技术、信息与知识传播、科学、科学研究
等领域,其中期刊论文176篇、会议论文3篇、专利文献46962篇;相关期刊103种,包括现代图书情报技术、电子学报、电脑知识与技术等;
相关会议3种,包括第十六届全国计算语言学学术会议暨第五届基于自然标注大数据的自然语言处理国际学术研讨会、2020互联网安全与治理论坛、香山科学会议第S42次学术会议等;词嵌入的相关文献由851位作者贡献,包括黄名选、刘小康、李健铨等。
词嵌入—发文量
专利文献>
论文:46962篇
占比:99.62%
总计:47141篇
词嵌入
-研究学者
- 黄名选
- 刘小康
- 李健铨
- 陈玮
- 余正涛
- 张云华
- 许振豪
- 谭北海
- 万长胜
- 刘巍
- 吴飞
- 周强
- 文永华
- 李想
- 李静
- 杨恒
- 武娇
- 王思丽
- 祝忠明
- 荆晓远
- 谢春丽
- 赵铁军
- 金世举
- 顾兴全
- 顾永春
- 付聪
- 何冉
- 何涛
- 余啸
- 侯仁魁
- 俞凯
- 俞能海
- 冯锦辉
- 冶忠林
- 刘文印
- 刘斌
- 刘洪超
- 刘进
- 卢守东
- 卢继华
- 叶芸
- 司存友
- 吕学强
- 吴天星
- 吴杭鑫
- 唐婧尧
- 姜文轩
- 姜明
- 孙承爱
- 孙莹
-
-
龚晓康;
应文豪;
王骏;
龚声蓉
-
-
摘要:
传统的话题演化跟踪任务主要使用基于主题模型的方法,但该方法对于文本语义的提取及表征能力较弱。该文在词嵌入方法的基础上结合LDA和注意力增强的孪生BiLSTM网络,提出文本邻近度模型PDRBL来确定话题演化过程中的时态判定。此外,基于PDRBL模型给出了六个话题演化时态及其判定方法,进而提出了话题演化跟踪方法TETP。实验表明,该文所提模型在精确率、召回率、F;值三个方面具有优化或可比较的性能,并可以有效捕获话题演化路径。
-
-
杨阳;
刘恩博;
顾春华;
裴颂文
-
-
摘要:
针对短文本缺乏足够共现信息所产生的词与词之间弱连接,且难以获取主题词的情况,导致面向短文本分类工作需要人工标注大量的训练样本,以及产生特征稀疏和维度爆炸的问题,提出了一种基于注意力机制和标签图的单词共生短文本分类模型(WGA-BERT)。首先利用预先训练好的BERT模型计算上下文感知的文本表示,并使用WNTM对每个单词的潜在单词组分布进行建模,以获取主题扩展特征向量;其次提出了一种标签图构造方法捕获主题词的结构和相关性;最后,提出了一种注意力机制建立主题词之间,以及主题词和文本之间的联系,解决了数据稀疏性和主题文本异构性的问题。实验结果表明,WGA-BERT模型对于新闻评论类的短文本分类,比传统的机器学习模型在分类精度上平均提高了3%。
-
-
冉雅璇;
李志强;
刘佳妮;
张逸石
-
-
摘要:
在大数据时代的背景下,基于大数据的分析处理技术为“数据驱动”的社会科学研究创造了新的发展契机。其中,词嵌入技术借势大数据浪潮,以其高效的词表征能力和强大的迁移学习能力在文本分析领域受到越来越多的关注。不同于传统的文本分析路径,词嵌入技术不仅实现了对非结构化文本数据的表征,还保留了丰富的语义信息,可以实现对跨时间、跨文化文本中深层次文化信息的挖掘,极大丰富了传统社会科学实证的研究方法。文章总结了词嵌入技术的基本原理及特点,系统地梳理了词嵌入技术的五大应用主题:社会偏见、概念联想、语义演变、组织关系和个体判断机制。随后,文章归纳了词嵌入技术的基本应用流程及结论有效性与稳健性的评估方法。最后,文章归纳了词嵌入技术在文本语料的选择、文本的分词处理、单词语义信息的表征层次三方面所面临的挑战,随即总结了相应的应对思路与方法。基于词嵌入技术的强大适应能力,未来研究可以进一步关注该技术在管理领域的应用前景,包括品牌管理、组织内部管理、中国传统智慧与管理问题三个方面。
-
-
黄名选;
胡小春
-
-
摘要:
本文提出一种深度学习与关联模式挖掘融合的查询扩展模型.该模型采用基于Copulas函数的支持度-置信度评价框架挖掘初检伪相关反馈文档集中扩展词,构建统计扩展词集,利用深度学习工具对初检文档集进行词向量语义学习训练得到词向量扩展词集,将统计扩展词集和词向量扩展词集融合得到最终扩展词.该模型不仅考虑来自统计分析与挖掘的扩展词与原查询间的关联信息,还考虑扩展词在文档中的上下文语义信息,扩展词质量得到较好地改善.在NTCIR-5 CLIR语料的实验结果表明,本文扩展模型能提高信息检索性能,其MAP和P@5平均增幅高于近年现有同类查询扩展方法.本文扩展模型可用于跨语言检索系统,以提高其性能.
-
-
生龙;
张有强;
吴迪
-
-
摘要:
针对中文命名实体识别中词嵌入表示不充分,以及传统分词方法存在分词错误引起误差传播的问题,提出两种词嵌入编码策略,并结合预训练语言模型BERT增强文本的初始向量表示。输入向量以字为单位,通过输入句子与词汇库匹配的方式,为每一个歧义字符引入多种可能的分词情况,然后利用提出的两种策略将多个词向量进行融合;通过统计数据集中所有词语的词频,为词向量引入词频信息,使得模型倾向于学习词频较高的词向量,减少了错误分词带来的噪声问题。利用BERT模型根据上下文语境生成动态字向量,将字向量和融合后的词向量拼接作为双向长短期记忆网络的输入,最后利用条件随机场进行标签解码。在MSRA和Resume数据集上进行仿真实验,F;值分别提高了2.01%和1.55%。
-
-
潘正宵;
罗银辉;
李荣枝
-
-
摘要:
航行通告信息是保障飞行安全所需的重要情报。针对航行通告信息难以采用统一格式处理特点,通过令牌化实现分词,并通过词嵌入方法,实现了航行通告中命名实体抽取。针对航行通告无标注数据集而无法进行机器学习的问题,采用改进的KMP算法结合实体间距离进行关系抽取。实验结果表明,采用此方法抽取航行通告信息,实现了航信通告信息中实体与关系的提取,得到了格式化的数据,解决了航信通告领域无标注数据集的问题。
-
-
李玉强;
张伟江;
黄瑜;
李琳;
刘爱华
-
-
摘要:
近年来,主题情感联合模型成为了无监督学习领域的一项重要研究内容,在文本主题挖掘和情感分析等方面均有实际应用。然而,在现实场景中,微博因其文字短小、结构不完整等特征,给主题情感联合模型带来了一定的挑战。因此,围绕微博主题情感模型展开相关的研究与改进工作,目前较为流行的主题情感模型——TSMMF模型(Topic Sentiment Model Based on Multi-feature Fusion)中引入了词向量技术,运用多元高斯分布从词向量空间中快速采样邻近词语,并替换掉原Dirichlet多项式分布产生的单词,从而将共现频率低、信息量少的单词转变成突出主题、信息明确的单词,同时使用最近邻搜索算法来进一步提升模型处理大型微博语料库的运行速度,进而提出了GWE-TSMMF模型。对比实验结果表明,GWE-TSMMF模型的平均F1值约为0.718,相比原模型和现有的主流词嵌入主题情感模型(WS-TSWE模型和HST-SCW模型),其微博情感极性的分析效果均有显著提升。
-
-
杨荣莹;
何庆;
杜逆索
-
-
摘要:
在不引入其他辅助特征的情况下,仅关注文本自身,通过构建多个特征提取器深度挖掘文本序列抽象、深层、高维的特征。采用BERT预训练模型获取信息更丰富的词嵌入;将词嵌入分别输入到BiLSTM和IDCNN中进行第一轮的特征提取,为获取更高维的特征,实现信息的多通道传输和流量控制,在IDCNN网络中引入门控机制;为提高特征提取效率,加入多头自注意力机制;构建共享BiLSTM,实现特征信息的交互流通,提高特征表征强度;创建两个CRF模型,丰富特征分布并实现特征信息的跨层传输,以提升标签序列预测的准确性。在两个数据集上进行测试,与四种NER模型进行比较,结果表明,F1值在一定程度上得到提升。
-
-
朱晨清;
刘至渊;
李妍灵;
朱临风;
刘佳豪;
陈伟
-
-
摘要:
DBLP数据库是一个以作者为核心的计算机类英文文献数据库,其中存在着大量的同名作者,为数据库的使用带来了较大的不便。针对DBLP数据库中作者译名的同名问题,以网络嵌入为基础进行作者姓名消歧。提出了以下两种新方法:(1)从文章之间的相似性出发,建立有偏游走序列,在Word2vec模型进行训练后,利用聚类方法对同名作者进行区分。(2)根据文章的属性构建二部图,并基于LINE方法得到每篇文章的特征向量,用机器学习模型区分同名作者。具体来讲,构建多层感知机模型并添加Softmax函数,用以判断输入的两篇文章是否出自同一作者。模型在221位DBLP中同名作者的文献数据集上进行验证,实验结果表明,该方法可以有效地区分DBLP中的同名作者并优于对比方法。
-
-
杨超;
丁方熠;
周洋;
张玉梁
-
-
摘要:
城市精细化管理对交通需求预测模型提出了更高要求,如何利用海量的出行活动信息提取反应个体活动特征和规律的活动模式成为研究难点。基于城市居民出行调查数据,运用词嵌入和句嵌入方法,构建活动序列向量,对活动模式进行聚类。结果表明,城市居民活动模式可划分为13类代表性活动模式,包括3类工作模式,4类社交娱乐主导的模式,2类复杂活动模式以及上学主导、业务主导、购物主导、接送主导模式各1类。通过分析各模式下的活动特征和对应群体的社会经济属性,发现与社会各群体的特性一致,验证该方法的有效性。该方法考虑了活动模式识别中直接使用聚类法或主题模型的局限性,在解决词序信息缺失、衡量活动链元素之间的相似性等方面存在优势。
-
-
-
刘洪超;
黄居仁;
侯仁魁;
李洪政
- 《第十六届全国计算语言学学术会议暨第五届基于自然标注大数据的自然语言处理国际学术研讨会》
| 2017年
-
摘要:
本文主要介绍汉语动词事件类型的预测.事件类型是根据内部时间结构对汉语动词进行的重要分类,包括状态、活动、变化(完结和达成).对汉语动词事件类型进行预测从理论上能够对以往语言学研究提出的特征进行验证,从应用上可以服务于机器翻译等任务.本文基于两种方式构建词向量进行汉语动词事件类型的预测,一种是根据语言学特征有监督地构建词向量;另一种是利用word2vec无监督地构建词嵌入向量.通过多元逻辑回归、支持向量机和人工神经网络分类器对汉语动词事件类型进行预测,最终实现了73.6%的总体准确率.
-
-
梁飞
- 《2020互联网安全与治理论坛》
| 2020年
-
摘要:
恶意URL背后往往隐藏着木马程序、诈骗信息、恶意软件,严重威胁到网络安全环境.文章提出了一种基于多分组注意力机制的BiLSTM-N-Attention模型,将URL作为文本数据分类的问题处理.模型首先将URL作为文本类的时间序列进行输入,通过词嵌入技术映射到稠密向量空间,并利用基于双向的长短时记忆模型(BiLSTM)进行文本数据的信息提取;然后通过引入多分组Attention机制,提取到时序信息各时刻的相关程度;最后将融合的特征进行二分类预测实验结果验证了BiLSTM-N-Attention模型方法的有效性.