您现在的位置: 首页> 研究主题> word2vec

word2vec

word2vec的相关文献在2014年到2022年内共计406篇,主要集中在自动化技术、计算机技术、信息与知识传播、科学、科学研究 等领域,其中期刊论文406篇、专利文献420881篇;相关期刊195种,包括人天科学研究、现代图书情报技术、通信技术等; word2vec的相关文献由1017位作者贡献,包括熊回香、刘嘉勇、卢超等。

word2vec—发文量

期刊论文>

论文:406 占比:0.10%

专利文献>

论文:420881 占比:99.90%

总计:421287篇

word2vec—发文趋势图

word2vec

-研究学者

  • 熊回香
  • 刘嘉勇
  • 卢超
  • 叶佳鑫
  • 宋尚文
  • 王昊
  • 阎红灿
  • 刘睿伦
  • 叶文豪
  • 唐梦嘉
  • 期刊论文
  • 专利文献

搜索

排序:

年份

    • 黄金源; 孙若莹
    • 摘要: 为了高效地对大宗商品交易领域的文本数据进行挖掘,基于书籍文本面向大宗商品交易领域构建了领域词典。通过关键词提取以及融合现有基础词典,构建大宗商品交易领域词典。为了使得领域词典更加完善,利用分布式表示方法中的Word2vec算法进行词典扩充。实验结果表明,所构建的领域词典在文本分类任务中具有良好的性能表现。
    • 冼广铭; 王鲁栋; 曾碧卿; 梅灏洋; 陶睿
    • 摘要: 文本分类是自然语言处理的基础任务,文本中的特征稀疏性和提取特征所用的神经网络影响后续的分类效果。针对文本中的特征信息不足以及传统模型上下文依赖关系方面不足的问题,提出经过TF-IDF加权的词向量和LDA主题模型相融合,利用双向门控循环神经网络层(BiGRU)充分提取文本深度信息特征的分类方法。该方法主要使用的数据集是天池比赛新闻文本分类数据集,首先用Word2vec和LDA模型分别在语料库中训练词向量,Word2vec经过TF-IDF进行加权所得的词向量再与LDA训练的经过最大主题概率扩展的词向量进行简单拼接,拼接后得到文本矩阵,将文本矩阵输入到BiGRU神经网络中,分别从前后两个反方向提取文本深层次信息的特征向量,最后使用softmax函数进行多分类,根据输出的概率判断所属的类别。与现有的常用文本分类模型相比,准确率、F1值等评价指标都有了较高的提升。
    • 张倩男
    • 摘要: 为了帮助商家了解用户需求和产品问题,进一步提升产品和服务质量,对vivo手机评论数据进行基于关键词的词云图分析、社会语义网络分析、舆情时间序列可视化分析,挖掘用户关注焦点与手机特征的内在联系和用户情感倾向趋势;然后对评论数据进行基于LDA的主题特征分析,继而提出一种基于Word2vec和SVM、LDA的混合算法模型,挖掘用户正向和负向情感评论的潜在主题,得到不同情感倾向下用户对vivo手机不同方面的反映情况。分析结果表明,基于混合算法的挖掘结果比基于关键词的可视化分析、基于LDA的主题分析更清晰,更具准确性,为商家提供的建议更有意义。
    • 李栋凯; 张永昌
    • 摘要: 将textrank、word2vec和MMR3种语言模型用于基于文本相似度的新闻自动摘要提取。实验结果表明textrank算法得到的摘要语句可读性较差,理解困难;在textrank算法基础上增加word2vec模型后对整篇新闻的概括度较高,但却不能很好地解决信息冗余和效率低的问题;MMR可以有效去除信息冗余,体现语义的多样性。
    • 项恒; 张驰; 李猛
    • 摘要: 针对航行通告中出现的Q代码和E项正文部分不规范的问题,通过自然语言处理中的文本相似度计算方法可识别出不规范航行通告。首先,基于统计机器翻译方法将航行通告E项正文部分翻译成中文并建立数据库,将Q代码翻译成中文;然后,利用Word2vec模型计算两者之间的相似度,并制定不规范航行通告识别标准。通过对收集的500条航行通告中的Q代码和E项正文进行相似度计算,设定0.7作为不规范航行通告的识别标准,经数据测试可得不规范航行通告识别准确率为96.2%,验证了基于自然语言处理的不规范航行通告识别方法的可行性。
    • 向卓元; 吴玉; 陈浩; 张芙玮
    • 摘要: [研究目的]针对主流话题发现模型存在数据稀疏、维度高等问题,提出了一种基于突发词对主题模型(BBTM)改进的微博热点话题发现方法(BiLSTM-HBBTM),以期在微博热点话题挖掘中获得更好的效果。[研究方法]首先,通过引入微博传播值、词项H指数和词对突发概率,从文档层面和词语层面进行特征选择,解决数据稀疏和高维度的问题。其次,通过双向长短期记忆(BiLSTM)训练词语之间的关系,结合词语的逆文档频率作为词对的先验知识,考虑了词之间的关系,解决忽略词之间关系的问题。再次,利用基于密度的方法自适应选择BBTM的最优话题数目,解决了传统的主题模型需要人工指定话题数目的问题。最后,利用真实微博数据集在热点话题发现准确度、话题质量、一致性三个方面进行验证。[研究结论]实验表明,BiLSTM-HBBTM在多种评价指标上都优于对比模型,实验结果验证了所提模型的有效性及可行性。
    • 李敏; 张怡; 王善玲
    • 摘要: [目的/意义]中国电影市场近年来蓬勃发展,研究中国观众观影的感知需求与满意度对促进国产电影内循环以及其他来源国电影向中国电影市场跨文化传播具有重大意义。[方法/过程]本文采用网络爬虫技术获取2017-2020年在中国大陆上映的包含中国电影、美国电影、欧洲电影以及日本电影在内的423部电影样本影评数据,共计75548条。利用词频统计、Word2vec模型对影评数据进行特征提取,识别观众感知需求。后引入情感词典和TF-MONO算法实现对中国观众观影满意度的测算。[结果/结论]研究结果发现:首先,中国观众观影感知需求主要表现在故事、角色这两个方面。其次,中国观众对中国电影动作特征表现为高满意;对美国电影的特效、角色、演员这三个特征满意度较高;欧洲电影的故事较其他三个来源国电影表现更为突出;日本电影的艺术、导演/团队特征更能使中国观众满意。整体来看,中国观影者对欧洲电影整体满意度最高,其次是美国电影、日本电影,最后是中国电影。
    • 柴源
    • 摘要: 在线图书评论文本数量庞大、纷繁复杂,传统词袋模型无法表征文本隐含的语义信息,也无法通过一个线性分类器实现分类,而人工监控分析又具有很强的滞后性。文中以online_shopping_10_cats数据集中的图书评论部分为语料,经过文本预处理,采用Word2vec进行文本向量表示,得到语义化的特征矩阵,引入SVM模型进行训练和预测,采用增量训练和GridSearchCV进行模型优化,应用Tkinter构建可视化界面,实现文本信息情感识别。实验表明,该系统精确率为0.94,召回率为0.94,f1-score值为0.93,具有良好的适用性。
    • 刘峻松; 唐明靖; 薛岗; 杨成荣
    • 摘要: Stack Overflow是一个计算机编程领域的问答社区,其中的文本蕴含大量有价值的信息可供挖掘,但由于其本身存在大量的错误词汇,给文本的分析造成影响。对此,提出一种词语自动检测纠错算法,通过词向量的技术以语义相似度为核心,对错误词汇进行分析,结合改进的编辑距离算法对文本进行自动检测纠错。实验结果表明,该算法能够对诸如此类专业性较强的领域主题文本进行自动检测纠错,并且能够较好地还原标准文段用词。
    • 石豪
    • 摘要: 学生意见挖掘在课程思政实施过程中具有重要的指导作用。文章基于Word2Vec神经网络和K-Means算法对在传媒专业线课程的学生评价进行聚类分析,发现各分值评论内容在知识、能力和情感三个维度关注程度的差异性。基于此,文章提出层次化的需求模型来描述学生对课程的需求,并建议课程思政建设需要先满足功能性、可靠性、体验性需求的基础上,合理嵌入思政内容满足学生的身份需求和价值诉求。
  • 查看更多

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号