您现在的位置: 首页> 研究主题> 话题模型

话题模型

话题模型的相关文献在2010年到2022年内共计82篇,主要集中在自动化技术、计算机技术、社会学、科学、科学研究 等领域,其中期刊论文65篇、会议论文4篇、专利文献146351篇;相关期刊37种,包括现代图书情报技术、国防科技大学学报、计算机工程等; 相关会议4种,包括2013年中国计算机学会人工智能会议、第十一届全国计算语言学学术会议、数字图书馆高层论坛2010年年会等;话题模型的相关文献由220位作者贡献,包括李芳、朱军、张钹等。

话题模型—发文量

期刊论文>

论文:65 占比:0.04%

会议论文>

论文:4 占比:0.00%

专利文献>

论文:146351 占比:99.95%

总计:146420篇

话题模型—发文趋势图

话题模型

-研究学者

  • 李芳
  • 朱军
  • 张钹
  • 张晖
  • 张蓝姗
  • 杨春明
  • 殷风景
  • 王桢文
  • 肖卫东
  • 葛斌
  • 期刊论文
  • 会议论文
  • 专利文献

搜索

排序:

年份

作者

    • 赵新琴; 吴鹏
    • 摘要: [目的/意义]探究在新冠肺炎疫情期间的文献主题演化规律,不仅可以细粒度地揭示疫情在各领域的热点话题和演化路径,还可以为政府应急响应提供决策支持。[方法/过程]文章引入话题检测及跟踪技术(TDT)对文献主题进行自动检测和跟踪,挖掘文献中的主题分布及演化路径。融合自动编码器和Word2vec进行文本特征提取,并利用K-means和余弦相似度计算进行主题演化研究,同时结合LDA模型优化话题模型。[结果/结论]实验结果证明,文献主题词随时间变化较为明显,且与实际较为相符,疫情初期集中在“武汉市”,逐渐从“远程劳动”过渡到“疫苗”,研究集中在疫情防控、经济舆情和医疗卫生3个方面。TDT技术的引入能够系统地完成新冠肺炎疫情文献主题检测和跟踪任务,多维度话题模型能较好适应研究主题不断变化的情况。
    • 查国清; 胡超然; 孙铭涛; 王德庆
    • 摘要: 在社交网络数据与抑郁症有关研究中往往需要采取人工方式标注抑郁症和非抑郁症用户,费时费力。通过高校大学生的微博社交数据的采集与分析,研究并提出了一种基于抑郁关键词与语义扩展的大学生疑似抑郁微博初步筛选算法--综合词法。该方法通过基础关键词表的构建和基于词嵌入学习模型WORD2VEC的语义扩展形成抑郁关键词表,最后利用该词表对被测微博进行语义相似度计算,进而识别其是否为疑似抑郁微博。在首都高校大学生微博数据集上的实验结果表明:综合词法在筛选准确率上优于SDS问卷分词法和专家词法;综合词法能够快速地从海量大学生微博中自动筛选占比非常少的疑似抑郁微博,减少专家标注工作量,提高标注效率,并可进一步为后续抑郁症患者精确识别(分类问题)提供良好的数据处理基础。
    • 韩东红; 张宏亮; 朱帅伟; 齐孝龙
    • 摘要: 面向社交网络的情感社区检测,可应用于公共健康、舆情监测等领域.以新浪微博为平台建立一种情感社区检测框架,首先融合微博情感表情特征和情感词典,提出基于朴素贝叶斯算法的半词典半表情(naive Bayes based semi-lexicon and semi-emoji,SL-SE-NB)分类模型以实现对文本的情感极性预测;提出一种基于潜在狄利克雷分配(latent Dirichlet allocation,LDA)话题模型的用户-超话题-关键词(user-topic-keywords,UTK)模型抽取用户话题;基于标签传播算法(label propagation algorithm,LPA)并加入话题概念,提出基于种子集与最小边介数的标签传播情感社区发现算法(label propagation algorithm based seeds and min-edge betweenness,SMB-LPA).最后通过实验验证了所提出算法的有效性和高效性.
    • 徐琳; 穆春宇
    • 摘要: 基于“无人车致死不负刑责”这一事件,对相关微博数据采用话题模型与情感分析实证考察了网民的态度。研究发现,网民对该事件的讨论集中在人机对比、法律与判责、行人违规、车辆驾驶、无人驾驶技术五个方面。在对事件的评价中出现了态度极化,网民的正面情感较为分散,而负面情感容易发生聚集。在五个话题中,除了人机对比的情感比较中立,其他四个话题均聚集了较多的负面情感,这反映了网民对行人违规的反感,对无人驾驶技术不成熟的担忧,和对无人车所带来的法律困境的关注。
    • 徐琳; 穆春宇
    • 摘要: 基于“无人车致死不负刑责”这一事件,对相关微博数据采用话题模型与情感分析实证考察了网民的态度。研究发现,网民对该事件的讨论集中在人机对比、法律与判责、行人违规、车辆驾驶、无人驾驶技术五个方面。在对事件的评价中出现了态度极化,网民的正面情感较为分散,而负面情感容易发生聚集。在五个话题中,除了人机对比的情感比较中立,其他四个话题均聚集了较多的负面情感,这反映了网民对行人违规的反感,对无人驾驶技术不成熟的担忧,和对无人车所带来的法律困境的关注。
    • 彭仁杰; 余正涛; 高盛祥; 李云龙; 郭军军; 赵培莲
    • 摘要: 话题模型已被广泛用于文本话题的发现.但是在案件话题领域,这些方法生成的话题与案件相关性不高,可解释性比较差,导致话题生成质量不高.为了解决这些问题,本文提出了基于案件要素指导下的话题优化方法:首先利用案件要素信息对话题模型进行改进,结合案件要素与BTM话题模型特征向量,将文档词与案件要素的相关性与BTM话题模型的话题分布结合,获得案件微博中与案件更相关的话题词,通过选取与案件相关的候选词来表征话题;最后再计算案件话题候选词与文本词之间的相关性和文档与案件要素的相似度,得到案件话题词集.通过对新浪微博数据集的对比实验及结果说明,能够显著改善案件话题的发现质量.
    • 李文; 黄克文
    • 摘要: 为了提高政府部门应对网络舆情的处理效率,采用一种产生式的组话题模型对微博政务话题进行挖掘与分析。组话题模型对每个话题产生一个多项式分布,对相似性质事件进行合并生成相关矩阵。由于每个实体可以属于多个话题,并且网络规模大,用Gibbs采样对提出的模型进行了验证,并与其他话题预测模型进行对比分析。实验结果表明:本文提出的组话题模型不仅执行时间短、效率高,而且具有很高的准确率。
    • 马理博; 秦小麟
    • 摘要: 随着基于位置的社交网络(Location-Based Social Networks,LBSN)的不断发展,有助于用户探索新地点和商家发现潜在客户的兴趣点(Point-of-Interest,POI)推荐受到了广泛关注.然而,用户签到数据的高稀疏性,为兴趣点推荐带来了严峻挑战.针对这一挑战,文中探索兴趣点的文本、地理和类别信息,有效融合兴趣话题、地理影响及类别偏好因素,提出了一种话题-位置-类别感知的协同过滤兴趣点推荐算法,称之为TGC-CF.该算法利用潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)模型挖掘兴趣点相关的文本信息,学习用户的兴趣话题分布,并计算用户间兴趣话题分布的相似度,通过结合地理距离和用户的区域偏好来建模地理影响;使用TF-IDF统计方法评估目标用户对类别的偏好程度,并考虑其他用户的类别偏好在推荐过程中的作用和影响,最后将这些影响因素整合到一个协同过滤推荐模型中,从而生成包含用户感兴趣的兴趣点的推荐列表.在两个真实数据集上的实验结果表明,TGC-CF算法比其他推荐算法表现更好.
    • 陈兴蜀; 马晨曦; 王文贤; 高悦; 王海舟
    • 摘要: 目前,跨文本集的话题发现模型(cross-collection LDA,ccLDA)只适用于各个数据源话题相似度很高的场景,而且其全局话题和每个数据源的局部话题会强制对齐,存在词语稀疏的问题.针对ccLDA模型中的不足,提出了改进的跨文本集话题发现模型(improved ccLDA,IccLDA).该模型在采样时先判断词语属于全局话题还是局部话题,再分别进行采样,避免了ccLDA模型中全局话题和局部话题必须对齐的缺点,进而降低了词语在全局话题和局部话题的分散程度,使该模型可以适用于多数据源的场景.在公开数据集上进行了多数据源文本集的话题发现实验,并进行了话题比较性分析.实验结果表明,在设置不同的话题数时,IccLDA模型的困惑度值均低于LDA模型和ccLDA模型,表明IccLDA模型具有更优的建模能力.最后,在真实数据集上开展了进一步实验验证,证明了本文提出的改进模型不仅建模能力优于原始模型,还可以有效地发现各个数据源讨论的公共话题和每个数据源讨论的局部话题,更适用于多数据源场景的文本话题发现.%At present,ccLDA (cross collection LDA) model has been found only applicable to data sources that topic similarity is very high,and its global topics and local topics of each data source will be forced alignment,hence causing words sparse.In order to solve the problem of ccLDA model,an improved ccLDA topic model (IccLDA) was proposed.When sampling,this model firstly decides whether words are global topics or loc-al topics,and then takes samples respectively.In this way,it can avoid the problem that the global topics and local topics in ccLDA model must be aligned,and also can reduce the dispersion degree of the words in the global topics and local topics,making the model suitable for multiple data source scenarios.The topic discovery experiments of multiple data source were conducted on public data sets,and a comparative analysis of topics was conducted.The experimental results showed that the confusion degree of IccLDA model is lower than LDA model and ccLDA model,indicat-ing that IccLDA model has better modeling ability.Finally,further experimental verification was performed with the data sets of real-world scen-arios.The result showed that the improved model not only has better modeling ability than the traditional models,but also can effectively discover public topics discussed by various data sources and local topics discussed by each data source,and is more suitable for topic discovery in multiple data source scenarios.
  • 查看更多

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号