LDA
LDA的相关文献在1985年到2022年内共计871篇,主要集中在自动化技术、计算机技术、信息与知识传播、科学、科学研究
等领域,其中期刊论文614篇、会议论文6篇、专利文献251篇;相关期刊310种,包括情报杂志、现代情报、现代图书情报技术等;
相关会议6种,包括第五届全国青年计算语言学研讨会(YWCL 2010)、中国第二十届电路与系统学术年会暨2007年港澳内地电子信息学术研讨会、第十届全国MOCVD学术会议等;LDA的相关文献由2303位作者贡献,包括孙小兵、李斌、王伟等。
LDA
-研究学者
- 孙小兵
- 李斌
- 王伟
- 张涛
- 曾子明
- 王婧
- 高全学
- 刘书亮
- 刘利军
- 刘湘月
- 李云
- 杨智松
- 杨秀璋
- 汪洋
- 王勇
- 邓立军
- 马静
- 黄青松
- 万红新
- 严建峰
- 余林峰
- 余璇
- 傅学军
- 傅汝廉
- 冯旭鹏
- 冯时
- 刘剑
- 刘坤
- 刘学军
- 刘宴兵
- 刘志
- 刘柏嵩
- 刘阳
- 周国栋
- 唐军
- 唐晋韬
- 唐晓波
- 孙伟
- 安新颖
- 宋莹
- 尹丽玲
- 岳添骏
- 张宜浩
- 张小川
- 张明慧
- 张柳
- 张贤彬
- 张震
- 彭云
- 徐华
-
-
陈丽芳;
陈宏松;
孙海民
-
-
摘要:
传统的推荐算法随着用户和项目的数量增多,新用户在单一项目上的行为减少,导致推荐质量较低,鉴于此,提出一种融合文档主题算法(LDA)和交替最小二乘算法(ALS)的混合协同过滤推荐算法.LDA-ALS算法结合了文档主题算法和交替最小二乘算法的优势,缓解因用户信息缺失造成的冷启动问题,并将高维的用户-项目评分矩阵映射到低维的近似矩阵中,有效缓解了数据稀疏性问题.实验结果表明:在Spark平台下,该算法在旅游数据集上比传统推荐算法降低了2.4%的误差,而且更能适应目前网络环境下的大数据处理.
-
-
陈则铭;
赵鑫鑫;
朱晓阳;
周波;
钟海雁
-
-
摘要:
目的:解决压榨油茶籽油中掺入浸出油茶籽油的定量检测问题。方法:采用HS-SPME-GC-MS法对精炼浸出茶油和3种添加香精浸出茶油的关键香气成分进行测定和分析;将4种原香茶油和10种烤香茶油的香气成分相对含量与浸出茶油的香气成分相对含量进行对比,用浸出茶油中特有的香气成分作为特征数据进行Fisher判别分析,并建立LDA模型。结果:精炼浸出茶油中关键挥发性成分依次为(E)-2-癸烯醛、辛醛、(E)-2-壬烯醛和壬醛;3种添加香精的浸出茶油中特有的香精香气成分为2-甲氧基-3-甲基吡嗪、甲基环戊烯醇酮和2-甲基吡嗪。LDA模型对原香及烤香茶油的判别正确率分别达到84.0%和83.6%,能够鉴别原香及烤香茶油中掺伪比例为10%及以上的浸出茶油。结论:原香茶油的LDA模型能够很好地鉴别出添加茶油香精的浸出茶油,但烤香茶油的模型无法鉴别。
-
-
冯健文
-
-
摘要:
射频识别(RFID)技术应用广泛,但移动对象RFID轨迹(RFID-STR)数据挖掘研究较少,不能体现数据的社会和应用价值。针对数据预处理难度大、缺乏有效语义轨迹挖掘方法、知识可视化技术少等问题,结合过程发现、LDA模型、聚类算法、轨迹数据可视化等技术,把RFID-STR数据映射到业务过程模型,提出基于LDA的RFID-STR数据特征知识提取方法,重点阐述RFID-STR数据挖掘方法的轨迹数据预处理、轨迹知识提取和知识可视化阶段。为解决RFID数据的轨迹搜索与分析技术提供新的技术途径。
-
-
王金凤;
徐正强;
冯立杰;
李康
-
-
摘要:
鉴于在目前的技术机会识别中存在研判的创新路径往往较为抽象和模糊,并在很多情况下需领域专家参与解读的问题,以冷库技术为例,研究构建基于文本挖掘、机器学习算法及多维空间专利地图的技术创新路径识别模型。首先,构建技术创新路径识别框架对相关专利文献进行分词、清洗等预处理并建立知识图谱;其次,采用融合词频-逆文档频率(TF-IDF)文本挖掘方法对专利文档提取关键词,继而采用隐含狄利克雷分布(LDA)算法对主题聚类降维并萃取创新维度;再次,依据目标技术问题和目标优选创新法则耦合变换于多维空间专利地图并具象出具有现实意义、有价值前景的创新路径;最后,利用可拓学计算各创新路径综合关联度评级优选。以期减少创新成本、提高创新效率,为企业精准开展技术创新、不断提升核心竞争力提供决策参考。
-
-
余本功;
张子薇;
王惠灵
-
-
摘要:
电商平台信息对消费者的商品购买决策有显著影响。基于大体量的店铺与商品信息、在线评论文本进行信息融合并得出在线商品排序辅助消费者进行购买决策,具有重要的研究价值。针对上述问题,提出了一种融合多层次情感和主题信息的TS-AC-EWM在线商品排序方法,充分利用了评分信息与评论内容信息。首先,从计量与内容两个维度设计在线商品排序评价体系,体系包含4个计量指标与3个内容指标;其次,爬取各候选商品的计量指标与在线评论内容;然后,用融合主题与情感信息的TS方法以及基于追加评论的AC方法计算3个内容指标;最后,用熵权法确定指标权重,得出商品评分及排序。以京东微波炉数据集为例进行实验,证明了所提方法的可行性与有效性,因此该排序方法具有一定的现实意义。
-
-
朱恒民;
钱莉;
杨欣谊;
魏静
-
-
摘要:
[研究目的]研究舆情话题的漂移路径,以期描述舆情事件发展过程中话题之间的来龙去脉。[研究方法]以“新冠肺炎”疫情事件为例,通过词特征分析得出从特征词的微观视角研究话题漂移的可行性;基于LDA话题模型对不同时间片中的微博文档进行话题抽取并结合词热度特征计算漂移概率,进而描绘出话题在时间片上的漂移路径。通过设计对比实验,验证方法的有效性。[研究结论]在话题漂移的过程中,尽管两个话题的内容有较大差异,但往往包含着一些相同的特征词,且共有特征词在不同话题上的热度呈现出不同的变化趋势。
-
-
韩璐
-
-
摘要:
随着大数据时代的到来,互联网技术飞速发展。为在竞品当中脱颖而出,获得竞争优势,过度竞争趋势在互联网企业中逐渐显现,由此引发公司营销成本的上升以及营销绩效的下降等许多问题。针对上述问题,本文依靠美颜相机用户数据,利用LDA模型建立用户画像,通过提取主题词得到相应的主题分布;将选取的对应词扩充到特征空间中,完善用户特征,再利用SVM分类算法区分用户基本属性,进而构建用户画像。根据建立用户画像结果,给出精准营销策略建议。
-
-
吴迪;
赵玉凤
-
-
摘要:
针对隐含狄利克雷分布(LDA)模型特征提取时忽略语义信息的问题,提出一种融合LDA和全局文本表示(GloVe)模型的病症文本聚类算法LG&K-Medoide。首先,利用LDA对病症文本数据建模,采用JS(Jensen-Shannon)距离计算文本相似度;其次,利用GloVe对病症文本数据建模获取词向量,根据病症词性贡献度,对词向量权重进行标注,采用余弦距离计算基于GloVe建模加权的文本相似度;最后,将两种相似度进行结合,改进距离公式,实现K-Medoide聚类。实验结果表明,LG&K-Medoide算法较基于LDA,LDA+TF-IDF,LDA+Word2Vec模型的聚类算法具有较高的精度。
-
-
王艺静;
钱清
-
-
摘要:
文章针对微博舆情事件,搜集相关讨论并划分不同主题进行分析,结合情感分析与LDA主题模型,把握网民对舆情事件的不同态度,为国货及相关领域提供借鉴意义。文章搜集微博话题“H&M禁用新疆棉”的相关评论,处理数据得到高频词,进一步将话题细化为两个部分,分别绘制词云图并计算TF-IDF值,使用Snow NLP计算情感分数,制作情感分数图。同时进行LDA主题模型划分主题,深入掌握各主题下的讨论热点。结果表明,网民不仅围绕“H&M禁用新疆棉”本身话题进行讨论,同时对李宁等国货进行讨论,通过情感分析得出网民对“禁用新疆棉”事件的情感态度持负面,对国货产品的情感态度持正面,但针对国货的相关讨论,较多关注明星及相关代言人,未真正触及国货产品本身。
-
-
赵凯;
杨云帆;
袁杰;
李坤琪;
杨秀璋;
罗子江
-
-
摘要:
科学知识图谱在趋势研究、热点发现、学科发展研究方面具有重要意义。本文提出基于LDA与加权Word2vec的科学知识图谱构建方法,实现文本-词向量-知识图谱的一系列转化。首先利用LDA模型抽取信息服务领域期刊数据的主题及关键词,接着采用Word2vec获取词向量并通过加权得到主题向量,进而计算主题相似度与重要度,最后以可视化方法构建主题共现图谱和主题演化图谱。研究表明,该方法能够从语义层面有效揭示信息服务领域的现阶段研究方向和研究热点、各阶段研究侧重点与关键主题演化路径。