潜在语义分析
潜在语义分析的相关文献在2001年到2022年内共计220篇,主要集中在自动化技术、计算机技术、信息与知识传播、科学、科学研究
等领域,其中期刊论文183篇、会议论文13篇、专利文献187738篇;相关期刊113种,包括情报理论与实践、现代图书情报技术、信息技术等;
相关会议13种,包括SCEG2014研讨会(2014年“计算机科学与技术及教育技术“学术研讨会)、第八届沈阳科学学术年会、第二届全国智能信息处理学术会议等;潜在语义分析的相关文献由505位作者贡献,包括刘云峰、吴昊、齐欢等。
潜在语义分析—发文量
专利文献>
论文:187738篇
占比:99.90%
总计:187934篇
潜在语义分析
-研究学者
- 刘云峰
- 吴昊
- 齐欢
- 代建民
- 俞辉
- 张太红
- 樊孝忠
- 武港山
- 仇光
- 卜佳俊
- 曲明成
- 李国垒
- 林鸿飞
- 沈建京
- 王剑锋
- 王小平
- 王怡
- 盖杰
- 耿焕同
- 郭剑毅
- 陈先来
- 陈立潮
- 陈纯
- 万夕里
- 严水歌
- 乌庆敏
- 乔冬
- 任姚鹏
- 何震瀛
- 余正涛
- 傅颖
- 刘昌钰
- 刘璐
- 刘磊
- 刘粤钳
- 刘辉
- 刘锋
- 初妍
- 叶施仁
- 向河林
- 吕德丽
- 吴祥
- 唐常杰
- 夏冬
- 夏琳琳
- 姚红玉
- 孙珠婷
- 孟宇
- 季铎
- 崔荣一
-
-
郝秀慧;
方贤进;
杨高明
-
-
摘要:
近几年来,文本聚类技术作为机器学习领域一种无监督学习的方法,也越来越成为数据挖掘领域备受关注的技术之一。将小规模的文本数据聚为几类,在一定程度上说是一件比较容易实现的工作。可是,当面对大量高维的中文文本数据时,由于在这种情况下对文本聚类,面对的将是高维和稀疏的数据,在保证聚类质量的情况下,提高聚类的速度和可视化效果也成为聚类研究的课题之一。该文提出一种结合词频反文档频率算法(term frequency,inverse document frequency,TFIDF)和潜在语义分析算法(latent semantic analysis,LSA)相结合的方法,来提高kmeans中文文本聚类的速度和可视化效果。将从网页上采集到的11456条新闻作为实验对象,通过基于TFIDF聚类和基于TFIDF+LSA聚类进行实验对比,根据聚类指标轮廓系数(Silhouette coefficient,SC)、卡林斯基-原巴斯指数(Calinski-Harabasz index,CHI)和戴维斯-堡丁指数(Davies-Bouldin index,DBI)的值表明,该方法不仅能保证文本聚类的质量,还能大大提高文本聚类的速度和可视化效果。
-
-
陈为民;
杨泽俊;
陈依
-
-
摘要:
基于互联网金融提供的客户借款描述,通过潜在语义分析挖掘借款描述文本内容的主题,运用二元分位数回归分析借款描述对互联网金融信用风险的影响。实证结果表明,借款描述中有关情感表达、个人信用和借款目的的描述与违约情况呈负相关,有关财务情况的描述与违约情况呈正相关。
-
-
陈宣雨
-
-
摘要:
经济政策不确定性能够作用于各种宏观经济因素,也会在微观层面影响企业决策层的战略选择.本研究回顾和梳理了经济政策不确定性在企业创新战略领域的理论成果,以及主流测量方式的发展历程.现有的文本测量方式已经能够在一定程度上实现对我国经济政策不确定性的连续测量.但还存在的问题是主题判定词典词语不全导致文章误判,以及通过人工标注更新词典方法的成本过高.本研究通过分析经济政策不确定性在具体测量过程中存在的问题,以及相关自然语言处理模型的适用范围,提出了使用潜在语义分析算法(LSA)进一步提高经济政策不确定性测量效度的技术实现途径.
-
-
陈华烨;
汪海涛;
姜瑛;
陈星
-
-
摘要:
将排序学习的方法应用于构件检索的研究中,首先,采用刻面描述的方法对构件进行全面的描述,并通过word2vec模型和权重设定的方法对刻面描述的构件进行特征提取;然后,对构件特征进行潜在语义分析和余弦相似度计算,得到构件训练数据集;最后,通过使用构件训练数据集和构件数据集对经过改进的Plackett-Luce概率排序模型用最大似然估计方法训练模型参数,从而得到一种构件排序模型.将构件排序模型应用到构件检索中开发实现了一个构件检索方法,通过实验验证了此方法的有效性,其查全率、查准率和效率都优于传统的构件检索方法.
-
-
徐翔
-
-
摘要:
当前对于社交网络"标准偶像"现象和机理的研究,仍缺乏足够重视、专门实证探讨和理论自觉.明确提出"标准偶像"的理论概念,并进行其机理实证分析.采用潜在语义分析(LSA)对微博用户的文本数据进行挖掘,结合统计检验和路径分析考察标准偶像的作用.社交网络内容生产中,高粉丝数、高流量、高咖位的用户,其个体的内容整体不是趋向丰富性、垂直细分和特立独行的差异化,而是趋向越来越重复、趋似和标准化.微博用户的粉丝数越高,则其趋同于标准用户的程度相应越高,用户粉丝数和内容之间的关系越来越闭合,促进高粉阶层的异质性不断被削磨,同一化标准化程度不断增加,表现出"标准偶像"的现象、效应及其社会文化逻辑.微博中的"标准偶像"及其传播后果,蕴含着从"大众偶像的胜利"到"标准偶像的胜利"、从多样话语崛起到封闭圈层和"社会窄化"的转向.
-
-
-
张涛;
翁康年;
顾小敏;
张玥杰
-
-
摘要:
针对股评论坛主题发现,提出基于频繁项集与潜在语义相结合的短文本聚类(STC_FL)框架.在基于知网的知识获取后得到概念向量空间,挖掘并筛选出重要频繁项集,然后采用统计和潜在语义相结合的方法进行重要频繁项集的自适应聚类.最后,提出TSC-SN(text soft classifying based on similarity threshold and non-overlapping)算法,通过参数调优策略选择和控制文本软聚类过程.股吧论坛数据实证分析发现:所提出的STC_FL框架和TSC-SN算法可充分挖掘文本潜在语义信息,并有效降低特征空间维度,最终实现对短文本的深层次信息挖掘和主题归类.
-
-
赵勇飞;
王宇;
周义凯;
袁燕
-
-
摘要:
This paper presents a method of music emotion classification which combines audio and lyric modes and uses depth belief network. In the selection of classifier, the traditional classifier is replaced by DBN. The LateFusion Sub-taskMerging (LFSM) is improved to complete multi-modal fusion. The feasibility of this method is already verified. The experimental results show that the method is more effective than the one based on single modal classification and the traditional classification method.%文中提出了一种将音频与歌词两种模态结合并利用深度置信网络进行音乐情感分类的方法.在分类器的选择上, 将传统的分类器用DBN进行了替换, 且改进了子任务结合晚融合法 (LFSM) 来完成多模态的融合, 并验证了该方法的可行性.实验结果表明, 该方法对音乐情感分类效果较好, 高于基于单一模态和传统分类器的分类方法.
-
-
-
-
-
-
耿焕同;
吴祥;
毕硕本
- 《全国第18届计算机技术与应用学术会议(CACIS)》
| 2007年
-
摘要:
快速、准确获取BBS论坛主题已成为目前web信息获取中一个极其重要的研究方向。针对已有的BBS论坛中有影响力主题计算方法的不足,提出了一种基于潜在语义分析的主题发现方法,其思想是借助计算回帖之间的相似度,综合时间、空间因素,对主题进行聚类,发现主题并加以实现。系统对BBS主题发现过程进行可视化和交互,从而更直观反映主题的变化过程,更好地验证了算法的有效性。
-
-
-
-
-
俞辉
- 《第二届全国智能信息处理学术会议》
| 2009年
-
摘要:
提出一种基于改进潜在语义分析MLSA(Modified Latent Semantic Analysis)的文档聚类算法.采用新的特征提取方法构建词-文档矩阵,利用潜在语义分析对词-文档矩阵进行奇异值分解以达到垃圾信息过滤的目的,同时使得向量空间模型中文本的高维表示变成在潜在语义空间中的低维表示,缩小了问题的规模.然后将共现数据对转换成概率统计模型来计算,提高了聚类质量.实验表明,本文提出的方法是有效的.
-
-
曾广平
- 《2009年全国理论计算机科学学术年会》
| 2009年
-
摘要:
针对潜在语义分析(LSA)模型的权重更新问题,提出了一种基于贝叶斯理论的自适应权重更新算法ALSAB.ALSAB采用最大后验概率估计与期望值最大(EM)算法对概率LSA模型参数进行有效的估计,在充分考虑多次更新中不常用字词概率参数降低问题的前提下,采用增量学习方法降低多次更新产生的累积效应.实验结果表明,与现有的权重更新算法相比,提出的ALSAB算法显著地提高了检索的准确率与召回率.
-
-
李晓婷;
张磊;
沈建京
- 《2007年中国智能自动化会议》
| 2007年
-
摘要:
随着当今互联网的蓬勃发展,对特定领域的信息采集和统计的需求也日趋明显,然后信息急速膨胀,使有效定向采集和统计特定领域信息并得到其相应的预测结果成为一个日益重要的研究方向。通过运用汉语分词、潜在语义分析和语义匹配等技术,构造用户兴趣模型,并通过该模型,对Web信息结构分析和未知信息相关性预测来控制信息采集统计过程,在保持定向采集精度的同时使用面向服务的体系架构(SOA),可缩短采集时间、减少存储、加快检索,节约了网络资源.
-