文本聚类
文本聚类的相关文献在1999年到2022年内共计1057篇,主要集中在自动化技术、计算机技术、科学、科学研究、信息与知识传播
等领域,其中期刊论文750篇、会议论文55篇、专利文献31467篇;相关期刊284种,包括情报学报、情报杂志、现代图书情报技术等;
相关会议45种,包括信息系统协会中国分会第六届学术年会、2015年全国开放式分布与并行计算学术年会、第30次全国计算机安全学术交流会等;文本聚类的相关文献由2313位作者贡献,包括徐森、黄瑞章、章成志等。
文本聚类—发文量
专利文献>
论文:31467篇
占比:97.51%
总计:32272篇
文本聚类
-研究学者
- 徐森
- 黄瑞章
- 章成志
- 安晶
- 徐秀芳
- 王正欧
- 皋军
- 花小朋
- 王伟
- 卢志茂
- 施水才
- 樊孝忠
- 秦永彬
- 郭庆琳
- 龚静
- 曹瑞
- 李健
- 蔡东风
- 金春霞
- 陈笑蓉
- 陈艳平
- 顾国昌
- 马力
- 任江涛
- 印鉴
- 孙健
- 季铎
- 左万利
- 席丽娜
- 张文生
- 张桂平
- 徐静
- 晋耀红
- 李先锋
- 李德彦
- 武卫东
- 王强
- 王明文
- 王鹏
- 白硕
- 程学旗
- 耿新青
- 蒋盛益
- 许洪波
- 谭力江
- 郭肇禄
- 陈远存
- 高茂庭
- 乔少杰
- 于戈
-
-
高静;
王钢
-
-
摘要:
为了提高文本聚类的性能,采用k-modes算法进行文本聚类,并采用知识图谱进行样本预分析,以提高k-modes的文本聚类适用度。采用知识图谱进行样本预处理,对待聚类的文本进行知识图谱三元分析,并生成对应概念、实体和关系的样本集合;接着建立k-modes文本聚类模型,设定簇内节点至簇中心的距离值之和为目标函数,通过轮流固定隶属矩阵和聚类簇矩阵,不断求解目标函数的最小值直至目标函数值稳定,获得簇中心,最后根据簇中心及各节点到簇中心距离来确定聚类结果。实验表明,经过知识图谱分析之后,k-modes算法能够获得更优的纯度、标准互信息和F值性能,且聚类纯度的均方根误差(Root mean squared error,RMSE)值更低;和常用文本聚类算法相比,对于UCI集和新闻集,该文算法均表现出了更高的聚类准确率。
-
-
伍俊;
贾礼平
-
-
摘要:
随着信息化时代的到来,新浪微博变为超大型的社交平台,引导着网络舆论的发展方向。如何从评论中获取有效信息和情感取向,以及掌握舆论的变化规律成为一个急需解决的问题。利用Python爬虫技术对乐山师范学院新浪官方微博评论进行爬取,并对文本数据进行处理,利用文本分析法和情感分析法,对语料进行分词,借助词频统计、稀疏矩阵、聚类分析、情感评分等手段获取能表达情绪的关键词,挖掘高价值的舆情主题,用可视化的方法展现人物的情感倾向,分析舆情中的情感变化规律。研究结果可展现微博用户对乐山师院的情感态度和舆情特征,并提供有效的解决策略。
-
-
陈龙;
宋庆国;
廖孟豪
-
-
摘要:
以百年未有之大变局下的大国博弈为切入点,立足未来航空科技发展的军事应用需要界定国防领域航空颠覆性技术的概念内涵,遴选适合国防领域航空颠覆性技术的识别方法,并以航空领域特定时段公开发表且被工程索引收录的高质量期刊/会议论文、高水平科学引文索引期刊论文及已获授权的三方发明专利为源数据构建颠覆性技术识别的数据集,通过文本聚类、复杂网络方法和军事应用潜力评估完成一批国防领域航空颠覆性技术识别,为开展军事航空颠覆性技术研发部署提供参考。
-
-
菊花
-
-
摘要:
提出融合K均值与改进磷虾群算法的多目标文本聚类算法。利用K均值的局部快速寻优和改进磷虾群的全局搜索能力,以K均值聚类解作为改进磷虾群的初始种群,引入遗传交叉和变异改善个体多样性,提升全局搜索能力;通过磷虾种群的诱导运动、觅食运动和随机扩散进行位置更新,引入余弦相似度和欧氏距离的多目标适应度函数评估磷虾位置优劣,搜索全局最优解。通过基准数据集实验确定磷虾群算法的关键参数,进行系统聚类测试,实验结果表明,该算法在聚类指标上表现更佳,聚类准确性更高,收敛速度更快。
-
-
王林;
陈青超
-
-
摘要:
快速准确的在海量网络数据中发现热点主题对于网络舆情监控具有重要作用.针对K-means算法对初始中心点选择敏感和全局搜索能力不足的问题,提出一种基于Hadoop的改进灰狼优化K-means的IGWO-KM算法.首先,该算法将灰狼优化算法和K-means算法相结合,利用灰狼优化算法收敛速度快和可全局寻优的优势为K-means搜索最佳聚类中心,减小随机选取初始中心点而导致的聚类结果不稳定性,以获取更好的聚类结果.其次,使用非线性收敛因子改进灰狼优化算法,协调算法的全局和局部的搜索能力.然后,引入正弦余弦算法并进行改进,增强灰狼优化算法的全局搜索能力,优化寻优精度和收敛速度,避免陷入局部最优.之后,使用近邻空间球减少K-means聚类过程中冗余的距离计算加快算法收敛.最后,利用Hadoop集群可批量处理数据的特性,实现算法的并行化.实验结果表明,IGWO-KM算法具有更好的寻优精度和稳定性,相比于GWO-KM算法和K-means,该算法在查准率、召回率和F值均有明显提高,且具有良好的收敛速度和拓展性.
-
-
王永刚;
李靖;
王文慧;
曹传剑;
王晓燕
-
-
摘要:
针对文本信息特征冗余多、噪声大问题,提出基于和声搜索机制的文本特征选择算法。以词频逆文本频率指数为目标函数评估特征词条;在初始文档集中通过和声搜索的记忆考虑、纵向倾角调整和随机选择3种特征选择新解更新规则,迭代搜索最优特征子集;以最优特征子集为基础,以K均值进行文本聚类。利用4种典型文档数据集进行仿真实验,实验结果表明,该算法可以有效降低文本特征维度,聚类准确率更高。
-
-
刘锟;
曾曦;
邱梓珩;
陈周国
-
-
摘要:
在大数据环境下,从海量的互联网数据中获取热点话题是研究当前互联网中民意民情的基础,其中文本聚类是得到热点话题最常用的方法之一,可以分为文本向量化表示和聚类2个步骤。然而在文本向量化表示任务中,传统的文本表示模型无法准确表示新闻、帖文等文本的上下文语境信息。在聚类任务中,最常使用的是K-Means算法和DBSCAN算法,但是它们对数据的聚类方式与实际中话题数据的分布不符,这使得现有的文本聚类算法在实际的互联网环境中应用效果很差。本文根据互联网中话题的数据分布情况,提出一种基于RoBERTa-WWM和HDBSCAN的文本聚类算法。首先利用预训练语言模型RoBERTa-WWM得到每一篇文本的文本向量,其次利用t-SNE算法对高维文本向量进行降维,最后利用基于层次的密度聚类算法的HDBSCAN算法对低维的文本向量进行聚类。实验结果表明提出的算法相较于现有的文本聚类算法,在含有噪声数据且分布不均衡的数据集上,聚类效果有很大的提升。
-
-
于营;
周显春;
贾树文
-
-
摘要:
文本比较在自然语言处理中应用广泛。本文提出了一种新的文本相似性度量方法,该方法利用从文本和n-gram图中提取的命名实体信息来表示文档,使用OpenCalais作为命名实体识别服务,使用JInsect工具箱来构造和管理n-gram,使用文本聚类算法k-Means进行文本相似性度量,使用各种聚类有效性指标对生成的聚类进行评估。
-
-
龚芝;
马凌;
刘敏;
何先波
-
-
摘要:
为了提高文本聚类的性能,采用近邻传播(Affinity propagation,AP)算法进行文本聚类,并采用知识图谱进行样本预分析,以提高AP的文本聚类适用度。采用知识图谱进行样本预处理,对待聚类的文本进行知识图谱三元分析,并生成对应概念、实体和关系的样本集合;建立AP文本聚类模型,并通过差分进化(Differential evolution,DE)算法优化偏向参数;利用DE算法求解的最优个体的偏向参数进行AP聚类运算,不断更新AP算法的决策和潜力阵,从而获得稳定的聚类结果。试验结果表明,经过知识图谱分析之后,通过合理设置DE算法的差分缩放因子和交叉速率,DE-AP算法能够获得更优的聚类准确度,且聚类准确度的均方根误差(Root mean squared error,RMSE)值更低;和常用文本聚类算法相比,该文算法获得了更高的聚类准确度。
-
-
潘俊辉;
王辉;
张强;
王浩畅
-
-
摘要:
K-means算法是进行文本聚类时使用最为广泛的一种推荐算法之一。该算法在进行文本聚类时每个属性的作用是同等的,而实际中每个属性对文本的影响是不同的,导致聚类效果受到影响。针对该缺点,通过引入属性权重提出了一种改进的K-means聚类算法,并在Hadoop平台加以实现,以更好体现改进算法的效率。通过实验进行了测试,表明所提出的改进算法在效率和精度方面均有所提高。
-
-
ZHANG Yue-jin;
-张越今;
DING Ding;
丁丁
- 《第30次全国计算机安全学术交流会》
| 2015年
-
摘要:
面对网络上更新快速的海量新闻,如何快速、有效地从中自动发现敏感话题并进行持续跟踪是当下研究的热点.文章以网络舆情分析系统为应用背景,针对其敏感话题发现过程,通过对TDT领域应用较多的Single-pass算法进行改进,提出了一种基于相似哈希的增量型文本聚类算法.基于实际应用中抓取到的新闻文本数据,实验结果表明,文章提出的算法相比于原Single-pass算法在聚类效率方面具有明显提升.从实际应用的效果来看,该算法达到了实时话题发现的预期需求,具有较高的实用价值.
-
-
WANG Xianming;
王贤明;
GU Qiong;
谷琼;
HU Zhiwen;
胡智文
- 《2015年全国开放式分布与并行计算学术年会》
| 2015年
-
摘要:
针对传统文本聚类中存在着聚类准确率和召回率难以平衡等问题,提出了一种基于R-Grams文本相似度计算方法的文本聚类方法.该方法首先通过将待聚类文档降序排列,其次采用R-Grams文本相似度算法计算文本之间的相似度并根据相似度实现各聚类标志文档的确定并完成初始聚类,最后通过对初始聚类结果进行聚类合并完成最终聚类.实验结果表明:聚类结果可以通过聚类阈值灵活调整以适应不同的需求,最佳聚类阈值为15左右.随着聚类阈值的增大,各聚类准确率增大,召回率呈现先增后降的趋势.此外,该聚类方法避免了大量的分词、特征提取等繁琐处理,实现简单.
-
-
-
-
王兴旺;
尚建翠
- 《第二十三届中国竞争情报年会》
| 2017年
-
摘要:
探索一种采集多种来源信息、采用多种计量分析手段,进行技术研发热点挖掘的方法.同时采集两种不同信息源的学术论文和专利数据,针对不同信息源数据分别采用引文分析、共词分析、文本聚类等计量分析方法及可视化手段,进行技术的基础研究和应用开发热点分析,并将分析结果进行比较和综合后作为最终的技术研发热点挖掘结果.最后,以车联网技术为例进行了实证分析.
-
-
-
-
-