话题发现
话题发现的相关文献在2005年到2022年内共计114篇,主要集中在自动化技术、计算机技术、信息与知识传播、中国少数民族语言
等领域,其中期刊论文68篇、会议论文7篇、专利文献8480篇;相关期刊51种,包括信息工程大学学报、电信科学、数据采集与处理等;
相关会议7种,包括第30次全国计算机安全学术交流会、2014年科技强检电子信息系统研发与示范项目成果研讨会、第14届中国少数民族语言文字信息处理学术研讨会等;话题发现的相关文献由298位作者贡献,包括余正涛、冯旭鹏、刘利军等。
话题发现
-研究学者
- 余正涛
- 冯旭鹏
- 刘利军
- 郭文忠
- 黄于欣
- 黄青松
- 倪丽萍
- 刘雅筠
- 夏千姿
- 张勇丙
- 方滨兴
- 李勇
- 李想
- 高盛祥
- 仇呈燕
- 倪志伟
- 倪红波
- 刘云
- 刘怡然
- 刘明荣
- 卢天旭
- 吴旭
- 夭荣朋
- 孙国梓
- 宋文平
- 平萍
- 张克亮
- 张宇
- 张振江
- 张星
- 张玉
- 张璐
- 张网娟
- 於志文
- 星辰
- 曹新凯
- 朱帅
- 朱旭辉
- 李亚星
- 李兵
- 李应
- 李敏佳
- 李道亮
- 杨一涛
- 杨巨成
- 杨青
- 林晓红
- 梁韵基
- 段青玲
- 殷丽华
-
-
卢天旭;
余正涛;
黄于欣
-
-
摘要:
针对涉案舆情领域同一案件下不同话题的新闻文档要素信息较为接近,已有的话题发现方法不能很好地进行表征和区分的问题,提出融合近邻标题图的涉案新闻话题发现方法。在话题发现的过程中引入标题的关联关系,构建近邻标题图,通过图卷积网络提取标题的全局特征,同时使用深度网络提取文档的局部特征,加入到标题的编码过程中去,更好地实现聚类。实验结果表明,联合标题和文档进行话题建模可以提升涉案新闻话题发现的准确性指标。
-
-
原伟
-
-
摘要:
基于知识本体和可比语料库方法,针对俄汉敏感网络新闻话题发现问题开展研究。首先,分析俄汉敏感网络新闻可比语料话题特征并抽取话题要素,设计话题本体的总体框架,建立话题类和属性关系用于话题发现实验;其次,设计基于话题本体的俄汉网络新闻话题发现算法,包括跨语言文本相似度算法和话题发现算法;最后,将设计好的算法结合本体中的话题实例开展话题发现实验,实验验证本体方法和话题发现算法的有效性。该成果可为面向网络空间安全的俄汉跨语言话题监测、话语分析和舆情监控等研究提供帮助。
-
-
刘雅筠
-
-
摘要:
微博话题发现技术是目前关于微博的热门研究领域之一,进行微博话题发现研究对于舆情监控具有重要意义.本文首先对微博新媒体的特点进行了归纳,进而分析了微博新媒体与公共事件之间的关系以及基于微博新媒体进行事件与舆论分析研究的意义与挑战.其次,本文就此领域的相关研究工作进行了总结和梳理,该工作对于未来进行深入研究和探寻改进方向提供了理论依据.
-
-
刘雅筠;
李兵;
宋文平
-
-
摘要:
检测微博新话题是对微博话题分析研究的基本工作内容.以前的研究虽然归纳出一些方法,但是对于语言文字短小,语法个性化不规范,文章内容结构松散的微博内容而言,仍然有着很多的问题.本文提出如何利用微博当中广大用户的参与,提供互动平台,以此搭建一种搜索微博新话题的发现思路.此方法主要是用每个参与话题讨论者的认知水平使用习惯,建立一个基于语言特征与时序的话题分辨模型,借助集群投票的方式来进行判定,从而提高检测精度.
-
-
武森;
高晓楠;
何慧霞
-
-
摘要:
话题发现是网络社交平台上进行热点话题预测的一个重要研究问题.针对已有话题发现算法大多基于传统余弦相似度衡量文本数据间的相似性,无法识别各维度取值成比例变化时数据对象间的差异,文本数据相似度计算结果不准确,影响话题发现正确率的问题,提出基于双向改进余弦相似度的话题发现算法(TABOC),首先从方向和取值两个角度改进余弦相似度,提出双向改进余弦相似度,能够区分各维度取值成比例变化的数据对象,保留传统余弦相似度在方向判别上的优势,提高衡量文本相似度的准确性;进一步定义集合的双向改进余弦特征向量和双向改进余弦特征向量的加法等相关定义定理,舍弃无关信息,直接计算新合并集合的特征向量,减小话题发现过程中的时间和空间消耗;还结合增量聚类框架,高效处理新增数据.采用百度贴吧数据进行实验表明,TABOC算法进行话题发现是有效可行的,算法正确率和时间效率总体上优于其他对比算法.
-
-
孙悦;
罗倩;
方梁雨
-
-
摘要:
针对传统微博话题发现算法中,计算文本距离时仅仅考虑词与词的距离和最小而产生的问题,提出了使用CWMD(cos-word mover's distance)作为聚类标准的算法.结合余弦距离和WMD计算句子之间的相似性;使用TF-IDF向量代替WMD中词频权重向量,将所有词对文档的贡献纳入考量;使用CWMD代替传统的距离作为SP(Single-Pass)聚类的标准;并且提出了构建文本待定池的SP算法,旨在避免话题发现过程中数据到达的先后顺序对结果产生的影响,从而提高话题发现的准确性.通过对中文语料数据库中的部分数据进行对比实验,证实了该话题发现模型效果更好.进一步将该模型应用到爬取的微博数据中,将提取的簇的关键词和微博热搜话题进行比对,结果显示二者具有很强的相关性.
-
-
马莹雪;
赵吉昌
-
-
摘要:
【目的】从舆论热点话题与信息传播模式等视角理解自然灾害期间微博平台的舆情特征与演变模式。【方法】采用机器学习方法对微博有效数据进行提取,采用深度学习方法对微博文本进行聚类分析,采用复杂网络分析方法对微博信息传播模式进行研究。【结果】微博分类器准确率达到0.82,有效提取出灾害相关数据;文本聚类结果能较好地体现出舆情热点演变情况;发现信息传播网络的“幂律性”和“时间不变性”,信息传播网络结构稀疏,社团规模稳定扩张但分布模式不变;灾害期间用户之间的交互加强,不同地区用户对信息来源的偏好有所差异。【局限】缺乏对不同社交平台数据的实验验证和分析比较。【结论】所提研究方法和结果可以为灾害期间的舆情发现和管理提供一定启发。
-
-
杨威亚;
余正涛;
高盛祥;
宋燃
-
-
摘要:
针对汉越跨语言新闻话题发现任务中汉越平行语料稀缺,训练高质量的双语词嵌入较为困难,而且新闻文本一般较长导致双语词嵌入的方法难以很好地表征文本的问题,提出一种基于跨语言神经主题模型(CL-NTM)的汉越新闻话题发现方法,利用新闻的主题信息对新闻文本进行表征,将双语语义对齐转化为双语主题对齐任务.首先,针对汉语和越南语分别训练基于变分自编码器的神经主题模型,从而得到单语的主题抽象表征;然后,利用小规模的平行语料将双语主题映射到同一语义空间;最后,使用K-means方法对双语主题表征进行聚类,从而发现新闻事件簇的话题.实验结果表明,所提方法相较于面向中英文的隐狄利克雷分配主题改进模型(ICE-LDA)在Macro-F1值与主题一致性上分别提升了4个百分点与7个百分点,可见所提方法可有效提升新闻话题的聚类效果与话题可解释性.
-
-
马莹雪;
赵吉昌
-
-
摘要:
[目的]从舆论热点话题与信息传播模式等视角理解自然灾害期间微博平台的舆情特征与演变模式.[方法]采用机器学习方法对微博有效数据进行提取,采用深度学习方法对微博文本进行聚类分析,采用复杂网络分析方法对微博信息传播模式进行研究.[结果]微博分类器准确率达到0.82,有效提取出灾害相关数据;文本聚类结果能较好地体现出舆情热点演变情况;发现信息传播网络的"幂律性"和"时间不变性",信息传播网络结构稀疏,社团规模稳定扩张但分布模式不变;灾害期间用户之间的交互加强,不同地区用户对信息来源的偏好有所差异.[局限]缺乏对不同社交平台数据的实验验证和分析比较.[结论]所提研究方法和结果可以为灾害期间的舆情发现和管理提供一定启发.
-
-
李勇
-
-
摘要:
微博热点话题发现是指从大量的微博文本中发现用户讨论的热点话题,话题发现主要通过文本聚类的方法实现,聚类算法的选择和改进通常对结果有着重要的影响.针对微博话题发现任务,论文提出通过改进的SinglePass算法和层次聚类的方法,完成微博的话题发现,并且根据横向和纵向对比分析,验证算法话题发现的有效性.
-
-
李想;
倪丽萍;
夏千姿;
彭晨;
高九洲
- 《第十四届(2019)中国管理学年会》
| 2019年
-
摘要:
在线新闻话题发现是目前话题检测与追踪(TDT)领域的研究热门方向之一,在线新闻话题发现研究可以帮助公众更加清晰全面地了解网络热点事件,有助于有关部门开展相关工作,对舆情监控、个性化推荐等具有重要意义.本文从在线话题发现技术和应用两个方面对在线新闻话题发现研究现状展开综述,总结了基于传统方法和基于多模态信息融合方法的在线新闻话题发现技术的研究现状,展示了在线新闻话题发现的应用成果,归纳目前存在的不足,探讨研究中的重难点,找寻未来可以深入研究和改进的方向.
-
-
ZHANG Yue-jin;
-张越今;
DING Ding;
丁丁
- 《第30次全国计算机安全学术交流会》
| 2015年
-
摘要:
面对网络上更新快速的海量新闻,如何快速、有效地从中自动发现敏感话题并进行持续跟踪是当下研究的热点.文章以网络舆情分析系统为应用背景,针对其敏感话题发现过程,通过对TDT领域应用较多的Single-pass算法进行改进,提出了一种基于相似哈希的增量型文本聚类算法.基于实际应用中抓取到的新闻文本数据,实验结果表明,文章提出的算法相比于原Single-pass算法在聚类效率方面具有明显提升.从实际应用的效果来看,该算法达到了实时话题发现的预期需求,具有较高的实用价值.
-
-
-
-
-
骆卫华;
于满泉;
许洪波;
王斌;
程学旗
- 《全国第八届计算语言学联合学术会议》
| 2005年
-
摘要:
话题发现与跟踪是一项评测驱动的研究,旨在依据事件对语言文本信息流进行组织利用.自1996年提出以来,该研究得到了越来越广泛的关注.本文在研究已有成熟算法的基础上,针对其不足,提出了基于分治多层聚类的话题发现算法.基于该算法的系统在TDT4中文语料上进行了测试,结果表明该算法属于目前结果最好的算法之一,并显著降低了算法的时间和空间复杂度.
-
-
谢飞;
祖永亮;
赵明
- 《2014年科技强检电子信息系统研发与示范项目成果研讨会》
| 2014年
-
摘要:
网络敏感舆情的蔓延严重地影响社会和谐,因此,网络敏感舆情检测技术成为一项迫在眉睫的课题.本文提出了一种基于贝叶斯网络的敏感舆情发现框架.首先利用互联网主流搜索引擎工具训练出文本敏感度预测模型,其次采用Single-Pass算法进行文本聚类和话题发现,并利用敏感度预测模型对新文本流和话题进行动态敏感度评测,当话题的实时敏感度达到阈值时进行预警、形成敏感知识而入库.实验表明该框架能够从网络海量数据中快速、有效地发现敏感舆情.