主题模型
主题模型的相关文献在2006年到2021年内共计850篇,主要集中在自动化技术、计算机技术、信息与知识传播、科学、科学研究
等领域,其中期刊论文555篇、会议论文30篇、专利文献265篇;相关期刊217种,包括情报理论与实践、情报学报、现代图书情报技术等;
相关会议28种,包括第33届中国数据库学术会议(NDBC2016 )、第15届全国软件与应用学术会议(NASAC2016)、信息系统协会中国分会第六届学术年会等;主题模型的相关文献由2135位作者贡献,包括万红新、姬东鸿、郑诚等。
主题模型
-研究学者
- 万红新
- 姬东鸿
- 郑诚
- 严建峰
- 刘佳
- 乔晓东
- 刘扬
- 刘挺
- 夏磊
- 席耀一
- 彭云
- 徐硕
- 李志欣
- 林耀进
- 罗森林
- 董克
- 高茂庭
- 余林峰
- 冯妍
- 刘国军
- 吕新荣
- 周国栋
- 周栋
- 周雪忠
- 孙国超
- 安新颖
- 张健
- 张宇
- 张宜浩
- 张小川
- 张明慧
- 张昱
- 徐彬
- 徐浩
- 曹健
- 李弼程
- 李慧宗
- 李柏林
- 李芳
- 李阳
- 杜军平
- 杜永萍
- 杨璐
- 林民
- 潘丽敏
- 潘智勇
- 王以新
- 王炜
- 王红玲
- 秦姣华
-
-
Mu HongFen;
母红芬;
Li Zheng;
李征;
Jiao YongQiang;
焦永强;
Cheng XinYu;
程新宇
- 《第33届中国数据库学术会议(NDBC2016 )》
| 2016年
-
摘要:
根据军工软件质量管理要求,航空系统软件测试用例需要进行规范化管理及高效的复用,TCARS系统基于主题模型,通过主题挖掘判断需求的相似性和需求与用例的关联性,实现测试用例高效复用.系统先建立测试用例管理知识库和需求管理库,对新上传的测试用例和需求,经过中文分词和LDA主题抽取处理,自动推荐相似需求和相关测试用例.系统同时推荐与文档相关的标签,方便用户标记和查找所需用例和需求.用户也可以定制搜索条件,通过精确匹配和模糊匹配,查找所需测试用例和需求,对主题生成过程和结果进行可视化,有利于系统分析和优化.
-
-
-
LI Gonghui;
黎功辉;
JIANG Jing;
蒋竞;
ZHANG Li;
张莉
- 《第15届全国软件与应用学术会议(NASAC2016)》
| 2016年
-
摘要:
Stack Overflow已成为开发人员进行问题求助和知识分享最大的IT技术问答平台.每天该平台有成千上万的新问题被提出,用户很难在海量问题中找到自己能够胜任并有兴趣回答的问题,使得问题常常不能够及时获得回答.因此,将问题推荐给能够及时给出答案的用户,有利于问题获得解答.首先本文在主题模型语料库中首次加入用户问答记录(问题和回答的描述信息)的评论信息,丰富语料库,使得主题模型获得更加精准的主题分布.其次考虑到用户自由参与社区问答的特性,本文对待推荐用户加入活跃度的评估,使得推荐的用户近期处于活跃状态.最后本文将推荐问题转化为分类问题,使用机器学习的方法来解决分类问题,将主题模型获得的用户和问题的主题特征作为特征向量的一部分,最终提出一种基于主题模型和机器学习的回答者推荐方法TMRec.使用Stack Overflow平台公开的真实问答数据进行实验,实验结果显示TMRec在进行Top@50推荐时,查全率达到0.4175,MAP指标达到0.2163,与现有方法RankSLDA相比分别提高了32.3296%和22.7582%.
-
-
-
关鹏;
王日芬;
张海永
- 《信息系统协会中国分会第六届学术年会》
| 2015年
-
摘要:
K-means聚类算法简单高效,适合处理大规模数据,在文本挖掘领域应用广泛,但算法对初始聚类中心的选择非常敏感.本文基于LDA主题模型提出一种优化K-means初始聚类中心的算法.首先通过LDA主题抽取降低文档特征向量维度,将文档映射到主题空间,通过文档的主题特征确定初始聚类中心的选择;然后,利用平均准确率、F-Score和熵作为文本聚类效果评价指标,对选取的初始聚类中心的聚类结果进行评价.选取标准的机器学习语料库20newsgroup中的数据集作为试验数据,实验结果表明该方法可以根据文本语义信息优化Kmeans初始聚类中心的选择,提高K-means文本聚类效果.
-
-
Liu Jian-Xun;
刘建勋;
Shi Min;
石敏;
Zhou Dong;
周栋;
Tang Ming-Dong;
唐明董;
Zhang Ting-Ting
- 《第六届中国计算机学会服务计算学术会议》
| 2015年
-
摘要:
随着Web2.0技术的兴起,标签作为Web资源管理和检索的有效方式成为近年的热点研究对象.开发者通常为新的Mashup人工指定若干与功能性相关的标签,以便于用户理解、检索以及实现Mashup资源的分类管理.然而,手动指定标签十分繁琐,且比较浪费时间.目前尚缺乏一种高效的方法能自动为Mashup推荐标签.因此提出了一种基于主题模型的Mashup标签推荐方法,该方法通过寻找与指定Mashup描述相似的Web Application Programming Interfaces(Web APIs),将其已有标签推荐给该Mashup;同时,针对所提方法本文设计了一种标签排序算法,该算法能有效提高标签推荐的精度.使用从programmableweb.com收集的真实数据进行实验表明,本文所提出的方法明显优于传统的基于协同过滤等的标签推荐方法.
-
-
彭敏;
杨绍雄;
朱佳晖
- 《第十六届全国计算语言学学术会议暨第五届基于自然标注大数据的自然语言处理国际学术研讨会》
| 2017年
-
摘要:
当前,双向LSTM神经网络等深度学习方法在文本语义特征表达方面取得了突破性的进展,为构建深层次的具有语义连贯性的主题模型提供了可能.但是,现有方法在文本的概率主题建模方面,提升的效果还比较有限.本文提出了一个基于双向LSTM语义强化的概率主题模型DGPU-LDA(Double Generalized Polya Urn with LDA).该模型一方面结合双向LSTM文档语义编码框架DS-Bi-LSTM(Document Semantic Bi-directional LSTM)来实现文档宏观语义的嵌入表示,另一方面采用文档-主题和词汇-词汇双GPU(Generalized Polya Urn)语义强化机制以及LSTM来刻画参数推断过程中的吉布斯采样过程.在搜狗新闻数据集以及20新闻组数据集上的实验结果表明,DGPU-LDA模型在主题语义连贯性、文本分类准确率方面相对于一些比较前沿的主题模型具有一定的优势,同时也表明了该模型在文本语义特征表达方面的有效性.
-
-
LIU Yun;
刘耘
- 《信息系统协会中国分会第七届学术年会》
| 2017年
-
摘要:
本文的目的是利用在线招聘大数据帮助普通高等学校了解和跟踪企业对员工的技能需求.基于主题模型,同时利用岗位名称和岗位需求进行文本挖掘.把岗位名称中包含的类别信息作为标签,采用PLDA算法得到不同类别的岗位及其方向对应的知识、技能和态度.在计算需求量的相对大小时,一是再次使用PLDA算法,二是在重排序后使用Labeled LDA算法.结果显示,在扎实的数据基础上,能够帮助普通高等学校更有信心地按照劳动力市场的需求来培养人才.
-
-
-
史铭;
张焰;
陈立佳
- 《中国新闻技术工作者联合会2015年学术年会》
| 2015年
-
摘要:
主题模型目前广泛应用于机器学习与自然语言分析等领域,该模型自动分析一系列未识别的文档,试图通过统计信息发现多个抽象主题.主题模型在新闻文本智能处理与推荐领域的应用前景十分广阔.本文首先从文档自动分类为出发点,介绍文本分析的一般流程.在此基础之上,介绍主题模型和基于LDA模型的文本主题特征提取原理.最后结合Spark大数据处理的内存迭代和分布式计算特性,实现了基于LDA模型的文本主题提取过程,并给出了在新闻文本数据集上的主题抽取与分类预测结果.