主题识别
主题识别的相关文献在2001年到2023年内共计119篇,主要集中在自动化技术、计算机技术、科学、科学研究、信息与知识传播
等领域,其中期刊论文96篇、会议论文11篇、专利文献249336篇;相关期刊48种,包括情报理论与实践、情报探索、情报学报等;
相关会议11种,包括第四届全国情报学博士生学术论坛、2011全国情报学博士生学术论坛、中国医学科学院/北京协和医学院医学信息研究所/图书馆2009年学术年会等;主题识别的相关文献由273位作者贡献,包括白如江、许海云、冷伏海等。
主题识别—发文量
专利文献>
论文:249336篇
占比:99.96%
总计:249443篇
主题识别
-研究学者
- 白如江
- 许海云
- 冷伏海
- 方曙
- 王效岳
- 朱靖波
- 刘自强
- 叶春蕾
- 姚天顺
- 张娴
- 张金柱
- 曾子明
- 李长玲
- 逯万辉
- 邱悦文
- 丁晟春
- 于文倩
- 付慧真
- 余瀚
- 刘小慧
- 周彦廷
- 孔令军
- 孙国梓
- 孙晓雨
- 孟雷
- 安新颖
- 岳丽欣
- 弗雷德·特勒克
- 弗雷德里克·约翰·乔治·德拉马
- 张亚飞
- 李华康
- 李真
- 李群
- 李赞
- 杨一辰
- 杨倩雯
- 杨恒
- 杨捧
- 王健雄
- 王枞
- 王楠
- 王红斌
- 祝清松
- 秦新国
- 维克拉姆·库马尔·贡德蒂
- 罗瑞
- 胡正银
- 董坤
- 郑尔特
- 郭燕慧
-
-
孙佳佳;
李雅静
-
-
摘要:
对作者关键词进行价值细分研究,有助于识别学科高价值研究热点主题,帮助研究者们精确把握高价值研究主题和学科研究前沿。本文引入营销领域客户价值细分RFM(recency,frequency,monetary)模型,对各个指标进行动态加权,多次实验后,形成多组关键词价值细分结果;从关键词生命周期的角度,结合医学领域的生存分析方法,使用Kaplan-Meier曲线和Logrank检验验证,识别出最优价值细分结果;依据帕累托原则和聚类算法得到高价值热点主题。数据源选择CSSCI(Chinese Social Sciences Citation Index)收录的图情档领域期刊论文,对1998-2019年的题录数据进行实验。相较于已有的热点主题识别方法,本文的识别结果考虑了关键词的价值属性和分类,较好地识别了高价值热点主题。
-
-
陈启明;
王效岳;
白如江;
杜清玲
-
-
摘要:
[目的/意义]旨在为政府实施健康舆论引导和擎画预警防控方案提供参考。[方法/过程]以“新冠肺炎疫情”为例,通过融合突发公共事件相关新闻数据和政策文件,综合运用自然语言处理和文本主题识别等方法,提出基于主题强度、主题相似度、政策敏感度(PSPE)的主题演化分析思路,描绘突发公共事件主题社会关注和政策趋向的发展状态。[结果/结论]社会关注从国内国际疫情的通报逐步演化为突发性地区事件和疫情对生活影响等主题;反馈型敏感度新闻主题会引导政策发布的趋向,引导型敏感度政策主题会指导新闻发布的趋向。
-
-
孟璇;
熊回香;
叶佳鑫
-
-
摘要:
文章从共词网络视角出发,将主题演化分析研究思路引入研究方法的演化分析,以反映主题维度下研究方法的演化情况,并提出学术论文研究方法演化分析模型。首先,通过关键词语义类型划分和基于共词强度的选词策略构建共词网络;其次,利用Louvain算法对共词网络进行主题识别,并根据相邻时期主题关联的强度来构建主题演化链;最后,依据主题演化链从主题社区中提取研究方法类关键词以初步构建研究方法演化链,在此基础上通过研究方法的扩充及其重要性评价对研究方法演化链进行优化,并对该演化链进行分析和阐释。实证结果表明该模型可以较好地从主题维度描述其对应研究方法的演化情况。
-
-
邱宁佳;
杨长庚;
王鹏;
任涛
-
-
摘要:
针对于传统方法中存在的文本特征表示能力差、模型主题识别准确率低等问题,提出一种融合SENet与卷积神经网络的文本主题识别方法。将每个词对应的Word2vec词向量与LDA主题向量进行融合,并依据词语对主题的贡献度完成文档加权向量化处理;构建SECNN主题识别模型,使用SENet对卷积层输出的特征图进行权值的重标定,依靠其提升重要特征并抑制无用特征的性能,高效地进行主题识别;使用FDA评估样本的类别表征能力,提出FDA-SGD算法对模型参数进行调优,完成文本主题识别任务。使用新闻文本数据集验证改进算法的有效性,通过与传统模型对比表明,改进算法可以有效提高模型的收敛速度,具有较好的主题识别能力。
-
-
卢国强;
黄微;
杨佩霖;
孙悦
-
-
摘要:
[目的/意义]基于微博主题语义内容的本征特质以及主题之间的互感耦合,结合网络用户参与主题讨论的用户影响力,对微博主题影响力进行分析。[方法/过程]以文本主题识别与主题相似度计算为依据,提出微博主题自感系数及互感系数;以不同类型用户以及对应权值计算用户参与主题讨论的用户影响力;综合主题自感系数、互感系数、用户影响力等指标因素,构建微博主题影响力计算模型;以“重庆公交车坠江”事件为样本数据进行实证分析。[结果/结论]考虑语义层面主题互感耦合,并结合用户影响力对揭示微博主题影响力具有更好的效果。
-
-
管梦雨;
王中卿;
李寿山;
周国栋
-
-
摘要:
现有的对话系统中存在着生成“好的”“我不知道”等无意义的安全回复问题。日常对话中,对话者通常围绕特定的主题进行讨论且每句话都有明显的情感和意图。因此该文提出了基于对话约束的回复生成模型,即在Seq2Seq模型的基础上,结合对对话的主题、情感、意图的识别。该方法对生成回复的主题、情感和意图进行约束,从而生成具有合理的情感和意图且与对话主题相关的回复。实验证明,该文提出的方法能有效提高生成回复的质量。
-
-
武帅;
施奕;
杨秀璋;
项美玉
-
-
摘要:
随着自媒体技术的不断发展,如何高效挖掘短文本数据信息已成为现阶段的研究重点。传统主题挖掘方法进行短文本数据分析时,仅考虑单位词出现频率进行判断,未考虑语义关联结构信息,分析效果欠佳。针对短文本数据的稀缺性,文中提出一种基于社交网络分析和LDA的主题挖掘分析模型。首先结合共词分析算法,分析不同文档间主题词的关系;然后结合社交网络分析算法,提高共词网络主题词耦合度;再借助隐含空间模型对共词网络进行降维,提高社交网络耦合性;最后结合隐含位置聚类算法发掘潜在社区,提高主题识别效果。实验结果表明,所提方法能够在一定程度上优化主题挖掘算法在识别短文本主题的效果,便于进行短文本研究,具有实用价值,也可为后续应用于前沿主题识别提供参考。
-
-
宋博文;
栾春娟;
梁丹妮
-
-
摘要:
[目的/意义]新兴技术主题预示着科技创新的未来趋势与方向,精准识别新兴技术主题,对优化创新资源部署及提升国际竞争优势极为关键。针对当前新兴技术主题识别研究的不足,本文提出一种基于技术特征相似性的新兴技术主题识别模型。[方法/过程]第一步,抽取专利数据中的技术特征信息,降低噪音内容的干扰;第二步,基于现有技术内容构建特征向量模型,实现对不同技术属性间语义关系的区分;第三步,融合技术特征向量模型与聚类算法,达到多维度下识别新兴技术主题目的;第四步,以生物技术领域为例进行实证研究。[结果/结论]通过对比分析验证了该模型的准确性与有效性,拓展了新兴技术主题识别的研究思路与研究方法。
-
-
田云峰;
陈晨;
李志杰;
朱利刚
-
-
摘要:
近年来,国家大力发展工程建设领域的招投标采购全流程电子化,以及各地方的贯彻落实,使得全国的招投标效率比传统的线下模式提高了一个档次。但同时也面临着需要处理的投标文件数目庞大、技术含量高导致的专家评标效率低、质量差等问题,使得有限的专家资源无法充分利用。为了解决这一问题,提出了WL-CNN主题识别模型架构进行投标文件段落级的主题词识别,采用了改进CBOW与LDA模型表征更加丰富的文本信息,融合了TF-IDF算法以及相似度加权算法优化主题词的识别,考虑了局部、次局部以及全局的语义信息,使得专家评标效率大大提高。针对山东高速集团有限公司提供的大规模投标文件数据集进行了实验,结果表明WL-CNN模型优于其余同类模型。
-
-
刘自强;
岳丽欣;
朱承宁;
刘春江
-
-
摘要:
[目的/意义]定量化、可视化识别基金项目和论文等科技文献主题扩散演化路径,对于揭示科技文献主题之间隐含关联关系辅助研究前沿识别、新兴趋势检测等科技情报分析实践工作具有重要意义。[方法/过程]提出基金项目和论文主题扩散演化路径可视化方法,首先基于LDA模型进行基金项目和论文主题识别,然后利用余弦相似度算法进行基金项目和论文主题关联构建,最后基于Web前端可视化技术设计基金项目和论文主题扩散演化路径可视化方案,揭示基金项目和论文主题的隐含关联关系,辅助进行基金项目和论文主题扩散演化路径分析。[结果/结论]通过对美国近20年纳米农业领域基金项目和论文数据的实证,验证了本文提出方法的准确性和可行性。
-
-
Dong kun;
董坤;
Xu haiyun;
许海云;
Fang shu;
方曙
- 《2016年全国情报学博士生学术论坛》
| 2016年
-
摘要:
探寻有效的主题识别算法,从海量科技文献中识别学科交叉主题并做出预测具有重要意义.本文基于英文科技文献,结合学科交叉主题的识别算法,构建了包括数据筛选及预处理、交叉主题特征词提取、主题聚类/可视化的学科交叉主题识别方法和流程.该流程首先利用TDA自带清洗词表和脚本做基础数据处理,然后借助多目标优化算法提取学科交叉主题词,并结合高频词、突发词和离群点数据集构建学科交叉主题特征词数据集,最后对数据集进行主题聚类/可视化分析,形成全面的学科交叉主题识别框架.该方法将突发词和弱关系识别纳入学科交叉主题识别过程,对高频词主题识别方法进行有力补充,能够提高数据自动清就和提取效率、保证数据集的完整性,较为全面地揭示学科交叉主题及其热点和趋势.
-
-
-
-
丁秉公;
黄昌宁;
黄德根
- 《第二届全国学生计算语言学研讨会》
| 2004年
-
摘要:
文本的主题识别是TDT研究计划的核心任务之一.本文研究了文本主题识别的主要算法,并分析了采用不同的文本特征包括Unigram和NGram可以改善算法的性能.同时,针对现有搜索流程的不足,提出了一个基于主题识别技术的应用模型.最后,在该应用模型的基础上设计并实现了一个原型系统.
-
-
ZHANG Xian;
张娴;
XU Hai-yun;
许海云;
FANG Shu;
方曙;
HU Zheng-yin;
胡正银
- 《第四届全国情报学博士生学术论坛》
| 2014年
-
摘要:
在对比总结现有专利技术组合分析方法的基础上,提出了一种专利技术组合与合作潜力分析方法,针对特定机构或技术领域的专利产出数据,利用数据挖掘、主题识别、关联分析、知识发现、可视化技术等方法与手段,挖掘专利技术特征,判断相似程度,从中寻找有望进一步构建专利组合的潜在技术,并以此找寻有望建立合作关系的不同专利主体.针对国内某科研机构开展的实验分析结果显示,所构建的方法能够有效地映射出专利技术的知识单元,克服了现有分析方法的一些局限性,且实施操作方便,能够为机构挖掘自身专利技术组合可能、机构间寻找战略合作潜在方向等提供有效的决策参考,在大科学时代的协同创新形势下具有广阔的应用前景.
-
-
-
-
-