公开/公告号CN113868548A
专利类型发明专利
公开/公告日2021-12-31
原文格式PDF
申请/专利权人 中国人民解放军军事科学院军事科学信息研究中心;
申请/专利号CN202111060587.1
申请日2021-09-10
分类号G06F16/9536(20190101);G06F16/33(20190101);G06K9/62(20060101);G06Q50/00(20120101);
代理机构11472 北京方安思达知识产权代理有限公司;
代理人李彪;武玥
地址 100142 北京市海淀区阜成路26号
入库时间 2023-06-19 13:29:16
技术领域
本发明涉及自然语言处理、情报学、数据挖掘、计算机科学技术领域,尤其涉及一种基于社交媒体学术会议信息的热点研究发现方法。
背景技术
利用自然语言处理技术快速掌握相关领域的研究热点与研究趋势,对情报研究人员来说非常重要。多年来,学界主要利用论文的引文数据与摘要、关键词、主题词等信息,开展热点发现研究,由于论文发表周期较长,这些传统的文献计量学方法具有较明显的时滞问题,无法满足研究人员及时获取最新研究动态的需求。经研究发现,新的研究成果和研究动态往往会首先出现在各种会议和会议论文中,学术会议蕴含着丰富的领域前沿动态与热点信息。随着网络技术与移动智能终端的发展,越来越多的研究人员在学术会议中通过社交媒体平台进行学术交流,产生了大量的社交媒体学术会议信息。结合社交媒体及时高效的特点,对社交媒体学术会议信息中的领域前沿动态与热点信息进行挖掘,可以帮助研究人员提前发现研究热点,抢占研究先机。
发明内容
社交媒体数据存在信息碎片化、信息冗余、数据质量良莠不齐等问题,本发明的目的在于克服上述现有技术缺陷,提出了一种基于社交媒体学术会议信息的热点研究发现方法。
为了实现上述目的,本发明提出了一种基于社交媒体学术会议信息的热点研究发现方法,所述方法包括:
基于话题标签获取社交媒体学术会议的原始状态数据;
对原始状态数据进行清洗解析,提取关键信息;
将关键信息输入预先建立和训练好的会议信息分类器,得到对应的信息类别;
基于信息类别分别从关键词分析、用户发文分析和信息传播网络分析三个方面分别获得对应的研究热点;
对获得的研究热点赋予权重,对每个研究热点进行加权求和,得到最终研究热点排序;
所述会议信息分类器基于社交媒体学术会议信息组织模型实现信息类别的划分。
作为上述方法的一种改进,所述社交媒体学术会议信息组织模型,用于组织社交媒体学术会议信息,对学术会议信息进行类别划分,划分的类别具体包括:描述会议进程、表达参会感受、评价研究成果、学术研讨交流、分享在线资源和非学术信息;其中,
所述描述会议进程,包括直接或间接对会议进展进行播报;
所述表达参会感受,包括发表自己对会议各方面的感受及意见建议;
所述评价研究成果,包括评价他人成果、自我成果推荐和隐含评价成果;所述评价他人成果包括对他人的演讲、文章、研究工作和创意进行评价;所述自我成果推荐,包括对自己或所在团队的演讲、文章、研究工作和创意进行评价;所述隐含评价成果,包括对他人的演讲、文章、研究工作和创意进行转述宣传;
所述学术交流研讨,包括发表观点、发起讨论、提出问题和解答疑惑;
所述分享在线资源,包括对会议中的演示文稿、数据、文章和代码资源链接进行收集整理与分享;
所述非学术信息,包括非学术的会议信息以及旅游和日常推文信息。
作为上述方法的一种改进,所述会议信息分类器基于fasttext算法实现,输入为关键信息,输出为社交媒体学术会议信息组织模型设定的信息类别。
作为上述方法的一种改进,所述基于话题标签获取社交媒体学术会议的原始状态数据;具体包括:
使用话题标签,对社交媒体的会议相关信息进行检索,得到博文页面;
从博文页面中提取所有的博文ID数据;
通过博文ID数据获取对应的博文原始状态数据。
作为上述方法的一种改进,所述关键词分析具体包括:
找出评价研究成果与学术研讨交流类别社交媒体学术会议信息中的所有关键词;
根据不同关键词的出现频率进行统计排序,找出热点关键词;
对热点关键词对应的博文进行主题分析,找出研究热点。
作为上述方法的一种改进,所述用户发文分析具体包括:
通过对评价研究成果类别的信息进行用户属性分析,所述用户属性包括资深博主、权威博主和人气博主;
通过对学术研讨交流类别的信息进行用户关系网络分析,找到核心用户;
对用户属性为资深博主、权威博主、人气博主或核心用户的发文进行分析,找出研究热点。
作为上述方法的一种改进,所述信息传播网络分析具体包括:
根据研究成果类别的博文转发数进行排序,对转发数排名达到前设定值的推文进行主题分析,获取研究热点;
统计推文中的论文被他人评价、自我推荐以及隐含评价的次数,并对影响力得分进行计算排序,选出影响力排名达到前设定值的论文,根据其关键词进行统计分析排序,获得研究热点;
对分享在线资源类型的社交媒体学术会议信息进行整理,并对演示文稿、论文、数据集和代码类别的资料链接进行主题分析,获得研究热点。
与现有技术相比,本发明的优势在于:
1、本发明提出的一种基于社交媒体学术会议信息的热点发现方法,可以解决传统的文献计量学方法的时滞问题,更加及时地发现相关领域研究热点;
2、本发明提出了基于用户发文动机的社交媒体学术会议信息组织模型,将社交媒体学术会议信息分为描述会议进程、表达参会感受、评价研究成果、学术研讨交流、分享在线资源以及非学术信息等六种类别,可以对社交媒体学术会议信息进行有效组织与分类,避免社交媒体学术会议信息处理过程中存在的信息碎片化、信息冗余、数据质量良莠不齐等问题,为科研人员研究社交媒体学术会议信息提供新的方法。
附图说明
图1是本发明的基于社交媒体学术会议信息的热点研究发现方法流程图;
图2是Twitter会议信息数据收集流程图;
图3是获取Twitter原始Status数据代码;
图4是社交媒体学术会议信息组织模型;
图5是社交媒体学术会议信息分类器训练过程;
图6是社交媒体学术会议信息综合分析示例。
具体实施方式
本发明基于用户发文动机的社交媒体学术会议信息组织模型,利用组织模型对社交媒体学术会议信息进行有效分类的基础上,分析总结社交媒体学术会议信息的数据分布、关键词词频、用户属性、用户类型与信息传播等特点,同时找出评价研究成果、学术研讨交流与分享在线资源类别信息等适合进行热点发现的信息。并根据社交媒体学术会议信息的特点,提出通过关键词分析、用户发文分析与信息传播网络分析相结合的方法,从社交媒体学术会议信息中提取相关领域研究热点。
下面结合附图和实施例对本发明的技术方案进行详细的说明。
实施例1
如图1所示,本发明的实施例1提出了一种基于社交媒体学术会议信息的热点发现方法。需要首先构建社交媒体学术会议信息组织模型,然后通过社交媒体学术会议信息组织模型获取当前学术研究热点。
本发明选取twitter数据作为社交媒体数据,基于话题标签首先获取Twitter会议信息数据,具体流程如图2所示。
数据获取主要代码如图3所示。
原始数据获取后,对获取的Twitter原始Status数据进行清洗解析,提取关键信息。然后根据社交媒体学术会议信息组织模型对清洗后的数据进行处理。
社交媒体学术会议信息组织模型是本发明提出的一个创新点,用于组织社交媒体学术会议信息,将获取到的学术会议信息按照分享在线资源、自我推荐、描述会议进程、表达参会感受、学术交流研讨、隐含评价成果、非学术信息、评价他人成果类别进行划分。具体如图4所示。
其中信息类别划分可采用社交媒体学术会议信息分类器来完成。社交媒体学术会议信息分类器基于fasttext算法实现。社交媒体学术会议信息分类器训练过程如图5所示。
在对社交媒体学术会议信息进行有效组织的基础上,下一步就是分析热点研究问题。热点研究时,本发明提出从三个分析角度来研究当前热点,分别是关键词分析、用户发文分析、信息传播网络分析。
对社交媒体学术会议信息进行关键词分析的主要步骤包括:(1)找出评价研究成果与学术研讨交流类别社交媒体学术会议信息中的所有关键词;(2)根据不同关键词的出现频率进行统计排序,找出热点关键词;(3)对热点关键词对应的博文进行主题分析,找出研究热点。
对社交媒体学术会议信息进行用户发文分析的主要步骤包括:(1)通过对评价研究成果类别的信息进行用户属性分析找出“资深博主”、“权威博主”与“人气博主”;(2)通过对学术研讨交流类别的信息进行用户关系网络分析,找到“核心用户”;(3)对“资深博主”、“权威博主”、“人气博主”以及“核心用户”等高影响力用户的发文进行分析,找出研究热点。对社交媒体学术会议信息进行信息传播网络分析的主要步骤包括:(1)研究成果类别博文的转发数进行排序,并对转发数排名前5%的推文进行主题分析,获取研究热点。(2)统计推文中的论文被他人评价、自我推荐以及隐含评价的次数,并对影响力得分进行计算排序,选出影响力排名前5%的论文,根据其关键词进行统计分析排序获得研究热点。(3)对分享在线资源类型的社交媒体学术会议信息进行整理,并对演示文稿、论文、数据集、代码等类别的资料链接进行主题分析,获得研究热点。最后对三个方面获取的研究热点进行综合分析,分别对三个方面获得的研究热点安装1:1:1赋予权重,然后对每个热点进行加权求和,获得最终研究热点排序。综合分析示例如图6所示。
创新点:
为解决传统的文献计量学方法的时滞问题,本发明提出的基于社交媒体学术会议信息的热点发现方法,可以更加及时地发现相关领域研究热点,另外为了解决社交媒体数据存在信息碎片化、信息冗余、数据质量良莠不齐等问题,本发明提出了基于用户发文动机的社交媒体学术会议信息组织模型。
本发明提出一种基于社交媒体学术会议信息的热点发现方法,可以更加及时地发现相关领域研究热点。原因在于新的研究成果和研究动态往往会首先出现在各种会议和会议论文中,学术会议蕴含着丰富的领域前沿动态与热点信息。随着网络技术与移动智能终端的发展,越来越多的研究人员在学术会议中通过社交媒体平台进行学术交流,产生了大量的社交媒体学术会议信息。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
机译: 一种基于社交媒体的估计位置的方法,计算机程序,计算机。
机译: 一种基于Internet协议版本6的动态主机配置的服务发现方法
机译: 一种基于计算机的新颖方法,用于识别和聚类功能相关的蛋白质目标,以发现广泛的和特定的调制器