公开/公告号CN113821626A
专利类型发明专利
公开/公告日2021-12-21
原文格式PDF
申请/专利权人 北京瀚海云星科技有限公司;深圳致星科技有限公司;
申请/专利号CN202010554256.2
申请日2020-06-17
分类号G06F16/35(20190101);G06F40/205(20200101);G06F40/289(20200101);G06F40/30(20200101);G06Q50/00(20120101);
代理机构44507 深圳市力道知识产权代理事务所(普通合伙);
代理人何姣
地址 100089 北京市海淀区东北旺中关村软件园信息中心二层A209-2
入库时间 2023-06-19 13:46:35
技术领域
本发明涉及人工智能领域;具体地,涉及一种神经网络及据多源社交短文本预测IP作品指标的方法。
背景技术
随着社交媒体的发展壮大,出现了一种现象,即在社交媒体上好评如潮的IP作品,往往很容易在市场上取得成功,在文娱行业从业者看来这样的IP作品也更具有价值。这正是由于社交媒体强大的传播能力,受众的情感倾向能够通过像评论、留言这类的社交媒体短文本形式,高效率、广泛地传播,形成口碑效应,进而影响着IP作品的市场指标和价值。
既然社交媒体上存在着如此大量的带有各类感情色彩的短文本。那么,理论上讲,通过对社交媒体短文本中情感的倾向性分析(即受众对IP作品好恶的分析)、以及进一步的处理归纳和推理,是能够预测IP作品的一些预期指标和评估其使用价值的。
但是,如此庞大的文本信息,仅依靠人力逐条分析显然是不现实的。那么,就需要借助计算机的情感分析(又称意见挖掘)。现有的较为行之有效的即基于统计的文本倾向性情感分析方法。而该方法是需要一定量的已标注情感标签文本作为训练集,进而构造模型进行情感分析。
需要指出的是,一些综合性社交媒体,例如微博、微信等,其短文本是没有所谓的情感标签标记的。对于这么大数量级的短文本,人工标注也并非可取之法。采用已有情感语义词库解决社交文本无情感标签时,又将会因二者涉及主题不同使二者数据特征分布不同,影响预测结果。
另外,更重要的是,由于不同社交媒体舆论导向的多元化,将使得依赖单源社交媒体的预测结果不可信。
发明内容
有鉴于此,本发明提供一种神经网络及据多源社交短文本预测IP作品指标的方法。
一方面,本发明实施例提供一种神经网络,用于分析社交短文本中的情感特征和基于多源社交短文本预测IP作品的特定指标(例如,IP作品为网络视频时的播放量/播放完成率、为网剧时的播放量、为直播类节目时的实时播放量、为电视剧时的收视率、为综艺节目时的每周/每周期播放量、为电影时的票房以及吸引新注册用户、付费转化率等)。
上述的神经网络,包括:
情感分析子网络和多源情感-指标子网络;其中,
上述的情感分析子网络,用于分析输入的短文本的情感倾向,确定其情感特征;
上述的多源情感-指标子网络,用于确定IP作品的多源社交短文本情感-第一指标特征;所述的社交短文本,即获取自社交媒体的与IP作品相关的短文本,如留言、评论等;多源社交短文本,即获取自不同社交媒体平台的社交短文本;所述的第一指标,即被选定的待预测指标。
另一方面,本发明实施例提供一种神经网络模型训练方法,用以训练上述神经网络。
结合第一方面,对应地,上述的训练方法,包括:
预训练获得所述的情感分析子网络;
基于所述情感分析子网络,构建所述多源情感-指标子网络。
又一方面,本发明实施例提供一种基于多源社交短文本预测IP作品指标的方法。
结合第一、二方面,上述的预测IP作品指标的方法,包括:
获取诸源社交短文本
基于诸源社交短文本,确定其情感特征/情感倾向;
进而确定IP作品的多源社交短文本情感-第一指标特征;
基于确定的多源社交短文本情感-第一指标特征,确定待预测IP作品的第一指标。
又一方面,本发明实施例提供一种训练装置,用于训练第一方面的神经网络。
结合第一、二、三方面,对应地,上述的训练装置,包括:
获取单元,用于获取用于训练的样本;
训练单元,用于执行第二方面述及的方法,训练所述神经网络模型;具体地,其包括预训练模块和训练模块;所述预训练模块,用于预训练所述情感分析子网络;所述训练模块,用于训练所述多源情感-指标子网络;
保存单元,用于保存、输出完成神经网络模型。
又一方面,本发明实施例提供一种预测装置,用于预测IP作品在第一方面述及的特定指标。
结合第一、二、三、四方面,对应地,上述的预测装置,包括:
输入单元,用于获取待预测IP作品的诸源社交短文本;
预测单元,包括第二方面任一述及方法训练完成的神经网络模型,用于预测所述IP作品的第一指标;
输出单元,用于输出预测得到的第一指标结果。
又一方面,本发明实施例提供一种电子设备。
结合第一、二、三、四、五方面,所述的设备,包括:
第一处理器;所述第一处理器包括第四方面任一述及的训练装置和/或第五方面任一述及的预测装置;
和/或,
存储器及第二处理器;所述的存储器,用于存储可执行指令;所述的第二处理器,用于与前面述及的存储器通信以执行其存储的可执行指令,从而完成第三方面任一述及的基于多源社交短文本预测IP作品指标的方法和/或第二方面任一述及的神经网络模型训练方法的操作。
又一方面,本发明实施例提供一种计算机程序产品。
结合第二、三方面,上述的计算机程序产品,包括:
计算机可读代码;
该计算机可读代码在设备上运行时,该设备中的处理器执行用于实现第三方面任一述及的基于多源社交短文本预测IP作品指标的方法和/或第二方面任一述及的神经网络模型训练方法的指令。
又一方面,本发明实施例提供一种计算机可读存储介质。
结合第二、三方面,上述的计算机可读存储介质,用于存储计算机可读取的指令;
上述指令被执行时执行第三方面任一述及的基于多源社交短文本预测IP作品指标的方法和/或第二方面任一述及的神经网络模型训练方法的操作。
本发明各实施例提供的技术方案,通过分析和利用多源社交短文本的情感特征以及进一步的情感-指标特征,借以预测IP作品的特定指标。上述诸方案,不仅实现了利用社交短文本对IP作品指标的预测,而且借助多源社交短文本,可以获得更为可靠的预测结果。
下面通过附图、具体实施例对本发明的技术方案做进一步的描述。
附图说明
为更加清楚地说明本发明实施例或现有技术中的技术方案,下面将对本发明中一部分实施例或现有技术描述中涉及的附图做简单介绍。
图1为本发明一些实施例提供的基于多源社交短文本预测IP作品指标的方法的流程示意图。
具体实施方式
下面结合本发明实施例的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
以下为本发明的一些优选实施例。其中,
上述优选实施例中的一些提供一种神经网络,该神经网络包括:
情感分析子网络,用于分析输入的短文本的情感倾向,确定其情感特征;
其中,输入的短文本,可以是在各社交媒体平台上与待预测IP作品相关的留言、评论等,例如IP作品各平台的官方账户下的留言、IP作品网页下的评论、以IP作品名称为关键词检索到的其他短文本等;也可以是用作预训练样本的待预测IP作品和/或与待预测IP作品同类型的IP作品在一些社交媒体(尤其是专业社交媒体)上的具有评价标签的短文本;
多源情感-指标子网络,用于确定IP作品的多源社交短文本情感-第一指标特征;
其中,确定IP作品的多源社交短文本情感-第一指标特征,包括:
利用已有的同类型IP作品(如同为电影的IP作品、同为网剧的IP作品等)的诸源短文本和其对应的第一指标为训练样本集以监督学习的方式来确认所述的多源社交短文本情感-第一指标特征。
对应地,另一些优选实施例提供一种神经网络模型训练方法,来训练上述神经网络。具体地,该方法包括:
1)预训练情感分析子网络;
优选的,在这些实施例中的一些中,预训练情感分析子网络,包括:
获取IP作品(这里的IP作品可以是待预测IP作品、与待预测IP作品同类型的IP作品,或二者兼有之)在个别专业社交媒体(即第二社交媒体)上的具有评价标签的短文本(即第二社交短文本)及其对应的评价标签;
以上述的第二社交短文本、评价标签为训练样本集,采用监督学习的方式训练情感分析子网络;
2)构建多源情感-指标子网络;
优选的,在这些实施例中的一些中,构建多源情感-指标子网络,包括:
设计多源情感-指标子网络;所述的多源情感-指标子网络,包括若干隐藏层,其以所述情感分析子网络分析诸源社交短文本而输出的情感特征为输入,以第一指标为输出;当所述的诸源情感特征在输入时,分别为各源情感特征配置一个可训练的权重参数;
以已有的同类型IP作品的诸源短文本和其对应的第一指标为训练样本集采用监督学习的方式训练上述网络,确定多源社交短文本情感-第一指标特征,输出可用于生产环境的神经网络模型。
图1为又一些优选实施例提供的基于多源社交短文本预测IP作品指标的方法的流程示意图。
如图1所示,该方法包括:
1)获取诸源社交短文本;
获取在各社交媒体平台上与待预测IP作品相关的留言、评论等短文本;
2)确定待预测IP作品的诸源社交短文本情感特征/情感倾向;
优选的,在这些实施例中的一些中,以上述优选实施例中的方法预训练获得的情感分析子网络/情感分析网络来分析上述社交短文本,确定其情感特征/情感倾向;
3)进而确定多源社交短文本情感-第一指标特征;
优选的,在这些实施例中的一些中,以上述优选实施例中的方法构建多源情感-指标子网络/多源情感-指标网络,确定IP作品的多源社交短文本情感-第一指标特征;所述的多源情感-指标子网络/多源情感-指标网络,包括若干隐藏层,其以诸源社交短文本的情感特征/情感倾向(在其中的一些优选实施例中,其由上述的情感分析子网络/情感分析网络分析、输出)为输入,以第一指标为输出;当所述的诸源情感特征在输入时,分别为各源情感特征配置一个可训练的权重参数;
4)基于此确定待预测IP作品的第一指标;
将确定的待预测IP作品诸源社交短文本情感特征/情感倾向,输入所述的多源情感-指标子网络/多源情感-指标网络,基于确定的多源社交短文本情感-第一指标特征,预测和输出待预测IP作品的第一指标。
以下为上述优选实施例中的一具体示例,即以微博、豆瓣、新闻短评数据来预测网剧《延禧宫略》播放量的例子,其过程如下:
1)获取《延禧宫略》的短文本及相关数据:
通过爬虫爬取微博留言(如《延禧宫略》官微的用户留言)、新闻短评和豆瓣短评及豆瓣短评对应的星级评分;
2)文本预处理:
对微博留言、新闻短评和豆瓣短评采取逐条分词、去停用词、提取关键词和word2vector预处理;
3)预训练情感分析子网络:
通过爬虫获取豆瓣电视剧类型(豆瓣目前将网剧统计为电视剧)下的近期作品的豆瓣短评(训练前也经前面述及的方式进行文本预处理)和星级评分作为训练样本集,这里取样3000部电视剧作品的数据;采用监督学习的方式训练情感分析子网络;
4)构建预测用的神经网络:
该预测神经网络包括上述的情感分析子网络和多源情感-指标子网络;其中的多源情感-指标子网络,被设计为包括若干隐藏层(这里根据经验选择了5层);其以微博留言、新闻短评和豆瓣短评的情感特征(即通过预训练获得的情感分析子网络分析输出的)为输入(在输入时,分别为微博留言、新闻短评、豆瓣短评各源的情感特征配置一个可训练的权重参数),以第一指标为输出;
通过爬虫获取近期作品的微博留言、新闻短评和豆瓣短评及播放量为训练样本集(这里也取样了3000部电视剧作品的数据),采用监督学习方式训练上述神经网络,输出可用于生产环境的神经网络模型;
5)预测:
将获取《延禧宫略》的短文本输入到上述的神经网络模型中;
先经情感分析子网络确定其情感特征;
进而再经多源情感-指标子网络确定多源社交短文本情感-播放量特征;
最后,基于确定的多源社交短文本情感-播放量特征,确定《延禧宫略》的播放量。
对应地,又一些优选实施例提供一种训练装置,用于训练上述优选实施例述及的神经网络。该装置包括:
获取单元,用于获取用于训练的样本;具体地,包括获取作为预训练样本的待预测IP作品和/或与待预测IP作品同类型的IP作品在一些社交媒体上的具有评价标签的短文本以及对应的评价标签,以及获取作为训练样本的已有同类型IP作品的诸源短文本和其对应的第一指标;
训练单元,用于执行上述神经网络模型训练方法,来训练上述实施优选例中的神经网络模型。具体地,该训练单元包括预训练模块和训练模块;所述预训练模块,用于预训练所述情感分析子网络;所述训练模块,用于训练所述多源情感-指标子网络;
保存单元,用于保存、输出上述训练完成后的神经网络模型。
对应地,又一些优选实施例提供一种预测装置,用于预测IP作品的一些如播放量等特定指标。
输入单元,用于获取待预测IP作品的诸源社交短文本;
预测单元,包括上述优先实施例中的训练方法训练完成的神经网络模型,用以预测所述IP作品的第一指标;
输出单元,用于输出预测得到的第一指标结果。
对应地,又一些优选实施例提供一种电子设备,包括但不限于计算机、PC、服务器等,所述的设备,可以包括第一处理器;所述第一处理器包括上述优选实施例中任一述及的训练装置和/或任一述及的预测装置;
和/或,
存储器及第二处理器;所述的存储器,用于存储可执行指令;所述的第二处理器,用于与前面述及的存储器通信以执行其存储的可执行指令,从而完成上述优选实施例任一述及的基于多源社交短文本预测IP作品指标的方法和/或任一述及的神经网络模型训练方法的操作。
对应地,又一些优选实施例提供一种计算机程序产品,该产品可以但不限于通过网上下载链接等方式提供给用户;该计算机程序产品包括:计算机可读代码;
该计算机可读代码在设备上运行时,该设备中的处理器执行用于实现上述优选实施例中任一述及的基于多源社交短文本预测IP作品指标的方法和/或任一述及的神经网络模型训练方法的指令。
对应地,又一些优选实施例提供一种计算机可读存储介质,包括但不限于各种磁盘、光盘、闪存存储。该存储介质用于存储计算机可读取的指令;上述指令被执行时执行上述优选实施例中任一述及的基于多源社交短文本预测IP作品指标的方法和/或任一述及的神经网络模型训练方法的操作。
需要指出的是,为提高训练效率和预测结果可靠性,在上述的实施例中,还包括对社交短文本进行文本预处理,其中包括逐条分词、去停用词、提取关键词、onehotencording/word2vector等。
以上所述仅为本发明的具体实施方式,但本发明的保护范围并不局限于此。
机译: 使用经过人工训练的人工神经网络对股票市场价格进行预测,该神经网络使用历史数据进行训练并使用一系列指标来改善价格预测
机译: 获得用于测试人类骨髓肿瘤的发作或风险的指标的方法,一种获得用于预测人类中DDX41基因的体细胞突变的索引的指标,以及这些测试或预测 。 成套工具
机译: 基于预测性能指标的神经网络预测通信网络基础设施中断