首页> 中国专利> 电影期望值的计算方法及系统

电影期望值的计算方法及系统

摘要

本发明揭示了一种电影期望值的计算方法,其方法包括:收集微博上即将上映电影的评论信息并进行人工标注获得训练样本,使用机器学习的方法,用获得的标注样本训练最大熵分类器,从而完成对即将上影电影评论的自动分类,最后,通过对某一电影评论的分类结果进行计算获得该电影的期望值。本发明还公开了一种电影期望值的计算系统。本发明的方法和系统简单可行、省时省力,而且电影期望值的计算结果真实可靠。

著录项

  • 公开/公告号CN102708164A

    专利类型发明专利

  • 公开/公告日2012-10-03

    原文格式PDF

  • 申请/专利权人 苏州大学;

    申请/专利号CN201210126129.8

  • 发明设计人 李寿山;庞磊;周国栋;

    申请日2012-04-26

  • 分类号G06F17/30(20060101);

  • 代理机构11227 北京集佳知识产权代理有限公司;

  • 代理人常亮

  • 地址 215123 江苏省苏州市工业园区仁爱路199号

  • 入库时间 2023-12-18 06:42:37

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2014-11-05

    授权

    授权

  • 2012-11-28

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20120426

    实质审查的生效

  • 2012-10-03

    公开

    公开

说明书

技术领域

本发明属于自然语言处理技术领域,尤其涉及一种电影期望值的计算方 法及系统。

背景技术

目前,人们越来越习惯于在网络上表达自己的观点和情感。在网络上存在 大量的带有情感倾向性的文本,这些倾向性文本往往以商品评论、论坛评论、 或博客的形式存在。为了自动获取和分析此类主观信息,文本情感分析 (Sentiment Analysis)的研究得到了迅速发展,受到学术界和商业界的密切关注。

众所周知,电影信息库的建立对于人们了解和查找众多电影信息来说极为 重要。而电影信息通常包括电影导演、主要演员、投资情况、电影期望值等, 其中,电影期望值是指,某一电影即将上映之前,大众对这一电影的期待程度。 通过此期望值人们可推断这部即将上映的电影值不值的去看。

然而,现有的电影期望值计算方法主要是通过问卷调查形式进行的,此方 法需要设计问卷,然后组织被调查者进行问卷回答,再根据统计的问卷结果进 行计算出电影期望值,此方法不免造成额外的人力成本,工作效率低,且由于 被调查的人群相对集中,因而不具有代表性,基于此方法建立的电影信息库中, 电影期望值这一指标也往往也实际情况不尽相符。

发明内容

本发明的目的在于提供一种计算结果真实可靠、简单可行、省时省力的电影 期望值的计算方法及系统。

为解决上述技术问题,本发明的技术方案是这样实现的:

一种电影期望值的计算方法,包括如下步骤:

S1、采集待上映电影一的评论信息;

S2、将所述评论信息按情感分类标注为正面评论或负面评论,以获得训练 样本;

S3、利用所述训练样本作为训练语料训练最大熵分类器;

S4、采集待上映电影二的评论信息;

S5、利用所述最大熵分类器对待上映电影二的评论信息进行分类;

S6、获取所述最大熵分类器的分类结果,计算待上映电影二的期望值。

优选的,在上述电影期望值的计算方法中,所述待上映电影一的评论信息 和待上映电影二的评论信息来自微博。

优选的,在上述电影期望值的计算方法中,所述步骤S2中,还包括将所述 评论信息标注为中立评论。

优选的,在上述电影期望值的计算方法中,所述步骤S2中,还包括对所述 待上映电影一的评论信息进行分词。

优选的,在上述电影期望值的计算方法中,所述步骤S1中,还包括对所述 评论信息进行文字预处理,该文字预处理包括:去掉所述评论信息所对应的用 户名、去掉所述评论信息中的网络链接以及将所述评论信息中的表情图片替换 成相应的文本。

本发明还公开了一种电影期望值的计算系统,该系统包括:

样本采集单元,用于采集待上映电影一的评论信息;

样本标注单元,用于将所述评论信息按情感分类标注为正面评论或负面评 论,以获得训练样本;

最大熵分类器训练单元,利用所述训练样本作为训练语料训练最大熵分类 器;

评论信息采集单元,用于采集待上映电影二的评论信息;

最大熵分类器,用于对待上映电影二的评论信息进行分类;

电影期望值计算单元,获取所述最大熵分类器的分类结果,计算待上映电 影二的期望值。

优选的,在上述电影期望值的计算系统中,所述待上映电影一的评论信息 和待上映电影二的评论信息来自微博。

优选的,在上述电影期望值的计算系统中,所述样本标注单元还用于将所 述评论信息标注为中立评论。

优选的,在上述电影期望值的计算系统中,所述电影期望值的计算系统还 包括分词单元,所述分词单元用以对所述待上映电影一的评论信息进行分词。

优选的,在上述电影期望值的计算系统中,所述电影期望值的计算系统还包 括文字预处理单元,所述文字预处理单元用于对所述待上映电影一的评论信息 进行文字预处理,该文字预处理包括:去掉所述评论信息所对应的用户名、去 掉所述评论信息中的网络链接以及将所述评论信息中的表情图片替换成相应的 文本。

与现有技术相比,本发明所使用的微博平台可以提供极其丰富的文本资源并 能够提供最现实可靠的样本。使用本发明的方法和系统进行电影期望值的计算, 有助于电影发行厂商准确的了解该电影的票房预期以及当前的宣传情况,对以 后的宣传策略有很大帮助。本发明是利用自然语言处理技术对微博文本进行情 感分类,来计算电影的期望值,该方法简单可行,比传统的统计方法省时省力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实 施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面 描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲, 在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明具体实施方式中电影期望值的计算方法的流程图;

图2是图1所示的实施方式中电影期望值计算方法的工作原理图。

具体实施方式

为了便于叙述,先将本发明涉及的术语与标记介绍如下:

电影期望值(Movie expected value):某一电影即将上映之前,大众对 这一电影的期待程度。

情感分类(Sentiment Classification):一种将文本按照所表达的情感极 性分为褒、贬的分类任务;

机器学习(Machine Learning):是研究计算机怎样模拟或实现人类的学习 行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身 的性能。

以下将结合附图所示的具体实施方式对本发明进行详细描述。但这些实 施方式并不限制本发明,本领域的普通技术人员根据这些实施方式所做出的 结构、方法、或功能上的变换均包含在本发明的保护范围内。

结合图1和图2所示,在本实施方式中,电影期望值的计算方法包括如 下步骤:

S1、采集待上映电影一的评论信息;

S2、将所述评论信息按情感分类标注为正面评论或负面评论,以获得训练 样本;

S3、利用所述训练样本作为训练语料训练最大熵分类器;

S4、采集待上映电影二的评论信息;

S5、利用所述最大熵分类器对待上映电影二的评论信息进行分类;

S6、获取所述最大熵分类器的分类结果,计算待上映电影二的期望值。

步骤S1中,待上映电影一的名称并不做限制,可以任意选取,待上映 电影一也可以包括多部待上映的电影。待上映电影一的评论信息优选来自微 博平台,例如新浪微博、腾讯微博等。搜索引擎可根据待上映电影一的名称 在微博评论文本中搜索到相应的电影评论信息,并随机抽取一定数量的评论 信息进行汇总。易于想到,评论信息汇总的越多,电影期望值的计算结果越 可靠。

微博是web2.0时代新兴起的一种集成化、开放化的互联网社交服务。它 打通了移动通信网和互联网的界限,用户可以通过手机、IM软件和外部API 接口等途径,即时向外发布140字以内的文本,越来越受到互联网用户的青 睐。随着微博用户的迅速增长,微博的发布量也在急速增长,如此大规的微 博文本中包括大量的评论文本。微博平台用户数量庞大,有海量的微博评论, 使得电影期望值的计算结果真实可靠。

本实施方式所使用的分类方法是基于机器学习的文本分类方法,所以, 语料的准备是本技术方案的基础。数量充足,质量可靠的语料对于训练一个 性能优越的分类器具有重要意义。由于,没有现成的公用语料,我们所使用 的语料都是人工标注的。

语料的选取应当忠实于语言的原貌。本实施例是基于微博的电影期望值 计算方法,所以所用到的语料(待上映电影一的评论信息)都是从微博平台 上获取的,由于本文是针对中文文本的情感分类,所以我们可以选择目前最 大的中文微博平台——新浪微博,来获取相应的微博评论作为语料。微博语 料格式非常自由,特别是在新浪微博平台上,由于加入了很多多媒体的应用, 使得微博内容变得非常丰富,但是,在另一方面便给自然语言处理带来了困 难。为了确保语料的格式统一,还需要对语料进行预处理。

微博主要涉及三类比较明显的特征,在这些特征中,有些特征对文本的 情感分类有所帮助,有些特征反而会影响情感分类的效果。所以在标注语料 前,我们需要对这些特征进行预处理。这三类特征为:

1)用户名(Usernames):微博用户在发布微博时,经常为了回复其他用 户,在所发布的微博中会包含其他用户的名字。例如,“小仙安娜丽丝: sinjio乖乖:汤唯的气质和气场越来越强大我喜欢他俩,气质般配。气场超 合!”其中“+用户名:”是用来回复该用户的。用户名对分类没有任何帮助, 如果用一个有意义的词来作为用户名,反而会影响分类效果,所以,在预处 理过程中要直接去掉微博评论中的用户名。

2)网页链接(Link):在新浪微博平台上,为了使信息共享丰富化,微 博用户在发布微博时经常引用一些新闻、文章、图片或视频,通常是将链接 地址放在微博末端,以http开头,如:http://t.cn/zO5wbFu。一条微博文本中 可以包含一个或多个网页链接。这些特征对文本情感分类没有任何帮助,所 以,在预处理过程中要直接将其过滤。

3)表情图片(Emoticon):表情图片在微博评论中经常出现,表情图片对评 论文本的情感分类是很有帮助的,所以,在预处理过程中,将表情图片替换 为文本表示。然后作为文本情感特征进行情感分类。例如,“就算冲着演员也 得去欣赏呐在预处理阶段,我们将替换为文本“[太开心]”。

步骤S2用以对步骤S1中的评论信息进行分类,以获得训练样本。具体 地将,评论信息被人工分类为正面评论(很期待)和负面评论(表示反感), 在其他实施方式中,评论信息还可以分类有中立评论,即没有标明立场。

为了使人工标注语料达到非常高的准确率,所有语料可以由两人分别标 注一遍,然后将两人标注一致的语料选取为最终语料。本实施例中,待上映 电影一的评论信息共采集到1850篇,人工标注将语料分为三类:正面评论、 负面评论、中立评论,其中,中立评论文本有819篇,正面评论文本有523 篇,负面评论文本有508篇。

所述步骤S2中,还包括对所述待上映电影一的评论信息进行分词。本 发明针对中文文本没有明显分词信息的问题,使用现有分词工具对收集到的 语料进行分词。分词可以采用各种方法,如最大概率法、最大匹配法、条件 随机场方法等。施例采用实验室开发的基于100M训练样本和条件随机场分 词方法的分词软件,来实现语料的分词。条件随机场分词方法在新词识别方 面有独特的优势,有利于帮助在微博文本中识别新出现的词,进而保证分词 的准确率。

步骤S3利用步骤S2中的训练样本作为训练语料训练最大熵分类器。最 大熵模型能够较为容易地对多类分类问题进行建模,并且给各个类别输出一 个相对客观的概率值结果,便于后续推理步骤使用。同时,最大熵的训练效 率相对较高。

在预测时,假设X就是一个由特征构成的向量,变量y的值为样本的类 别。p(y|X)是指系统对某个样本预测为某一类别的概率。最大熵模型要求 p(y|X)在满足一定约束的条件下,必须使下面定义的熵取得最大值:

H(p)=-ΣX,yp(y|X)log(y|X)

这里的约可以用以下的方式 来表述:

其中,fi(X,y)为最大熵模型的特征,n为所有特征的总数,可以看到: 这些特征描述了向量X与类别y的联系,最终概率输出为:

p(y|Z)=1Z(X)exp(Σiλifi(X,y))

Z(X)=Σyexp(Σiλifi(X,y))

由于最大熵分类器是一个二元分类,所以对于一个三元分类问题要训练 两个分类器,中立评论与正面评论+负面评论做为二元分类来训练分类器,正 面评论与负面评论做为二元分类来训练分类器。

步骤S4~S6是采用步骤S3中的最大熵分类器对待上映电影二的评论信 息进行分类,最后通过分类结果进行计算待上映电影二的期望值。电影期望 值=正面评论数目/(正面评论数目+负面评论数目)*100%。

为了检测本实施例的方法在计算电影期望值方面的准确率,本发明对分 类器的分类结果做了测试实验。测试样本是经过人工标注了某一特定电影的 评论,其中,中立评论有150篇,正面评论有150篇,负面评论有150篇。 其中,“准确率”代表在测试过程中,分类器能正确的将测试语料分到所属 类别中去(即在分类结果中,准确率表示正确分类结果占所有测试语料的比 例)。由于在人工标注语料中,中立评论文本有819篇,正面评论+负面评 论有1031篇。为了使训练语料数据达到平衡,我们随机的从两类评论中各抽 取出800篇语料。在训练过程中本发明使用词的Unigram+Bigram作为特征 进行分类器训练,分类器模型选用最大熵分类器模型。实验结果表明,在中 立评论、正面评论+负面评论分类中,使用该分类器准确率能达到94.3%。在 人工标注语料中,正面评论523篇,负面评论508篇。为了使训练语料数据 达到平衡,正面评论与负面评论的分类也叫做情感极性分类,我们随机的从 两类评论中各抽取出500篇语料。使用最大熵分类器模型,训练中使用 Unigram+Bigram作为特征进行分类器训练,实验结果表明,在情感极性分 类中,使用该方法训练的分类器的准确率能达到88.6%。可以看出上述分类 中,最终分类准确率为94.3%*88.6%,即83.5%。所以本发明在计算电影期 望值方面,能达到较高的准确率。

本发明中,待上映电影一和待上映电影二可以为同一部电影,也可以是 不同的电影。待上映电影一目的在于作为样本以训练最大熵分类器。

本发明实施例还提供了一种电影期望值的计算系统,该系统包括:样本采 集单元,用于采集待上映电影一的评论信息;

样本标注单元,用于将所述评论信息按情感分类标注为正面评论或负面评 论,以获得训练样本;

最大熵分类器训练单元,利用所述训练样本作为训练语料训练最大熵分类 器;

评论信息采集单元,用于采集待上映电影二的评论信息;

最大熵分类器,用于对待上映电影二的评论信息进行分类;

电影期望值计算单元,获取所述最大熵分类器的分类结果,计算待上映电影 二的期望值。

在上述电影期望值的计算系统中,所述待上映电影一的评论信息和待上映电 影二的评论信息优选来自微博;所述样本标注单元还用于将所述评论信息标注 为中立评论;所述电影期望值的计算系统还包括分词单元,所述分词单元用以 对所述待上映电影一的评论信息进行分词;所述电影期望值的计算系统还包括 文字预处理单元,所述文字预处理单元用于对所述待上映电影一的评论信息进 行文字预处理,该文字预处理包括:去掉所述评论信息所对应的用户名、去掉 所述评论信息中的网络链接以及将所述评论信息中的表情图片替换成相应的文 本。

综上所述,本发明通过收集微博上即将上映电影的评论信息并进行人工标注 获得训练样本,使用机器学习的方法,用获得的标注样本训练最大熵分类器, 从而完成对即将上影电影评论的自动分类,最后,通过对某一电影评论的分类 结果进行计算获得该电影的期望值。与现有技术相比,本发明的优点在于:本 发明所使用的微博平台可以提供极其丰富的文本资源并能够提供最现实可靠的 样本。使用本发明的方法和系统进行电影期望值的计算,有助于电影发行厂商 准确的了解该电影的票房预期以及当前的宣传情况,对以后的宣传策略有很大 帮助。本发明是利用自然语言处理技术对微博文本进行情感分类,来计算电影 的期望值,该方法简单可行,比传统的统计方法省时省力。

应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式 仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本 领域技术人员应当将说明书作为一个整体,各实施方式中的技术方案也可以 经适当组合,形成本领域技术人员可以理解的其他实施方式。

上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式 的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技艺精 神所作的等效实施方式或变更均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号