首页> 中国专利> 一种基于语义分析的智能媒介推荐方法

一种基于语义分析的智能媒介推荐方法

摘要

本发明公开了一种基于语义分析的智能媒介推荐方法,包含以下步骤:抓取媒体号的文章内容并进行预处理;训练词向量模型;计算每个词的逆文档频率;计算媒体号语义向量;媒体号初筛;计算关键词列表语义向量;计算关键词列表语义向量A与初筛之后的媒体号语义向量S的余弦相似度;基于语义的媒体号细筛选。本发明据广告主的关键词和预算,利用语义分析技术自动筛选出适合投放的媒体号,精准触达用户群。

著录项

  • 公开/公告号CN107133315A

    专利类型发明专利

  • 公开/公告日2017-09-05

    原文格式PDF

  • 申请/专利权人 有米科技股份有限公司;

    申请/专利号CN201710304364.2

  • 发明设计人 李百川;

    申请日2017-05-03

  • 分类号G06F17/30(20060101);G06F17/27(20060101);G06Q30/02(20120101);

  • 代理机构44245 广州市华学知识产权代理有限公司;

  • 代理人黄磊;陈宏升

  • 地址 510006 广东省广州市番禺区小谷围街外环东路232号13栋B232

  • 入库时间 2023-06-19 03:17:41

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-09-28

    授权

    授权

  • 2017-09-29

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20170503

    实质审查的生效

  • 2017-09-05

    公开

    公开

说明书

技术领域

本发明涉及广告领域,特别涉及一种基于语义分析的智能媒介推荐方法。

背景技术

数字营销市场发生了巨变,程序化购买飞速发展,在这样的环境下,实现广告的精准投放成为越来越多品牌主的首要需求。在稳中求进的经济环境下,广告投放必然更需要深思熟虑,力求达到更高的投入产出比。

例如权威数据营销技术公司AdMaster推出的《2017年数字营销趋势报告》,为广告主和市场从业人员提供了投放建议。在该报告中,2017年数字营销花费预计平均增长17%,投放进一步倾斜移动端:根据AdMaster数据显示,80%以上的广告主表示将在2017年继续增加数字营销领域的预算,平均预算的增长量为17%,其中预算增长量预计达到10%以上的品牌达59%,发展态势积极,仅有3%的广告主表示将缩减预算。在营销预算分配上,广告主一致同意向移动端倾斜将是2017年的一大趋势,87%的广告主表示明年将进一步增加移动营销预算。相反,PC端的投放趋势则逐年走低,约六成品牌主选择减少投放甚至不投放。

目前媒介环境越来越碎片化,消费者可选择的平台、消费行为都越来越多元化。品牌主在投放广告时,需要通过不同渠道、终端、区域和平台之间进行组合,以此实现投放收益最大化。

而无论是投放在移动端还是PC端,常常都会采用以下两种方法之一:

(1)人工选号。平台明码实价的标明媒体号的价格,提供媒体号的相关信息,如粉丝数、阅读数、媒体类别、价格等信息,任广告主自主在平台进行挑选。

(2)公开竞价。广告主将投放的广告素材、关键词、投放时间、投放价格等公开放在广告平台上,由媒体号来竞标。

对于人工选号,尽管广告平台提供了专业运营人员辅助选号,但由于媒体号众多,分布较散,往往很多广告主都无法挑选到合适的媒体号;对于公开竞价,需要媒体号主动竞标,效率不高。

同时社媒广告平台提供在微信公众号、微博大V等社交媒体账号上进行广告投放的服务。在社媒平台投放广告中重要的步骤是选择合适的账号(选号)作为投放媒体。目前市场上绝大多数平台都是明码实价的标明媒体号的价格,提供媒体号的相关信息,如粉丝数、阅读数、媒体类别、价格等信息,任广告主自主在平台进行挑选,尽管广告平台提供了人工辅助选号的功能,但往往很多广告主都无法挑选到合适的媒体号。

因此有必要提供一种新的媒介推荐方法来解决上述问题。

发明内容

本发明的目的在于克服现有技术的缺点与不足,提供一种基于语义分析的智能媒介推荐方法,其根据广告主的关键词和预算,利用语义分析技术自动筛选出适合投放的媒体号,精准触达用户群。

本发明的目的通过以下的技术方案实现:

一种基于语义分析的智能媒介推荐方法,包含以下步骤:

S1、抓取媒体号的文章内容并进行预处理;所述预处理是对每个媒体号,利用自然语言处理工具将其每篇文章分句、分词,最终将这个媒体号的所有文章合并成一个大文章,文章中的每句是分完词的句子;

S2、使用gensim工具训练词向量模型;

采用基于Negative Sampling的CBOW模型训练词向量,给定语料库C,词w的上下文是Context(w),词为正样本,其他词则为负样本;负样本子集NEG(w)包含若干负样本,对于(即对于任意属于语料库C的词),定义损失函数:

整体的目标函数Obj定义为:

其中σ(·)为sigmoid函数,T为转置运算符号,xw表示Context(w)中各词的词向量之和,即其中表示词的词向量;θu表示词u对应的一个辅助向量,为待训练参数;词向量和辅助向量都是长度为9的实数向量;利用梯度上升方法对上述目标函数进行优化,从而训练出语料库中每个词的词向量;

S3、计算每个词的逆文档频率IDF,对于词w来说,

其中N代表媒体号的总数,N(w)表示文章内容中含有词w的媒体号总数;

S4、计算媒体号语义向量:对于媒体号Mj,利用TF-IDF模型对其词向量加权,得到媒体号的语义向量Sj;计算方法如下:

其中vw为词w的词向量,count(w,Mj)代表词w在媒体号Mj的文章中出现的次数,|Mj|表示媒体号Mj文章的总词数;

S5、媒体号初筛:通过人工设定的筛选条件,初筛出一批待挑选的媒体号;

S6、计算关键词列表语义向量:对于长度为k的广告关键词列表L=[w1,w2,…,wk],其语义向量A计算方式为:

其中vw是词w的词向量;

S7、计算关键词列表语义向量A与初筛之后的媒体号语义向量S的相似度:

其中A·S表示两个向量的内积,为向量A的L2范数,为向量S的L2范数;

S8、基于语义的媒体号细筛选:综合步骤S7算出的相似度以及设定的筛选条件,利用预先设定的每个筛选条件的权重,算出最终的媒体匹配值,从高到低取前K个形成待选媒体号列表。

步骤S1中,所述媒体号的文章内容是通过网络爬虫和官方API爬取的。

所述步骤S1、S2、S3、S4是离线计算,定期更新即可;所述步骤S5、S6、S7、S8是在线计算,对每个新的广告推广实时自动推荐出待选媒体号列表。

步骤S5、S8中,所述筛选条件包括媒体号价位、档期、广告类别。

步骤S1中,所述自然语言处理工具包括OpenNLP、LTP。

本发明与现有技术相比,具有如下优点和有益效果:

将本发明应用在微信公众号投放的选号上,测试了5个广告。首先人工为每个广告选择了10个待选的公众号,然后应用该技术为每个广告自动选出前20个公众号。对比结果发现,人工选出的公众号80%被自动选出的前20个公众号覆盖,证明了该技术的有效性。

相比人工选号,本发明在5秒之内即可提供前20个待选公众号,速度大幅提升。

附图说明

图1为本发明所述一种基于语义分析的智能媒介推荐方法的流程图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。

如图1,一种基于语义分析的智能媒介推荐方法的流程图,包含以下顺序的步骤:

(1)利用网络爬虫爬取微信10万个媒体号发布的文章内容。

(2)对每个媒体号,利用LTP-Cloud工具包将其每篇文章分段、分句、分词。最终将这个媒体号的所有文章合并成一个大文章,文章中的每句是分完词的句子。

(3)使用gensim工具训练词向量模型,选取隐藏层大小为100,词的上下文窗口为5,负例样本数为5。

(4)计算每个词的逆文档频率(IDF),将上一步的词向量模型以及此步的IDF模型保存。

(5)计算媒体号文章语义向量。

(6)媒体号初筛。通过对媒体号价位、档期、广告类别等条件的选择,初筛出前50个待挑选的媒体号。

(7)计算关键词列表语义向量,与前50个媒体号的文章语义向量计算余弦相似度。

(8)给语义相似度、媒体号价位匹配度、档期匹配度设定权重,分别是0.6,0.2,0.2,算出最终的加权媒体匹配值,从高到低取前20个形成待选媒体号列表。

上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号