公开/公告号CN107133315A
专利类型发明专利
公开/公告日2017-09-05
原文格式PDF
申请/专利权人 有米科技股份有限公司;
申请/专利号CN201710304364.2
发明设计人 李百川;
申请日2017-05-03
分类号G06F17/30(20060101);G06F17/27(20060101);G06Q30/02(20120101);
代理机构44245 广州市华学知识产权代理有限公司;
代理人黄磊;陈宏升
地址 510006 广东省广州市番禺区小谷围街外环东路232号13栋B232
入库时间 2023-06-19 03:17:41
法律状态公告日
法律状态信息
法律状态
2018-09-28
授权
授权
2017-09-29
实质审查的生效 IPC(主分类):G06F17/30 申请日:20170503
实质审查的生效
2017-09-05
公开
公开
技术领域
本发明涉及广告领域,特别涉及一种基于语义分析的智能媒介推荐方法。
背景技术
数字营销市场发生了巨变,程序化购买飞速发展,在这样的环境下,实现广告的精准投放成为越来越多品牌主的首要需求。在稳中求进的经济环境下,广告投放必然更需要深思熟虑,力求达到更高的投入产出比。
例如权威数据营销技术公司AdMaster推出的《2017年数字营销趋势报告》,为广告主和市场从业人员提供了投放建议。在该报告中,2017年数字营销花费预计平均增长17%,投放进一步倾斜移动端:根据AdMaster数据显示,80%以上的广告主表示将在2017年继续增加数字营销领域的预算,平均预算的增长量为17%,其中预算增长量预计达到10%以上的品牌达59%,发展态势积极,仅有3%的广告主表示将缩减预算。在营销预算分配上,广告主一致同意向移动端倾斜将是2017年的一大趋势,87%的广告主表示明年将进一步增加移动营销预算。相反,PC端的投放趋势则逐年走低,约六成品牌主选择减少投放甚至不投放。
目前媒介环境越来越碎片化,消费者可选择的平台、消费行为都越来越多元化。品牌主在投放广告时,需要通过不同渠道、终端、区域和平台之间进行组合,以此实现投放收益最大化。
而无论是投放在移动端还是PC端,常常都会采用以下两种方法之一:
(1)人工选号。平台明码实价的标明媒体号的价格,提供媒体号的相关信息,如粉丝数、阅读数、媒体类别、价格等信息,任广告主自主在平台进行挑选。
(2)公开竞价。广告主将投放的广告素材、关键词、投放时间、投放价格等公开放在广告平台上,由媒体号来竞标。
对于人工选号,尽管广告平台提供了专业运营人员辅助选号,但由于媒体号众多,分布较散,往往很多广告主都无法挑选到合适的媒体号;对于公开竞价,需要媒体号主动竞标,效率不高。
同时社媒广告平台提供在微信公众号、微博大V等社交媒体账号上进行广告投放的服务。在社媒平台投放广告中重要的步骤是选择合适的账号(选号)作为投放媒体。目前市场上绝大多数平台都是明码实价的标明媒体号的价格,提供媒体号的相关信息,如粉丝数、阅读数、媒体类别、价格等信息,任广告主自主在平台进行挑选,尽管广告平台提供了人工辅助选号的功能,但往往很多广告主都无法挑选到合适的媒体号。
因此有必要提供一种新的媒介推荐方法来解决上述问题。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种基于语义分析的智能媒介推荐方法,其根据广告主的关键词和预算,利用语义分析技术自动筛选出适合投放的媒体号,精准触达用户群。
本发明的目的通过以下的技术方案实现:
一种基于语义分析的智能媒介推荐方法,包含以下步骤:
S1、抓取媒体号的文章内容并进行预处理;所述预处理是对每个媒体号,利用自然语言处理工具将其每篇文章分句、分词,最终将这个媒体号的所有文章合并成一个大文章,文章中的每句是分完词的句子;
S2、使用gensim工具训练词向量模型;
采用基于Negative Sampling的CBOW模型训练词向量,给定语料库C,词w的上下文是Context(w),词为正样本,其他词则为负样本;负样本子集NEG(w)包含若干负样本,对于(即对于任意属于语料库C的词),定义损失函数:
整体的目标函数Obj定义为:
其中σ(·)为sigmoid函数,T为转置运算符号,xw表示Context(w)中各词的词向量之和,即其中表示词的词向量;θu表示词u对应的一个辅助向量,为待训练参数;词向量和辅助向量都是长度为9的实数向量;利用梯度上升方法对上述目标函数进行优化,从而训练出语料库中每个词的词向量;
S3、计算每个词的逆文档频率IDF,对于词w来说,
其中N代表媒体号的总数,N(w)表示文章内容中含有词w的媒体号总数;
S4、计算媒体号语义向量:对于媒体号Mj,利用TF-IDF模型对其词向量加权,得到媒体号的语义向量Sj;计算方法如下:
其中vw为词w的词向量,count(w,Mj)代表词w在媒体号Mj的文章中出现的次数,|Mj|表示媒体号Mj文章的总词数;
S5、媒体号初筛:通过人工设定的筛选条件,初筛出一批待挑选的媒体号;
S6、计算关键词列表语义向量:对于长度为k的广告关键词列表L=[w1,w2,…,wk],其语义向量A计算方式为:
其中vw是词w的词向量;
S7、计算关键词列表语义向量A与初筛之后的媒体号语义向量S的相似度:
其中A·S表示两个向量的内积,为向量A的L2范数,为向量S的L2范数;
S8、基于语义的媒体号细筛选:综合步骤S7算出的相似度以及设定的筛选条件,利用预先设定的每个筛选条件的权重,算出最终的媒体匹配值,从高到低取前K个形成待选媒体号列表。
步骤S1中,所述媒体号的文章内容是通过网络爬虫和官方API爬取的。
所述步骤S1、S2、S3、S4是离线计算,定期更新即可;所述步骤S5、S6、S7、S8是在线计算,对每个新的广告推广实时自动推荐出待选媒体号列表。
步骤S5、S8中,所述筛选条件包括媒体号价位、档期、广告类别。
步骤S1中,所述自然语言处理工具包括OpenNLP、LTP。
本发明与现有技术相比,具有如下优点和有益效果:
将本发明应用在微信公众号投放的选号上,测试了5个广告。首先人工为每个广告选择了10个待选的公众号,然后应用该技术为每个广告自动选出前20个公众号。对比结果发现,人工选出的公众号80%被自动选出的前20个公众号覆盖,证明了该技术的有效性。
相比人工选号,本发明在5秒之内即可提供前20个待选公众号,速度大幅提升。
附图说明
图1为本发明所述一种基于语义分析的智能媒介推荐方法的流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1,一种基于语义分析的智能媒介推荐方法的流程图,包含以下顺序的步骤:
(1)利用网络爬虫爬取微信10万个媒体号发布的文章内容。
(2)对每个媒体号,利用LTP-Cloud工具包将其每篇文章分段、分句、分词。最终将这个媒体号的所有文章合并成一个大文章,文章中的每句是分完词的句子。
(3)使用gensim工具训练词向量模型,选取隐藏层大小为100,词的上下文窗口为5,负例样本数为5。
(4)计算每个词的逆文档频率(IDF),将上一步的词向量模型以及此步的IDF模型保存。
(5)计算媒体号文章语义向量。
(6)媒体号初筛。通过对媒体号价位、档期、广告类别等条件的选择,初筛出前50个待挑选的媒体号。
(7)计算关键词列表语义向量,与前50个媒体号的文章语义向量计算余弦相似度。
(8)给语义相似度、媒体号价位匹配度、档期匹配度设定权重,分别是0.6,0.2,0.2,算出最终的加权媒体匹配值,从高到低取前20个形成待选媒体号列表。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
机译: 智能设备的场景模式推荐方法,智能设备的场景模式推荐设备,基于场景模式的智能设备控制方法,基于场景模式的智能设备控制设备,程序和记录介质
机译: 以场景模式推荐智能设备的方法,智能设备场景或推荐设备基于场景的漂亮设备控制方法,基于漂亮的设备控制单元,程序和记录介质
机译: 利用人工智能概念匹配和隐含语义分析生成多媒体推荐的系统和方法