首页> 中国专利> 一种实现互联网宣传监测目标评估的方法及装置

一种实现互联网宣传监测目标评估的方法及装置

摘要

本申请公开了一种实现互联网宣传监测目标评估的方法及装置,包括:根据配置信息从选定的数据源中获取宣传监测目标的网页信息;对获取的各网页信息进行网站特征字分离,以获得相应的标题、正文、统计正文字数信息;对所述获得的各网页信息中的标题和正文进行分词处理且提取关键字,并分别计算宣传监测目标的各网页信息的信息量;根据各网页信息的信息量确定宣传监测目标的宣传力度信息。通过本发明获取选定的数据源的网页信息,对宣传监测目标网页信息进行网站特征字分离、分词处理,实现通过处理获得的信息,获取宣传力度信息,通过宣传力度信息的分析可以为企业进行文章投放提供有力的分析数据。

著录项

  • 公开/公告号CN103646078A

    专利类型发明专利

  • 公开/公告日2014-03-19

    原文格式PDF

  • 申请/专利号CN201310676421.1

  • 发明设计人 王君鹤;曲武;

    申请日2013-12-11

  • 分类号G06F17/30(20060101);

  • 代理机构11262 北京安信方达知识产权代理有限公司;

  • 代理人白莹;栗若木

  • 地址 100193 北京市海淀区东北旺西路8号中关村软件园21号楼启明星辰大厦

  • 入库时间 2024-02-19 22:53:23

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-01-25

    授权

    授权

  • 2014-04-16

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20131211

    实质审查的生效

  • 2014-03-19

    公开

    公开

说明书

技术领域

本申请涉及互联网领域,尤指一种实现互联网宣传监测目标评估的方法 及装置。

背景技术

随着商业活动节奏的不断加快,企业生存和发展不仅需要最佳的决策, 还需要决策制定的效率足够迅速。充足的数据信息和对数据信息进行有效的 处理,对企业提出正确的决策有重要的作用。通过对网络信息的分析了解, 可以实现企业合理的利用网络信息来为企业作合理推广。通过数据信息的分 析可以得到在成本最低、效果最好的网站上投放适合企业主题的文章,可以 实现文章投放的最佳收益。

伴随着互联网的广泛应用,企业从网络中获得大量信息,以进行决策分 析,从网络中获得信息的方法相对于其它渠道具有免费或廉价、易得、内容 丰富等优势,是当前情报信息搜集的一个重要来源。但是,网络信息存在以 下问题:信息量过大、转载源无法确定、重复链接、内容重复、存在不包含 正文信息的链接等。目前,对网络信息的搜集和整理仍采用人工的方式,由 于在数据采集过程中存在着大量重复的机械性的操作,利用人工实现存在着 低效、缺乏周期性、主观因素造成的操作失误难以被发现而无法排除、重复 信息过滤困难等。对于获取的网页信息如何进行有效的效果分析,目前还没 有统一的可以使用的方法在市场上进行推广应用,各企业根据他们获得的大 量数据,采用各自认为合理的方式,进行相关的信息估算,对于估算获得的 信息,其效果如何也未曾有相关的数据和案例可以进行分析。

因此,目前采用网络信息进行数据整理的方法,采用人工的方式存在低 效、缺乏周期性、存在操作失误且无法排除等问题,另外,数据量过于庞大 的网络信息,存在一定的成本浪费,且采用全部网络数据存在信息重点被淹 没、无效信息难以排除等问题;对于媒体宣传效果分析,目前还没有有效和 系统的分析方法形成,因此,无法对获取的网页信息进行有效处理。

发明内容

为了解决上述问题,本发明提供一种实现互联网宣传监测目标评估的方 法及装置,能够对宣传监测目标的网页信息的进行有效获取,对网页信息进 行数据处理和分析,提供企业在网络上进行文章投放的依据。

为了达到本发明的目的,本发明提供一种实现互联网宣传监测目标评估 的方法,包括:

根据配置信息从选定的数据源中获取宣传监测目标的网页信息;

对获取的各网页信息进行网站特征字分离,以获得相应的标题、正文、 统计正文字数信息;

对所述获得的各网页信息中的标题和正文进行分词处理且提取关键字, 并分别计算宣传监测目标的各网页信息的信息量;

根据各网页信息的信息量确定宣传监测目标的宣传力度信息。

进一步地,信息量的计算为:网页信息的中文字数与相同网页的个数的 乘积;

根据各网页信息的信息量确定宣传监测目标的宣传力度信息包括:

将所述各网页信息的信息量与相应的权重进行乘积计算,并对所有网页 信息的乘积计算进行积分,获得宣传监测目标的宣传力度信息;其中,权重 为:网页信息中,若标题中包含关键字,则赋值权重为ρ;若正文包含关键字, 则赋值权重为1;当都包含关键字,则赋值为ρ+1;其中ρ大于1。

进一步地,选定的数据源为:新闻元搜索、和/或定点网站。

进一步地,在对所述网页信息进行网站特征字分离之前,该方法还包括: 对所述获取的网页信息进行链接去重。

进一步地,所述选定的数据源为新闻元搜索,且所述链接为未加密链接 时,所述链接去重包括:

采用布隆过滤器(Bloom Filter)算法过滤重复链接;过滤后,

选择任意所述新闻元搜索中的一个的网页信息作为初始列表;

采用simHash方法计算所述新闻元搜索中的其余新闻元搜索获得的网页 信息的散列哈希(Hash)值,根据Hash值判断是否发生碰撞;发生碰撞,则 删除链接;未发生碰撞,则更新初始列表。

进一步地,选定的数据源为新闻元搜索,且所述链接为加密链接时,所 述链接去重包括:

将加密链接和所述过滤后的未加密链接的原始网页,通过网站特征字分 离出标题、正文、网站栏目、转载来源、点击率、评论率,统计正文字数信 息;

对比加密链接的网页与未加密链接的网页,生成未加密链接的网站和栏 目的Hash散列;

采用simHash的方法计算加密链接的网站和栏目的Hash值,如果都产生 碰撞,则对比从网页中分离出的正文的字数,如果字数也相同则视为相同链 接,保留相同链接中的一个链接,其余删除。

进一步地,选定的数据源为定点网站,所述链接去重包括:

判断所述获得的网页地址是否为列表链接地址,当为列表链接地址时, 删除该网页信息的链接地址;若不是,则继续进行网站特征字分离。

进一步地,在进行网站特征字分离后,该方法还包括:将从定点网站获 取的网页信息的正文进行simHash算法分析,将判定为相似的新闻进行合并。

进一步地,获得所述链接去重信息后,该方法还包括:将所述链路去重 后的链接进行链接类型识别,将获得的链接识别区分为:原文链接、列表链 接和引用链接;删除列表链接和引用链接。

进一步地,该方法还包括:对原文链接对应的网页信息的正文,进行正 确性判断,删除正文正确性判断为无效的网页信息;

所述正确性判断为:对网页信息的正文进行字数统计,当正文字数不超 过20字时,判断为该正文对应的网页信息为无效。

进一步地,该方法还包括:周期性获取宣传监测目标的新增网页信息。

进一步地,该方法还包括:对分词处理后的网页信息进行类型词识别, 根据专家知识数据库的类型词,获取网页信息中在同一领域不同倾向上专家 知识数据库里存在的关键字,进行企业不同类型词对应的宣传力度信息计算, 获得企业在不同倾向的宣传力度比对信息。

进一步地,类型词识别为:将获得的网页信息,通过与类型特征词数据 库进行对比识别,获得反映网页信息内容的类型的词语;

所述类型特征词数据库包含技术特征词、财经股市特征词、招投标特征 词,其它类型词根据关注的企业类型进行增减。

进一步地,网站特征字分离还获得网站栏目信息;所述链接去重还获得 链接去重删除的链接个数信息;该方法还包括:根据宣传监测目标的网页信 息的网站栏目信息,确定宣传监测目标的网页信息被元搜索引擎网站收录的、 包含链接去重删除的链接在内的链接个数信息,获得文章发布效果信息;

所述文章发布效果与元搜索引擎网站收录个数成正比。

进一步地,网站特征字分离还获得转载信息;该方法还包括:

对所述宣传监测目标的初始发布的各网站的直接转载、和被直接转载后 的各网站的间接转载进行记录和统计;

计算直接转载统计数值与间接转载统计数值之商、获得转载增益度信息; 根据转载增益度信息,获得企业发布网页信息的成本和宣传效果信息;

所述转载增益度与宣传监测目标发布网页信息的成本成反比,与宣传效 果成正比。

进一步地,当获得的宣传监测目标的网页信息的转载信息缺省转载源时, 该方法还包括:

将所述获取的网页信息的来源网站按信息发表时间排序,对时间排序中 包含的总的时间区间进行分段,且每一时间段长度相同;其中,分段的数量 与总的时间区间长度成正比;

对缺省转载源的网页信息所在时间段之前的全部时间段内的网页信息, 设置同一时间段内的各网页信息具有相同的被转载概率,且从与所述缺省转 载源的网页信息所在时间段相邻的时间段开始至时间间隔最长的网页信息被 转载概率依次变小,计算网页信息采用各关键字作为检索词下的相应的被转 载概率;

累加所述各网页信息的所有检索词下被转载概率,将被转载概率最大的 网页信息设定为缺省转载源网页信息的转载源。

进一步地,分段的数量与总的时间区间长度成正比包括:

当总的时间区间长度大于10天时,分段的数量为5;当总的时间区间长 度小于10天时,分段的数量为2~5之间。

进一步地,网站特征字分离还获得:元素标识符,网页链接的点击数、 评论数信息,该方法还包括:采用TOP-K算法,以网页链接作为元素标识符, 网页链接的点击数、评论数、直接转载次数、间接转载次数、转载增益度作 为元素的属性参数,获得最适宜投放宣传监测目标的文章的K个网站信息。

另一方面,本发明还提供一种实现互联网宣传监测目标评估的装置,包 括:获取单元、网站特征字分离单元、分词单元及宣传力度分析单元;其中,

获取单元,用于根据配置信息从选定的数据源中获取宣传监测目标的网 页信息;

网站特征字分离单元,用于分离获取单元获取的各网页信息,以获得相 应的标题、正文、统计正文字数信息;

分词单元,用于对网站特征字分离单元输出的各网页信息的标题和正文 进行分词处理且提取关键字;

宣传力度分析单元,用于根据各网页信息的信息量确定宣传监测目标的 宣传力度信息。

进一步地,信息量的计算为:网页信息的中文字数与相同网页的个数的 乘积;

所述根据各网页信息的信息量确定宣传监测目标的宣传力度信息包括:

将所述各网页信息的信息量与相应的权重进行乘积计算,并对所有网页 信息的乘积计算进行积分,获得宣传监测目标的宣传力度信息;其中,权重 为:网页信息中,若标题中包含关键字,则赋值权重为ρ;若正文包含关键字, 则赋值权重为1;当都包含关键字,则赋值为ρ+1;其中ρ大于1。

进一步地,选定的数据源为:

新闻元搜索、和/或,定点网站。

进一步地,该装置还包括链接去重单元,用于,对所述获取单元获得的 网页信息进行链接去重。

进一步地,选定的数据源为新闻元搜索,且所述链接为未加密链接时, 所述链接去重包括:

采用布隆过滤器(Bloom Filter)算法过滤重复链接;过滤后,

选择任意所述新闻元搜索中的一个的网页信息作为初始列表;

采用simHash方法计算所述新闻元搜索中的其余新闻元搜索获得的网页 信息的散列哈希(Hash)值,根据Hash值判断是否发生碰撞;发生碰撞,则 删除链接;未发生碰撞,则更新初始列表。

进一步地,选定的数据源为新闻元搜索,且所述链接为加密链接时,所 述链接去重包括:

将加密链接和所述过滤后的未加密链接的原始网页,通过网站特征字分 离出标题、正文、网站栏目、转载来源、点击率、评论率,统计正文字数信 息;

对比加密链接的网页与未加密链接的网页,生成未加密链接的网站和栏 目的Hash散列;

采用simHash的方法计算加密链接的网站和栏目的Hash值,如果都产生 碰撞,则对比从网页中分离出的正文的字数,如果字数也相同则视为相同链 接,保留相同链接中的一个链接,其余删除。

进一步地,选定的数据源为定点网站,所述链接去重包括:

判断所述获得的网页地址是否为列表链接地址,当为列表链接地址时, 删除该网页信息的链接地址;若不是,则继续进行网站特征字分离。

进一步地,该装置还包括合并单元,用于将从定点网站获取的网页信息 在进行网站特征字分离后,对正文进行simHash算法分析,将判定为相似的 网页信息进行合并。

进一步地,该装置还包括链接类别识别单元,连接于链接去重单元和分 词单元之间,用于将所述链接去重单元获得的链接进行链接类型识别,将获 得的链接识别区分为:原文链接、列表链接和引用链接;删除列表链接和引 用链接。

进一步地,该装置还包括正确性判断单元,用于对链接类型识别单元获 得的原文链接的网页信息的正文,进行正确性判断,删除正文正确性判断为 无效的网页信息;

所述正确性判断为:对网页信息的正文进行字数统计,当正文字数不超 过20字时,判断为该正文对应的网页信息为无效。

进一步地,该装置还包括增量获取单元:用于周期性获取宣传监测目标 网页的新增网页信息。

进一步地,该装置还包括宣传力度比对单元,用于根据分词处理后的网 页信息进行类型词识别,根据专家知识数据库的类型词,获取网页信息中在 同一领域不同倾向上专家知识数据库里存在的关键字,进行企业不同类型词 对应的宣传力度信息计算,获得企业在不同倾向的宣传力度比对信息。

进一步地,类型词识别为:将获得的网页信息,通过与类型特征词数据 库进行对比识别,获得反映网页信息内容的类型的词语;

所述类型特征词数据库包含技术特征词、财经股市特征词、招投标特征 词,其它类型词根据关注的企业类型进行增减。

进一步地,网站特征字分离单元还获得网站栏目信息;所述链接去重单 元还获得链接去重删除的链接个数信息;该装置还包括发布效果分析单元, 用于根据宣传监测目标的网页信息的网站栏目信息,确定宣传监测目标的网 页信息被元搜索引擎网站收录的、包含链接去重删除的链接在内的链接个数 信息,获得文章发布效果信息;

所述文章发布效果与元搜索引擎网站收录个数成正比。

进一步地,网站特征字分离单元还获得转载信息;该装置还包括转载增 益度单元,用于对所述宣传监测目标的初始发布的各网站的直接转载、和被 直接转载后的各网站的间接转载进行记录和统计;计算直接转载统计数值与 间接转载统计数值之商、获得转载增益度信息;根据转载增益度信息,获得 企业发布网页信息的成本和宣传效果信息;

所述转载增益度与宣传监测目标发布网页信息的成本成反比,与宣传效 果成正比。

进一步地,当获得的宣传监测目标的网页信息的转载信息缺省转载源时, 该装置还包括转载源确定单元,用于将所述获取的网页信息的来源网站按信 息发表时间排序,对时间排序中包含的总的时间区间进行分段,且每一时间 段长度相同;其中,分段的数量与总的时间区间长度成正比;

对缺省转载源的网页信息所在时间段之前的全部时间段内的网页信息, 设置同一时间段内的各网页信息具有相同的被转载概率,且从与所述缺省转 载源的网页信息所在时间段相邻的时间段开始至时间间隔最长的网页信息被 转载概率依次变小,计算网页信息采用各关键字作为检索词下的相应的被转 载概率;

累加所述各网页信息的所有检索词下被转载概率,将被转载概率最大的 网页信息设定为缺省转载源网页信息的转载源。

进一步地,分段的数量与总的时间区间长度成正比;包括:

当总的时间区间长度大于10天时,分段的数量为5;当总的时间区间长 度小于10天时,分段的数量为2~5之间。

进一步地,网站特征字分离单元还获得:元素标识符,网页链接的点击 数、评论数信息,该装置还包括投放最优单元,用于根据TOP-K算法,以网 页链接作为元素标识符,网页链接的点击数、评论数、直接转载次数、间接 转载次数、转载增益度作为元素的属性参数,获得最适宜投放宣传监测目标 的文章的K个网站信息。

本发明提出一种技术方案,包括:根据配置信息从选定的数据源中获取 宣传监测目标的网页信息;对获取的各网页信息进行网站特征字分离,以获 得相应的标题、正文、统计正文字数信息;对所述获得的各网页信息中的标 题和正文进行分词处理且提取关键字,并分别计算宣传监测目标的各网页信 息的信息量;根据各网页信息的信息量确定宣传监测目标的宣传力度信息。 通过本发明获取选定的数据源数据,对宣传监测目标网页信息进行网站特征 字分离、分词处理,实现通过处理获得的信息,获取宣传力度信息,通过宣 传力度信息的分析可以为企业进行文章投放提供有力的分析数据。

另一方面,本发明还通过对不同的类型词,计算宣传监测目标在同一领 域不同倾向的宣传力度比较信息,通过网页信息被元搜索网站的收录情况, 网页信息的转载增益度等信息对文章投放的效果和成本等进行分析。

再一方面,本发明通过TOP-K算法,以链接作为元素标识符,链接的点 击数、评论数、直接转载次数、间接转载次数、转载增益度作为元素的属性 参数,获得最适宜投放宣传监测目标发布的K个网站信息。

附图说明

附图用来提供对本申请技术方案的进一步理解,并且构成说明书的一部 分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请 技术方案的限制。

图1为本发明实现互联网宣传监测目标评估的方法的流程图;

图2为本发明实现互联网宣传监测目标评估的装置的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白,下文中将结合附图 对本申请的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申 请中的实施例及实施例中的特征可以相互任意组合。

图1为本发明实现互联网宣传监测目标评估的方法的流程图,如图1所 示,包括:

步骤100、根据配置信息从选定的数据源中获取宣传监测目标的网页信 息。

本步骤中,选定数据源为:新闻元搜索、和/或,定点网站。

需要说明的是,配置信息为人为设定或者从现有的网页信息获取涉及的 数据库等获得,只是为了用于限定获取宣传监测目标而设定,这里的宣传监 测目标为背景技术中涉及的需要企业进行相关活动而投放在互联网上的文章 信息。虽然获得网页信息的方法很多,但是过多的数据和信息量小的数据, 对于企业对相关信息的分析获取,并不存在实际意义。

步骤101、对获取的各网页信息进行网站特征字分离,以获得相应的标题、 正文、统计正文字数信息。

需要说明的是,网站特征字分离的方法,为现有的技术,用于将获取的 网页信息进行分离整理,整理出来的信息内容包括:标题、正文、网站栏目、 转载来源、点击率、评论率,统计正文字数等信息等。在本发明后续的内容 中,涉及到网站特征字分离都是包括相同的内容,只是在不同的权利要求项 中,用到了其中的部分信息而已,之后的内容将不再陈述。表1为网站特征 字分离的一个实例列表,检索关键字为配置信息的内容。

表1

表1为网站特征字分离的示例

在对网页信息进行网站特征字分离之前,本发明方法还包括:

对获取的网页信息进行链接去重。

进一步地,选定的数据源为新闻元搜索,且所述链接为未加密链接时, 所述链接去重包括:

采用布隆过滤器(Bloom Filter)算法过滤重复链接;过滤后,

选择任意所述新闻元搜索中的一个的网页信息作为初始列表;

采用simHash方法计算所述新闻元搜索中的其余新闻元搜索获得的网页 信息的散列哈希(Hash)值,根据Hash值判断是否发生碰撞;发生碰撞,则 删除链接;未发生碰撞,则更新初始列表。

需要说明的是Bloom Filter算法和simHash方法都属于现有技术,Bloom  Filter算法主要应用于数据挖掘等网页链接的过滤,是数据过滤领域技术人员 惯用的技术手段。simHash是用作文本查重的一种Hash方法,相似的文本具 有相似的Hash值,如果两个文本的simHash越接近,也就是距离越小,文本 就越相似。simHash方法通过Hash值进行碰撞判断,Hash值的大小在simHash 方法中,设定了一定范围的默认值,当然根据数据统计分析,在方法应用时, 其数值范围可以进行一定的调整。

进一步地,选定的数据源为新闻元搜索,且所述链接为加密链接时,所 述链接去重包括:

将加密链接和所述过滤后的未加密链接的原始网页,通过网站特征字分 离出标题、正文、网站栏目、转载来源、点击率、评论率,统计正文字数信 息;

对比加密链接的网页与未加密链接的网页,生成未加密链接的网站和栏 目的Hash散列;

采用simHash的方法计算加密链接的网站和栏目的Hash值,如果都产生 碰撞,则对比从网页中分离出的正文的字数,如果字数也相同则视为相同链 接,保留相同链接中的一个链接,其余删除。

进一步地,选定的数据源为定点网站,所述链接去重包括:

判断所述获得的网页地址是否为列表链接地址,当为列表链接地址时, 删除该网页信息的链接地址;若不是,则继续进行网站特征字分离。

另一方面,在进行网站特征字分离后,本发明方法还包括:将从定点网 站获取的网页信息的正文进行simHash算法分析,将判定为相似的新闻进行 合并。

再一方面,获得所述链接去重信息后,本发明方法还包括:将链路去重 后的链接进行链接类型识别,将获得的链接识别区分为:原文链接、列表链 接和引用链接;删除列表链接和引用链接。

需要说明的是,进行链接类型识别的方法为:通过链接的特征字符组进 行识别,例如“.tag.”为列表链接的一个特征字符组。其实现方式为本领域技 术人员惯用技术手段,在此不再赘述。

本步骤中,本发明方法还包括:对原文链接对应的网页信息的正文,进 行正确性判断,删除正文正确性判断为无效的网页信息;

所述正确性判断为:对网页信息的正文进行字数统计,当正文字数不超 过20字时,判断为该正文对应的网页信息为无效。

步骤102、对所述获得的各网页信息中的标题和正文进行分词处理且提取 关键字,并分别计算宣传监测目标的各网页信息的信息量。

需要说明的是,分词处理是为了获得可以对进行信息量计算及相关分析 的需要,分词处理为现有技术,本领域技术人员不需要付出创造性劳动就可 以获得。

需要说明的是,提取关键字是指,对分词后的词语进行频率统计,按照 企业需求设定数目,在频率统计结果中,确定频率最高的设定数目的词语作 为关键字。根据宣传监测目标涉及的内容和企业的需求,词频的大小根据实 际情况进行设定,当与宣传监测目标实质内容相关的关键字,那么可以认为 该字或词,为与宣传监测目标相关的关键字。

以下以计算公式,对单独的一个网页信息的信息量(Inf)获取进行举例:

Inf=Cword×Nsim

其中,Cword表示单个链接正文字数,Nsim相同新闻数。

步骤103、根据各网页信息的信息量确定宣传监测目标的宣传力度信息。

本步骤中,信息量的计算为:网页信息的中文字数与相同网页的个数的 乘积;

根据各网页信息的信息量确定宣传监测目标的宣传力度信息包括:

将各网页信息的信息量与相应的权重进行乘积计算,并对所有网页信息 的乘积计算进行积分,获得宣传监测目标的宣传力度信息;其中,权重为: 网页信息中,若标题中包含关键字,则赋值权重为ρ;若正文包含关键字,则 赋值权重为1;当都包含关键字,则赋值为ρ+1;其中ρ大于1。

由步骤103获得是信息量,进一步计算可得宣传监测目标的宣传力度信 息为所有网页信息的Inf*ρ的积分。

需要说明的是,在进行企业所关注的宣传监测目标宣传力度信息计算时, 可能会对全部时间段的宣传力度信息进行分析,或者对部分时间段的信息进 行分析,相应的获取全部或者部分的时间段信息即可,本发明还包括在相关 基础上的信息分析,其网页信息获取,根据实际情况进行设定。

本发明方法还包括:周期性获取宣传监测目标的新增网页信息。

需要说明的是,这里采用的周期可以按照数据统计结果、企业分析设定、 和采用不同的估算方法计算的周期,对于新增网页信息,一般采用网页信息 中的时间信息进行界定。

本发明方法还包括:对分词处理后的网页信息进行类型词识别,根据专 家知识数据库的类型词,获取网页信息中在同一领域不同倾向上专家知识数 据库里存在的关键字,进行企业不同类型词对应的宣传力度信息计算,获得 企业在不同倾向的宣传力度比对信息。

需要说明的是,专家知识数据库包括:新闻类型特征词、中文姓氏数据 库、会议名称数据库、公司名称数据库、产品名称数据库、学术机构名称数 据库、网站特征字数据库,此部分为现有的数据信息,根据信息变化和企业 特点,可以在本发明信息分析时进行适当的增加和删除。

类型词识别为:将获得网页信息,通过与类型特征词数据库进行对比识 别,获得反映网页信息内容的类型的词语。类型特征词数据库包含技术特征 词、财经股市特征词、招投标特征词,其它类型词根据关注的企业类型进行 增减。

网站特征字分离还获得网站栏目信息;链接去重还获得链接去重删除的 链接个数信息;本发明方法还包括:根据宣传监测目标的网页信息的网站栏 目信息,确定宣传监测目标的网页被元搜索引擎网站收录的、包含链接去重 删除的链接在内的链接个数信息,获得文章发布效果信息。

文章发布效果与元搜索引擎网站收录个数成正比。

需要说明的是,这里的发布效果,是指在网页信息发布后,当信息宣传 效果较好时,元搜索引擎百度、谷歌、必应等会对企业发布的网页信息进行 收录。如果被收录,说明企业发布信息效果很好,受到元搜索引擎的关注, 反之,如果没有被收录,则在元搜索引擎中将不会被查找到,此时对于搜索 时使用量最大的元搜索引擎而言,没有这些元搜索引擎收录,就很难被使用 元搜索引擎的用户获得,其发布效果就不是很好。对于被元搜索引擎的链接, 在进行搜索时,尽管会有重复链接出现,但是重复链接仍可以很好的体现网 页信息的发布效果,因此在进行发布效果分析时,链接去重删除的链接个数 信息也需要进行统计。

网站特征字分离还获得转载信息;本发明方法还包括:对宣传监测目标 的初始发布的各网站的直接转载、和被直接转载后的各网站的间接转载进行 记录和统计;

计算直接转载统计数值与间接转载统计数值之商、获得转载增益度信息; 根据转载增益度信息,获得企业发布网页信息的成本和宣传效果信息;

所述转载增益度与宣传监测目标发布网页信息的成本成反比,与宣传效 果成正比。

需要说明的是,如果转载增益度高,说明发布网站被转载的概率高,也 就是说宣传效果好,对于企业而言,只需要在一定量这样的网站进行文章发 布就可。因此其成本较低。相反,如果转载增益度低,说明文章发布不容易 被转载,如果企业在这样的网站上进行网页信息发布,则需要大量的网页信 息发布,才可能实现上述的一定量的网站进行网页发布的效果。

进一步地,当获得的宣传监测目标的网页信息的转载信息缺省转载源时, 本发明方法还包括:

将所述获取的网页信息的来源网站按信息发表时间排序,对时间排序中 包含的总的时间区间进行分段,且每一时间段长度相同;其中,分段的数量 与总的时间区间长度成正比;

对缺省转载源的网页信息所在时间段之前的全部时间段内的网页信息, 设置同一时间段内的各网页信息具有相同的被转载概率,且从与所述缺省转 载源的网页信息所在时间段相邻的时间段开始至时间间隔最长的网页信息被 转载概率依次变小,计算网页信息采用各关键字作为检索词下的相应的被转 载概率;

累加所述各网页信息的所有检索词下被转载概率,将被转载概率最大的 网页信息设定为缺省转载源网页信息的转载源。

进一步地,分段的数量与总的时间区间长度成正比包括:

当总的时间区间长度大于10天时,分段的数量为5;当总的时间区间长 度小于10天时,分段的数量为2~5之间。

需要说明的是,当总的时间区间长度小于10天时,一般的设置分段的每 一段时间长度为两天,最后一个时间段可小于两天。

为了更加清楚的说明本发明确定转载源的方法,进行下述假设说明,假 设第一时间段内的信息为初始发布网站,设置时间段相等,此后每一时间段 内的网页信息均视为转自之前所有时间段内的某一网站,与转载源时间段越 接近,则从这个时间段内的网站进行网页信息转载的概率越高,例如:文章1 的数据共分5个时间段,则第5时间段内的网页信息转载自前4个时间段内 的可能性依次为a、b、c、d,其中a<b<c<d,当然,可以设置相应的区分 概率范围,或按照时间段数进行分配概率的变化程度,或按照每个时间段内 网页变化设定概率变化大小,当然也可以设定a、b、c、d的和为1,以便于 概率的计算,根据确定的关键字作为检索词,获得相应的不同时间段不同网 页被转载的概率,将各网页信息的所有检索词下被转载的概率累加,被转载 概率最大的网页信息被设定为缺省转载源网页信息的转载源。

网站特征字分离还获得:元素标识符,网页链接的点击数、评论数信息, 本发明方法还包括:采用TOP-K算法,以网页链接作为元素标识符,网页链 接的点击数、评论数、直接转载次数、间接转载次数、转载增益度作为元素 的属性参数,获得最适宜投放宣传监测目标的文章的K个网站信息。

需要说明的是,TOP-K算法是现有算法,通过设置K值大小,可以获得 企业需要进行文章投放K个网站的信息,通过该算法,企业可以选择最适宜 的这K个网站进行文章发布。

具体步骤如下:

1、将网页信息中的链接作为元素标识符,网页信息的点击数、评论数、 直接转载次数、间接转载次数、转载增益度作为元素的属性信息;

2、遍历前K个元素构建小顶堆;

3、对下一元素,小于顶点,跳过;大于顶点,替换之;

4、重新堆化;

5、重复3-4步至遍历至最后一个元素。

通过以上步骤获得的小顶堆为最适宜投放该领域文章的K个网站。

需要说明的是,本发明以上数据,通过数据库的方式来实现,对于实现 方式,为本领域技术人员常用技术手段,在此不再赘述。

图2为本发明实现互联网宣传监测目标评估的装置的结构框图,如图2 所示,获取单元、网站特征字分离单元、分词单元及宣传力度分析单元;其 中,

获取单元,用于根据配置信息从选定的数据源中获取宣传监测目标的网 页信息。

选定的数据源为:新闻元搜索、和/或,定点网站。

网站特征字分离单元,用于分离获取单元获取的各网页信息,以获得相 应的标题、正文、统计正文字数信息。

分词单元,用于对网站特征字分离单元输出的各网页信息的标题和正文 进行分词处理且提取关键字。

宣传力度分析单元,用于根据各网页信息的信息量确定宣传监测目标的 宣传力度信息。

信息量的计算为:网页信息的中文字数与相同网页的个数的乘积;

根据各网页信息的信息量确定宣传监测目标的宣传力度信息包括:

将所述各网页信息的信息量与相应的权重进行乘积计算,并对所有网页 信息的乘积计算进行积分,获得宣传监测目标的宣传力度信息;其中,权重 为:网页信息中,若标题中包含关键字,则赋值权重为ρ;若正文包含关键字, 则赋值权重为1;当都包含关键字,则赋值为ρ+1;其中ρ大于1。

需要说明的是,提取关键字是指,对分词后的词语进行频率统计,按照 企业需求设定数目,在频率统计结果中,确定频率最高的设定数目的词语作 为关键字。

该装置还包括链接去重单元,用于对获取单元获得的网页信息进行链接 去重。

选定的数据源为新闻元搜索,且所述链接为未加密链接时,链接去重包 括:采用布隆过滤器(Bloom Filter)算法过滤重复链接;过滤后,选择任意 一个新闻元搜索的网页信息作为初始列表,采用simHash的方法计算其余元 搜索获得的网页信息的散列哈希(Hash)值,从Hash值判断是否发生碰撞; 发生碰撞,则删除链接;未发生碰撞,则更新初始列表。

选定的数据源为新闻元搜索,且所述链接为加密链接时,所述链接去重 包括:从加密链接和过滤后的未加密链接的原始网页,通过网站特征字分离 出标题、正文、网站栏目、转载来源、点击率、评论率,统计正文字数信息;

对比加密链接的网页与未加密链接的网页,生成未加密链接的网站和栏 目的Hash散列,采用simHash的方法计算加密链接的网站和栏目的Hash值, 如果都产生碰撞,则对比从网页中分离出的正文的字数,如果字数也相同则 视为相同链接,保留相同链接中的一个链接,其余删除。

选定的数据源为定点网站,所述链接去重包括:判断获得的网页地址是 否为列表链接地址,当为列表链接地址时,进行删除;若不是,则继续进行 网站特征字分离。

本发明装置还包括合并单元,用于将从定点网站获取的网页信息在进行 网站特征字分离后,对正文进行simHash算法分析,将判定为相似的网页信 息进行合并。

本发明装置还包括链接类别识别单元,连接于链接去重单元和分词单元 之间,用于将链接去重单元获得的链接进行链接类型识别,将获得的链接识 别区分为:原文链接、列表链接和引用链接;删除列表链接和引用链接。

本发明装置还包括正确性判断单元,用于对链接类型识别单元获得的原 文链接的网页信息的正文,进行正确性判断,删除正文正确性判断为无效的 网页信息;

正确性判断为:对网页信息的正文进行字数统计,当正文字数不超过20 字时,判断为该正文对应的网页信息为无效。

本发明装置还包括增量获取单元:用于周期性获取宣传监测目标网页的 新增网页信息。

进一步地,本发明装置还包括宣传力度比对单元,用于根据分词处理后 的网页信息进行类型词识别,根据专家知识数据库的类型词,获取网页信息 中在同一领域不同倾向上专家知识数据库里存在的关键字,进行企业不同类 型词对应的宣传力度信息计算,获得企业在不同倾向的宣传力度比对信息。

类型词识别为:将获得的网页信息,通过与类型特征词数据库进行对比 识别,获得反映网页信息内容的类型的词语;

类型特征词数据库包含技术特征词、财经股市特征词、招投标特征词, 其它类型词根据关注的企业类型进行增减。

网站特征字分离单元还获得网站栏目信息;链接去重单元还获得链接去 重删除的链接个数信息;本发明装置还包括发布效果分析单元,用于根据宣 传监测目标的网页信息的网站栏目信息,确定宣传监测目标的网页被元搜索 引擎网站收录的、包含链接去重删除的链接在内的链接个数信息,获得文章 发布效果信息;

文章发布效果与元搜索引擎网站收录个数成正比。

网站特征字分离单元还获得转载信息;本发明装置还包括转载增益度单 元,用于对宣传监测目标的初始发布的各网站的直接转载、和被直接转载后 的各网站的间接转载进行记录和统计;计算直接转载统计数值与间接转载统 计数值之商、获得转载增益度信息;根据转载增益度信息,获得企业发布网 页信息的成本和宣传效果信息;

转载增益度与宣传监测目标发布网页信息的成本成反比,与宣传效果成 正比。

本发明装置还包括,转载源确定单元,用当获得的宣传监测目标的网页 信息的转载信息缺省转载源时,该装置还包括转载源确定单元,用于将所述 获取的网页信息的来源网站按信息发表时间排序,对时间排序中包含的总的 时间区间进行分段,且每一时间段长度相同;其中,分段的数量与总的时间 区间长度成正比;

对缺省转载源的网页信息所在时间段之前的全部时间段内的网页信息, 设置同一时间段内的各网页信息具有相同的被转载概率,且从与所述缺省转 载源的网页信息所在时间段相邻的时间段开始至时间间隔最长的网页信息被 转载概率依次变小,计算网页信息采用各关键字作为检索词下的相应的被转 载概率;

累加所述各网页信息的所有检索词下被转载概率,将被转载概率最大的 网页信息设定为缺省转载源网页信息的转载源。

进一步地,分段的数量与总的时间区间长度成正比包括:

当总的时间区间长度大于10天时,分段的数量为5;当总的时间区间长 度小于10天时,分段的数量为2~5之间。

网站特征字分离单元还获得:元素标识符,网页链接的点击数、评论数 信息,本发明装置还包括投放最优单元,用于根据TOP-K算法,以网页链接 作为元素标识符,网页链接的点击数、评论数、直接转载次数、间接转载次 数、转载增益度作为元素的属性参数,获得最适宜投放宣传监测目标的文章 的K个网站信息。

虽然本申请所揭露的实施方式如上,但所述的内容仅为便于理解本申请 而采用的实施方式,并非用以限定本申请。任何本申请所属领域内的技术人 员,在不脱离本申请所揭露的精神和范围的前提下,可以在实施的形式及细 节上进行任何的修改与变化,但本申请的专利保护范围,仍须以所附的权利 要求书所界定的范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号