首页> 中国专利> 基于网络文本的地震宏观异常信息获取与筛选方法

基于网络文本的地震宏观异常信息获取与筛选方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明属于文本数据挖掘领域，提供一种基于网络文本的地震宏观异常信息获取与筛选方法，用于从互联网收集并筛选地震宏观异常文本信息。所述方法基于Heritrix框架，应用地震宏观异常主题描述词组，分别针对一般网页、贴吧和社交网络三种信息来源定制了从地震宏观异常主题相关性判别、链接排序到信息抽取的爬取策略，并进一步针对爬取到的主题相关网页，从主观句判别、文本主观性判别以及地震宏观异常匹配三个方面进行信息筛选。本发明为地震宏观异常信息的网络收集提供了科学、高效、准确的技术手段，极大提高了信息获取的效率。

著录项

公开/公告号CN104679825A

专利类型发明专利
公开/公告日2015-06-03

原文格式PDF
申请/专利权人中国农业大学;
展开▼

申请/专利号CN201510004864.5
发明设计人李林;方帅;曹津;张晓东;赵明明;王竹;叶思菁;姚晓闯;朱德海;
展开▼

申请日2015-01-06
分类号G06F17/30(20060101);
代理机构11002 北京路浩知识产权代理有限公司;
代理人李相雨
地址 100193 北京市海淀区圆明园西路2号
入库时间 2023-12-18 09:13:55

法律信息

法律状态公告日

法律状态信息

法律状态
2018-10-09

授权

授权
2015-07-01

实质审查的生效 IPC(主分类):G06F17/30 申请日:20150106

实质审查的生效
2015-06-03

公开

公开

说明书

技术领域

本发明属于文本数据挖掘领域，涉及一种基于网络文本的地震宏观异常信息获取与筛选方法，用于抓取地震主题网络文本并筛选出其中的地震宏观异常相关信息。

背景技术

随着如今通信手段的日益丰富，公众也经常通过网络将自己观察到的地震宏观异常传递给地震部门。同样，地震部门也可以利用信息技术手段，将互联网上的地震宏观异常信息收集起来，丰富自己的地震测报工作。但是随着信息技术的发展和人们对于网络的依赖程度的提高，互联网承载的信息愈发庞大。如何从大量的网络信息中获取并筛选出有用的地震宏观异常信息，是一个需要解决的问题。这也是地震机构对于网络上地震宏观异常信息缺乏利用的原因。获取网络信息主要使用爬虫技术，对于网络中公众发布的地震宏观异常信息，其显著特点是属于地震宏观异常这一同类主题，因此可以采用主题爬虫技术。而所获取的地震宏观异常信息为中文信息，且应当具有非主观性，因此对于通过爬虫爬取到的信息需要经过筛选，去除公众主观情绪影响的信息部分，这涉及到了文本的情感信息分类与筛选。

基于文本启发式的策略是最早出现的主题爬虫爬取策略。这一类爬取策略基于文本分析，实现起来较为简单，同时算法的计算量小，保证了效率，但是比较依赖主题描述的关键词，对于难以使用文字进行精确表示的主题实用性不佳。其后出现的基于Web链接分析的策略起源于S.Brin和L.Page的PageRank算法，这种算法由于需要考虑连接结构，计算量很大，而且抓取过程中主题容易发生偏离，其PR值的概念并不能完全等同于主题的相关度，因此这种策略的适用性不高。另外的，基于分类器的策略主要基于几种常用的分类数学模型，如贝叶斯分类器、SVM分类器、神经网络分类器等。然而，基于主题的分类器应用并未有人提出普遍的方法，而且在实现上有一定困难。

发明内容

针对现有技术中存在的上述问题，本发明提出一种能够高效地获取并筛选网络上地震宏观异常信息的方法。本发明选择符合数据采集要求的信息源，进行基于主题的信息获取，对抽取的文本信息进行主观情感信息的过滤与地震宏观异常信息匹配，实现网络文本地震宏观异常信息的高效准确获取。

为了达到上述目的，本发明采取如下技术方案：

一种基于网络文本的地震宏观异常信息获取与筛选方法，包括以下步骤：

S1、建立地震宏观异常信息的主题关键词库。

网络上公众地震宏观异常信息具备三大特点：1)包含是否与地震相关性判断；2)包含可能发生异常现象的自然事物主体；3)尽可能的客观性。其中第三点表明信息中含有尽量少的主观内容，这说明需要根据这个特点对信息做减法，前两个特点是对信息做加法。据此建立地震宏观异常信息的主题关键词库，共包括52个主题关键词，如表 1所示。

表1 52个主题关键词

S2、基于网页文本的地震宏观异常主题的信息获取。

S2.1、针对一般网页文本的地震宏观异常主题优先的信息获取。

(1)判断页面相关性。

根据已建立的主题关键词库，采取向量空间模型计算主题相关性：将关键词中的词语视为该向量空间的特征，建立关键词组特征向量：

MKW＝{(mk₁，w₁),(mk₂，w₂),...,(mk_n，w_n)}

EKW＝{(ek₁，w₁),(ek₂，w₂),...,(ek_m，w_m)}

其中，MKW为异常的事物主体关键词组特征向量，mk为事物主体关键词，n为事物主体关键词的数量；EKW为地震相关的关键词组特征向量，ek为地震相关关键词，m为地震相关关键词的数量；w为对应关键词在文档中出现的次数。

利用页面标签及内容对页面进行分块，得到页面内容块的特征向量：

CB＝{(cb₁，w₁),(cb₂，w₂),...,(cb_p，w_p)}

其中，CB为页面内容块特征向量，cb为某一具体内容块、w表示对应内容块cb在页面中出现次数、p为内容块的数量。

通过以上步骤，可以将当前待处理的页面文本特征化，使用向量表示当前页面。

采用向量夹角余弦计算主题相关度：

$Topic = \cos θ = \frac{Σ_{i = 1}^{n} Σ_{j = 1}^{m} Σ_{k = 1}^{p} W ({MKW}_{i}) W ({EKW}_{j}) W ({CB}_{k})}{\sqrt{(Σ_{i = 1}^{n} W^{2} ({MKW}_{i})) * (Σ_{j = 1}^{m} W^{2} ({EKW}_{j})) * (Σ_{k = 1}^{p} W^{2} ({CB}_{k}))}}$

其中，W代表权值，对于不同向量的权值，W的计算公式也不同。由于页面文本分为不同的文本块，因此对于异常的事物主体关键词组特征向量MKW，其第i个特征权值有：

$W ({MKW}_{i}) = Σ_{j = 1}^{p} \frac{{tf}_{i, j} * {tl}_{i} * {cbi}_{j}}{{cbL}_{j}}$

其中，tf_i,j为第i个关键词在第j个内容块中的词频，tl_i为第i个关键词的词长，cbL_j为第j个内容块的文本长度，cbi_j为第j个内容块的重要度。计算方法为该部分页面代码占页面内总代码的百分比。对于地震相关的关键词组特征向量ExtreKeyWords，其第i个特征权值为：

$W ({EKW}_{i}) = Σ_{j = 1}^{p} \frac{{tf}_{i, j} * {tl}_{i} * {cbi}_{j}}{{cbL}_{j}}$

对于页面内容块的特征向量CB，其第i个特征权值为：

$W ({CB}_{i}) {cbi}_{j} = \frac{cb {CL}_{j}}{CL}$

其中，cbCL_j为第i个内容块的代码长度，CL为当前页面的代码长度。

通过上述算法可以计算得出当前页面的相关度Topic。设阈值为R_t，当Topic>R_t时，认为当前页面符合地震宏观异常这个主题。R_t的值由试验确定。若文本不包含任何主题词，取Topic＝0。

(2)判断URL链接相关性。

得到页面的相关度后，需要对页面内的URL进行预测及排序。 URL相关度的计算一般考虑URL地址、锚文本、上下文相关度，在这里考虑锚文本和上下文相关度，使用页面相关度作为上下文相关度，计算公式为：

${Topic}_{url} = Topic * Σ_{i = 1}^{n} \frac{{tnf}_{i} * {tnl}_{i}}{urlL} * Σ_{i = 1}^{m} \frac{{tmf}_{i} * {tml}_{i}}{urlL}$

其中，Topic_url为上下文相关度，tnf、tmf分别为事物主体关键词和异常判别关键词的词频，tnl_i、tml_i分别为事物主体关键词和异常判别关键词的词长，urlL为锚文本长度。通过计算Topic_url并与URL队列中非初始URL比较排序，然后插入URL队列相应的位置中。

至此，完成URL访问策略的制定与主题相关性的分析，进入常规的爬虫工作流程。

(3)信息抽取。

一般网页由于包含网站较多，因此主要考虑页面的共性特点。网络页面不同于一般文档的纯文本，一般是HTML、JSP、PHP等语言写成的结构化文本，包含大量结构标签和其他信息，这些结构信息并不能表现网络页面文本信息的相关内容，只能作为一种文本结构的提示性信息。而最终展示在页面上的主要是结构化文本中的纯文本部分，因此在充分利用标签等信息后应当剔除这部分内容。常见的页面标签如表2所示。

表2常见的页面标签

不同的页面编码标准不尽相同，在解析页面信息前首先应当进行转码。其次在网页中，脚本信息通常占有大量空间，应当利用<script> 去除这类脚本信息块，剩下的部分基本是结构性的标签和文本信息。在网页的CSS样式中，通常使用<div>进行页面的分块，因此可以首先利用<div>标签将页面分为多个块。在此基础上，逐个计算每个div块内的文本与标签的比值。比值较大的连续的div块可以进行合并，这一部分可以视作为页面的正文块。在正文块中替换<br>、<p>等段落标签为\n，则可以较为完整的抽取出页面内的正文信息。同时，<tittle>标签包含中文标题部分，标签中属性包含author的一般为正文作者，包含 media_name的一般为正文转载来源，这些内容可以作为辅助信息，提高正文信息本身的可用性。

S2.2、针对社交网络文本的地震宏观异常主题优先的信息获取。

(1)判断页面相关性。

以微博为信息源。微博的主要采集目标为新浪微博。对于这一类信息由于微博服务商的限制，分析的数据主要为微博服务商提供的一部分数据，其中包含单条微博的被转发数，评论数，影响力，单条微博id以及用户id。因此选取被转发数，评论数，影响力作为影响因素之一。由于新浪微博的API有限制，并且需要登录，为了解决这个问题，同时为了补充现有数据的不足，可以利用新浪微博 http://s.weibo.com/这个地址进行免登陆的信息获取。新浪微博的页面相关性分析的目标文本为不超过140个字符的短文本，同样采取向量空间模型，建立关键词组特征向量：

MKW＝{(mk₁，w₁),(mk₂，w₂),...,(mk_n，w_n)}

EKW＝{(ek₁，w₁),(ek₂，w₂),...,(ek_m，w_m)}

使用向量夹角余弦来计算主题相关度：

$Topic = \cos θ = \frac{Σ_{i = 1}^{n} Σ_{j = 1}^{m} W ({MKW}_{i}) W ({EKW}_{j})}{\sqrt{(Σ_{i = 1}^{n} W^{2} ({MKW}_{i})) * (Σ_{j = 1}^{m} W^{2} ({EKW}_{j}))}}$

其中，W代表权值，对于不同向量的权值，其计算公式也不同。同时，由于页面文本分为不同的文本块，因此对于异常的事物主体关键词组特征向量MKW，其第i个特征权值为：

$W ({MKW}_{i}) = \frac{{tf}_{i, j} * {tl}_{i}}{cbL}$

其中，tf_i,j为关键词i在j内容块中的词频，tl_i为第i个关键词的词长，cbL为帖子内容文本长度。对于地震相关的关键词组特征向量 EKW，其第i个特征权值为：

$W ({EKW}_{i}) = \frac{{tf}_{i, j} * {tl}_{i}}{cbL}$

由于微博信息本身的短文本特性，因此可以在列表界面显示所有信息，不需要进行URL链接相关性的计算。

(2)信息抽取。

通过http://s.weibo.com/的进行地震关键词的搜索，得到的搜索结果会在每页显示20条记录，每条记录的文本信息包含在一段 javascript代码内，由于该段代码前后所包含的文本信息部分前后结构相同，可以使用正则表达式截取。截取该部分代码的正则表达式为：

nick-name.+？color:red.+？class＝\\”clear\\”>

S2.3、针对论坛网页文本的地震宏观异常主题优先的信息获取。

(1)判断页面相关性。

论坛主要采集目标为百度贴吧，百度贴吧是以主题分割不同的贴吧的，绝大部分同一主题的信息都会集中发布在这个主题的贴吧内，这正好符合我们进行地震宏观异常主题信息抽取的目的。在此我们选取的是地震吧。页面相关性分析的页面是帖子，选取的关键词组特征向量为可能发生异常的事物主体：

MKW＝{(mk₁，w₁),(mk₂，w₂),...,(mk_n，w_n)}

其中MKW为异常的事物主体关键词组特征向量。使用向量夹角余弦来计算主题相关度：

$Topic = \cos θ = \frac{Σ_{i = 1}^{n} ({MKW}_{i})}{\sqrt{(Σ_{i = 1}^{n} W^{2} ({MKW}_{i}))}}$

$W ({MKW}_{i}) = \frac{{tf}_{i, j} * {tl}_{i}}{cbL}$

其中，tf_i,j为关键词i在j内容块中的词频，tl_i为第i个关键词的词长，cbL为帖子内容文本长度。

(2)判断URL链接相关性。

百度贴吧的URL链接首地址为http://tieba.baidu.com/，贴吧名称先进行16进制转码，之后每两个字符间添加“％”作为转义符，并且在首部添加“f？kw＝”作为相对地址标记，例如百度贴吧内的地震吧，名称为地震，经过16进制转码后为B5D8D5F0，添加转义符“％”和相对地址标记“f？kw＝”后为 http://tieba.baidu.com/f？kw＝％B5％D8％D5％F0，这就是百度地震吧的地址。贴吧的每一页默认包含50个帖子，因此在贴吧地址后添加 “&pn＝(50*N)”也可以得到贴吧内指定页的地址。综上所述，进行百度贴吧信息获取时，URL链接可以表示为：

http://tieba.baidu.com/f？kw＝(％B5％D8％D5％F0)&pn＝(50*N)

在每一个贴吧的帖子列表页中，基本为锚文本，且不同锚文本之间基本与上下文无关，因此在分析贴吧的URL链接相关性时，只考虑锚文本，相关度计算公式为：

${Topic}_{url} = Σ_{i = 1}^{n} \frac{{tnf}_{i} * {tnl}_{i}}{urlL}$

其中，tnf_i为事物主体关键词的词频，tnl_i为事物主体关键词长，urlL 为锚文本长度。通过计算Topic_url并与URL队列中非初始URL比较排序，然后插入URL队列相应的位置中。至此，完成URL访问策略的制定与主题相关性的分析，进入常规的爬虫工作流程。

(3)信息抽取。

对于每一页内容进行解析时，每一个帖子的URL链接可以在<div class＝"search_internal_wrap j_search_internal">和<div class＝"thread_list_bottom clearfix">内解析到，为标签<a>的href属性值。在进入帖子后即可获取帖子的标题和每一层用户发布的信息以及信息发布的时间。

S3、地震宏观异常文本信息的筛选。

(1)情感词标记。

选取面对地震宏观异常现象时，人们可能表达出的愁苦、悲伤、慌乱、烦闷、急躁、惊讶、疑惑7大类共计123个词语作为基准，并根据文献资料中出现的动物异常情形，去除畏怯、惊骇、惊慌、惊惧、恐惧、惊恐共计6个词，剩余7大类117个词语作为标记文本主观情感信息的情感词，如表3所示。

表3标记文本主观情感信息的情感词

(2)观点词标记。

为了找出观点词，选取的训练集来自于新浪微博提供的18万条地震相关微博数据，从中人工抽取出1000条句子作为样本集A，样本集 A抽取的标准包括三点：不包含任何情感词，表达了信息发表者的个人观点，微博中每条句子包含主观信息。由于微博数据每一条均不超过140个字符，大部分只有一个句子构成，并且是用户一次完整的信息表达，这种短文本比较适合观点特征词的统计。另抽取1000条句子作为样本集B，样本集B的抽取标准只有一条，不属于用户表达观点的句子。对于抽取出的训练集，利用中文分词，将所有句子的最小组成元素由字符变为词语。统计所有句子中所有词语的词频，并人工去除停止词。所谓停止词，是指出现频率很高的词语，主要应用于搜索引擎中，防止这些词语影响关键词的排名。由于这些词几乎在所有语言表达中出现的频率都很高，没有考察意义。这里选取的停止词为“的、了、在、是、步、人、都、个、上、也、很、到、说、要、去、你、会、着、没有、看、好、自己、这”共23个。除此之外，由于这部分数据属于地震主题，应当人工剔除地震相关词语，减少干扰，如“地震、震级、震动”。这两类词语构成屏蔽词表，在计算重要性时不考虑这类词。

计算样本集A中词语的词频TF值，计算样本集A中的词语在B 中的逆文档频率IDF值，TF-IDF体现观点词的重要性以及与非主观信息的区分度。具体公式如下：

${TF}_{i, A} = \frac{n_{i, A}}{Σ_{k = 1}^{K} n_{k, A}}$

${IDF}_{i} = \log \frac{| DB |}{| 1 + {DB}_{t_{i}} |}$

TF-IDF_i＝TF_i,A×IDF_i

其中，n_i,A是词t_i在样本集A中出现的次数，为样本集A中所有词出现的次数总和，K为样本A中出现的观点词总数；|DB|是样本集的总文档数，是样本集B中出现词t_i的文档数，TF-IDF_i为最终的权值；经过计算得出最终权值最大的前7个词作为观点词“觉得、猜测、猜、可能、感觉、估计、应该”。

(3)基于句子的主观信息过滤。

对于公众地震宏观异常信息的主观信息分类而言，可视为分类依赖于情感词和观点词，可依据贝叶斯定理得到如下式子：

$P (subject | Emotion, Opinion) = \frac{P (subject) P (| Emotion, Opinion | subject)}{P (| Emotin, Opinion)}$

$P (object | Emotion, Opinion) = \frac{P (object) P (| Emotion, Opinion | object)}{P (| Emotin, Opinion)}$

根据最大后验概率规则，样本属于后验概率较大的那一类，则问题可以转化为比较P(subject│Emotion,Opinion)和P(object│ Emotion,Opinion)的问题，如果前者与后者比值Filter大于1则说明样本属于主观信息，Filter的表达式为：

$Filter = \frac{P (subject | Emotion, Opinion)}{P (object | Emotion, Qpinion)} = \frac{P (subject) P (| Emotion, Opinion | subject)}{P (object) P (| Emotin, Opinion | object)}$

由于情感词和观点词之间是相互独立的，则有：

$(\begin{matrix} P (| Emotion, Opinion | subject) = Π_{i = 1}^{n} P (| Emotio n_{i} | subject) Π_{j = 1}^{m} P (| Opinio n_{j} | subject) \\ = Π_{i = 1}^{n} {P_{i, s}}^{E_{i}} {(1 - {P_{i, s}}^{E_{i}})}^{(1 - E_{i})} Π_{j = 1}^{m} {P_{j, s}}^{O_{j}} {(1 - {P_{j, s}}^{O_{j}})}^{(1 - O_{j})} \end{matrix})$

$(\begin{matrix} P (| Emotion, Opinion | object) = Π_{i = 1}^{n} P (| Emotio n_{i} | object) Π_{j = 1}^{m} P (| Opinio n_{j} | object) \\ = Π_{i = 1}^{n} {P_{i, ob}}^{E_{i}} {(1 - {P_{i, ob}}^{E_{i}})}^{(1 - E_{i})} Π_{j = 1}^{m} {P_{j, ob}}^{O_{j}} {(1 - {P_{j, ob}}^{O_{j}})}^{(1 - O_{j})} \end{matrix})$

$Filter = \frac{P (subject)}{P (object)} * \frac{Π_{i = 1}^{n} {P_{i, s}}^{E_{i}} {(1 - {P_{i, s}}^{E_{i}})}^{(1 - E_{i})} Π_{j = 1}^{m} {P_{j, s}}^{O_{j}} {({1 - P}_{j, s}^{O_{j}})}^{(1 - O_{j})}}{Π_{i = 1}^{n} {P_{i, ob}}^{E_{i}} {({1 - P}_{i, ob}^{E_{i}})}^{(1 - E_{i})} Π_{j = 1}^{m} {P_{j, ob}}^{O_{j}} {({1 - P}_{j, ob}^{O_{j}})}^{({1 - O}_{j})}}$

这里将词语在整个文档集中出现的情形视为伯努利分布，E_i和o_j表示当样本文档中出现该词时，取1，反之取0。P_i,s表示第i个词在主观文档中出现的概率，P_j,ob表示第i个词在非主观文档中出现的概率。根据以上处理，只需根据待过滤文本中情感词和观点词的出现状况，即可计算出该文本的Filter值，若值大于1，则说明该文本信息属于主观信息。

(4)基于文本段的主管信息过滤。

本发明确定的主观句筛选方法是基于标记的情感词和观点词，未标记词相对而言是模糊不定的，抽取出的主观句也具有模糊性。直觉模糊集是用于表示具有模糊性的数据集合的概念。句子是由连续的词语构成的，因此之前抽取出的主观句可以视为词组成的直觉模糊集。

对于一段地震宏观异常文本，句子数量为m，主观句子数量为n。所有的主观句子用集合X＝{x₁,x₂,...,x_n}表示，表达主观信息的集合 A＝{(x_i,E_A(x_i),O_A(x_i))|x_i∈X}是集合X上的直觉模糊集，E_A(x_i)表示句子元素x_i内情感词的词频，O_A(x_i)表示句子元素x_i内观点词的词频。且有0≤I_A(x_i)+O_A(x_i)≤1，I_A(x_i)表示既不是情感词也不是观点词的词频。令π_A(x_i)＝1-I_A(x_i)-O_A(x_i)，抽取出的文本的主观信息量为：

$(\begin{matrix} E = \frac{1}{m} Σ_{i = 1}^{n} E (x_{i}) = \frac{1}{2 m} Σ_{i = 1}^{n} {π_{A} (x_{i}) - [I_{A} (x_{i}) + \frac{π_{A} (x_{i})}{2}] * \log [I_{A} (x_{i}) + \frac{π_{A} (x_{i})}{2}] \\ - [O_{A} (x_{i}) + \frac{π_{A} (x_{i})}{2}] * \log [O_{A} (x_{i}) + \frac{π_{A} (x_{i})}{2}]} \end{matrix})$

设定E的阈值为0.5，当E值超过0.5时认为该文本为主观文本。

(5)地震宏观异常匹配。

地震宏观异常在语义上的具体表述归纳为事物主体和事物可发生的变化、动作两部分；其中事物主体Object为名词，事物出现的变化和动作Act由动词或者形容词组成，事物发生的异常现象Content表示为：

Content＝Object+Act

所有经过主观信息过滤的文本信息，符合此式则可视为地震宏观异常；其中Object包括鸡、燕、牛、驴、狗、猫、鼠、蝉、马、羊、猪、鸽、蚯蚓、蛇、蛙、鹅、鸭、鹦鹉、鱼、鹿、兔、熊猫、麻雀、蝙蝠、乌鸦、蚂蚁、蜜蜂、井水、温泉、泉水、池塘、库水、暴雨、大风、地雾、地声、地光、地气、竹子、果树、地鼓、收音机、日光灯、电子闹钟、电视和人共46个事物主体。在进行过滤时，每个发生的异常现象均有区别，每一个事物对应一组异常现象。

与现有技术相比，本发明具有以下优点：

本发明通过选择符合数据采集要求的信息源，进行基于主题的信息获取，有效控制了计算量，同时保证了抓取内容的主题相关性；对抽取的文本信息进行主观情感信息的过滤与地震宏观异常信息匹配，实现了网络文本地震宏观异常信息的高效准确获取。本发明为地震宏观异常信息的网络收集提供了科学、高效、准确的技术手段，使得网络上地震宏观异常信息得到充分利用，极大提高了信息获取的效率。

附图说明

图1为本发明所述方法的主流程图；

图2为本发明主题相关性判别方法流程；

图3为本发明链接排序方法流程；

图4为本发明信息抽取流程；

图5为本发明主观句判别方法流程；

图6为本发明文本主观性判别方法流程；

图7为本发明地震宏观异常匹配方法流程。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

本发明提供一种基于网络文本的地震宏观异常信息获取与筛选方法，用于抓取地震主题网络文本并筛选出其中的地震宏观异常相关信息。

如图1为基于网络文本的地震宏观异常信息获取与筛选方法的流程图。具体实现步骤如下：

步骤1，信息获取。

(1)相关性判别

相关性判别是主题信息获取的第一个阶段，是主题信息获取的第一个阶段，主要工作是判断当前网络文本的主体相关性。页面内容主题相关性计算方法流程图如图2所示。对于贴吧的帖子列表页面和微博的关键词搜索页面，不需计算该页面的主题相关性。余弦值的阈值设定为一般网页0.1，贴吧0.3，微博0.1。

(2)链接排序

链接排序是主题信息获取的第二步，主要工作是确定主题爬虫的优先性爬取策略。图3是页面内URL链接排序的实现流程，这是体现主题爬虫主题优先性抓取策略的地方。对于一般网页，计算余弦值时需要加入页面的余弦值作为上下文相关性，贴吧和微博页面不需要考虑这点。

(3)信息抽取

信息抽取是主体信息获取的第三步，主要工作是从主题相关的网络文本页面中定位并抽取出具体的地震宏观异常信息。图4是信息抽取算法流程，其中贴吧和微博结构固定，利用正则表达式可以很方便的提取。

经过上述步骤，本发明实现了从网络文本获取地震宏观异常相关信息，能够使用主题相关判别和优先策略实现网络信息爬取。该方法能够针对一般网页、论坛(百度贴吧)和社交网络(新浪微博)进行地震宏观异常主题信息提取。

步骤2，信息筛选。

(1)主观句判别。

图5是判断主观句的实现流程，根据贝叶斯公式计算似然指数，似然指数大于1时，认为此句属于主观句。

(2)文本主观性判别。

图6为判断文本主观性的实现过程，主观性判别的阈值为0.5。

(3)地震宏观异常匹配。

图7为地震宏观异常匹配方法流程。从主题相关并根据主观性进行过滤后的网络文本中进行事物主体词和行为词的匹配进而得出地震宏观异常信息。

本实施例基于Heritrix框架，应用地震宏观异常主题描述词组，分别针对一般网页、贴吧和社交网络三种信息来源定制了从地震宏观异常主题相关性判别、链接排序到信息抽取的爬取策略，并进一步针对爬取到的主题相关网页，从主观句判别、文本主观性判别以及地震宏观异常匹配三个方面进行信息筛选。本发明为地震宏观异常信息的网络收集提供了科学、高效、准确的技术手段，极大提高了信息获取的效率。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于网络文本的地震宏观异常信息获取与筛选方法 [P] . 中国专利： CN104679825B . 2018.10.09
2. 基于网络文本的地震宏观异常信息获取与筛选方法 [P] . 中国专利： CN104679825A . 2015-06-03
3. Pharmaceutical composition effective in treatment of mechanical allodynia, screening method of potential compound as said pharmaceutical composition, inspection method of mechanical allodynia, and treatment method of mechanical allodynia [P] . 美国专利： US2004254148A1 . 2004-12-16

机译：对机械性异常性疼痛有效的药物组合物，作为该药物组合物的潜在化合物的筛选方法，机械性异常性疼痛的检查方法以及机械性异常性疼痛的治疗方法
4. Deterministic and stochastic method for the calculation, spread and interpretation importance of physical micro - properties and macro - properties and physically importance - seismic attributes in the "3d seismic volume" for interpretation purposes [P] . 德国专利： DE102014000234A1 . 2015-07-09

机译：确定性和随机性方法，用于计算，传播和解释物理微观特性和宏观特性以及物理重要性-物理重要性-地震属性在“ 3d地震体”中的解释作用
5. IMPROVEMENTS TO AN ELECTRIC APPARATUS OF SEISMIC ALERT AND PREVIOUS DETECTOR OF MACRO-EARTHQUAKES WITH RICHTER SCALE AND DEGREES FRACTIONS METER AND ALERT AND EVACUATION SYSTEMS AND WITH THE WATCHFULNESS OF QUIVERING AND OSCILLATING MOVEMENTS. [P] . MXPA02002333A . 2003-09-11

机译：具有更丰富的规模和分数分数，警报和疏散系统，并具有振荡和振荡运动的警觉性，从而改进了宏观地震的地震警报器和电气检测器的电气装置。