首页> 中国专利> 一种面向国防领域防务智库的文本情感分析方法

一种面向国防领域防务智库的文本情感分析方法

摘要

本发明涉及一种面向国防领域防务智库的文本情感分析方法和系统,所述方法包括以下步骤:获取国防领域防务智库的文本;进行切分处理,得到句子集合;预处理并且采用条件随机场算法进行分词;运用基于主观2‑POS模型的CHI统计方法对每个句子进行条件筛选,获得主观句子集合;对情感表达词进行程度等级划分;之后进行标志性句子判断;对主观句中的每个词汇进行情感倾向统计,并根据情感计算模型对每个主观句的最终得分进行计算,计算文本的最终情感得分;计算文本的情感倾向值。采用本发明的文本情感分析方法,对国防领域防务智库文本报告进行自主分析,提升了分析的准确度和时效性,为国防领域的科技人员提供了快速、准确的参考。

著录项

说明书

技术领域

本发明涉及一种文本分类情感分析领域,具体地,涉及一种面向国防领域防务智库的文本情感分析方法和系统。

背景技术

随着互联网的飞速发展,越来越多的互联网用户从单纯地获取互联网信息向创造互联网信息转变。互联网中的博客、论坛、讨论组出现了大量的由用户发布的主观性文本。这些主观性文本可以是用户对某个产品或服务的评论,或者是公众对某个新闻事件或国家政策的观点等。潜在的消费者在购买某个产品或服务时获取相关的评论可以提供决策参考,政府部门也可以浏览公众对新闻事件或国家政策的看法来了解舆情。而这些主观性文本每天以指数级的速度增长,仅靠人工进行分析需要消耗大量的人力和时间。因此采用计算机来自动地分析这些主观性文本表达的情感,成为目前学术界研究的一个热点,这个热点的研究方向就是文本情感分析。

文本情感分析(Sentiment Analysis)是指利用自然语言处理和文本挖掘技术,对带有情感色彩的主观性文本进行分析、处理和抽取的过程。文本情感分析方法按其分析的粒度可以分为词级、短语级、句子级和篇章级等四个层级。每个层级的对象分析后对应唯一的情感分析结果(正面、负面和中立)。目前,文本情感分析研究涵盖了包括自然语言处理、文本挖掘、信息检索、信息抽取、机器学习和人工智能等多个领域,并且由于文本情感分析的结果对优化政府、企业以及消费者决策具有重大意义,因此该项技术得到了许多学者以及研究机构的广泛关注。

防务智库具体指以国家安全、国防战略、军事战略、战略评估和作战概念等方面研究为主的、间接或直接为军队军工提供决策支持服务的智库。其每年都会产生大量的研究成果,其成果类型多以文本报告形式为主。防务智库的研究成果通常蕴含对国防领域相关事务的情感倾向,通过对其情感进行分析,可为我国国防安全、国防建设等提供有效参考。

文本情感分析在国防科技领域,尤其在面向国防领域防务智库的应用受到一定程度的限制,主要是因为对于国防科技领域防务智库报告而言,其不同于微博、论坛评论以及用户评价等内容,其研究结果具有较权威的指导性意义,因而对文本情感分析的时效性和准确度要求突出。一方面,防务智库的文本报告中的国防领域术语较多,词语的预训练时间大大增加,导致后台知识本体的构建困难,难以满足时效性要求;另一方面,智库报告通常为篇章段落格式,其中包含大量句子,句子之前可能存在转折、顺承等复杂关系,分析难度较大,现有的基于篇章级的文本情感分析模型,如LSTM模型或CRF模型均难以保证高准确度。

发明内容

本发明是为解决现有技术中的问题而提出的,其目的在于提供一种面向国防领域防务智库的文本情感分析方法和系统,通过将篇章文本按照句级、词级自顶向下进行逐层划分,在已有CRF算法的基础上进行改进,结合自改进的CHI统计方法,并对知网Hownet词典按情感程度进行权重划分,自底向上汇总形成最终情感分析结果,以提高国防领域防务智库的文本情感分析的准确度和时效性。

为实现上述目的,本发明提供了如下技术方案:

一种面向国防领域防务智库的文本情感分析方法,所述文本情感分析方法包括以下步骤:

获取国防领域防务智库的文本Text;

按照预设的分词模型对所述文本Text中的篇章进行切分处理,得到句子集合T={t

对上述步骤中获得的句子集合T={t

基于上述步骤中得到的分词后的文本数据,运用基于主观2-POS模型的CHI统计方法对所述每个句子ti进行条件筛选,通过对每个句子t

导入预先建立的情感词典,对情感表达词进行程度等级划分,根据程度等级的差异赋予对应的词语权重值;

基于上述步骤中得到的每个主观句t′

依照所述情感词典,对所述主观句t′

计算所述文本Text的情感倾向值O。

优先地,在上述步骤中,所述预设的分词模型为常用标点符号,其中,所述常用标点符号设定为逗号、句号、问号和感叹号。

优先地,所述对获得的句子集合T={t

采用预设剔除规则将所述每个句子t

所述采用条件随机场算法对所述句子集合T={t

将经过预设方式处理后的每个句子t

优先地,所述基于主观2-POS模型的CHI统计方法对所述每个句子t

将每个句子t

其中,χ

根据情感统计分值情况,筛选出χ

优先地,所述预先建立的情感词典为知网Hownet情感词典,所述程度等级包括至少三个等级,所述至少三个等级之间的情感表达程度依次递减;并且三个等级对应的词语权重值分别为1.5、1.0和0.5。

优先地,所述标志性句子包括含有总结性和/或转折性词汇的句子,或者文本中的段首和段尾的句子;

进行所述标志性句子判断,若属于标志性句子,则赋予其特征权重值weight

优先地,所述进行情感倾向统计具体包括:

依照所述情感词典,对所述主观句t′

计算所述文本Text的最终情感得分

其中,l=1,2,……,s,k=1,2,……,m,s,m均为自然数。

优先地,计算文本Text的情感倾向值O=sign(Ori

一种面向国防领域防务智库的文本情感分析系统,所述文本情感分析系统包括:

防务智库文本获取模块,用于获取国防领域防务智库的文本Text;

文本切分模块,用于按照预设的分词模型对所述文本Text中的篇章进行切分处理,得到句子集合;

预处理以及分词模块,用于对所述句子集合进行预处理,并采用预设模型对所述预处理后的句子进行分词,得到分词后的文本数据;

筛选判定模块,用于对分词后的文本数据进行条件筛选,并进行权重赋加判定,获得主观句子集合;

情感程度等级划分模块,用于对情感表达词进行程度等级划分,并赋予对应的词语权重值;

标志性句子判断模块,用于标志性句子判断,并根据判断结果进行特征权重值赋予;

情感得分计算模块,用于计算文本的最终情感得分;

情感倾向性判断模块,用于判断文本的情感倾向。

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现面向国防领域防务智库的文本情感分析方法的步骤。

根据本发明提供的具体实施例,本发明的技术方案可获得如下技术效果:

(1)通过提出一种基于主观2-POS模型的CHI统计方法,可以自动剔除掉类别不相关的噪声词,一方面可有效提高运算速度和模型构建效率,保证分析的时效性,另一方面可去除或者减少噪声数据对分析结果的影响,提高分析的准确度。

(2)按照情感表达词的程度,对Hownet情感词典进行3级权重划分,改变传统Hownet情感词典只分为正向和负向两部分的情况,提升了分析结果的准确度。

(3)防务智库的文本本体按照篇章分句、句子分词的自顶向下进行逐级拆分,并以句级分析为主,再按照句子整合自底向上汇总形成整个篇章的情感分析结果,提升了分析的细粒度,同时避免按照词级来逐词展开分析,在一定程度保证了分析的高准确性和高时效性。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。

图1是面向国防领域防务智库的文本情感分析方法的流程示意图;

图2是面向国防领域防务智库的文本情感分析系统的结构示意图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。对示例性实施例的描述仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。本公开可以以许多不同的形式实现,不限于这里所述的实施例。提供这些实施例是为了使本公开透彻且完整,并且向本领域技术人员充分表达本公开的范围。应注意到:除非另有说明,否则在这些实施例中阐述的部件和步骤的相对布置、材料的组分、数字表达式和数值等应被解释为仅仅是示例性的,而不是作为限制。

本公开使用的所有术语(包括技术术语或者科学术语)与本公开所属领域的普通技术人员理解的含义相同,除非另外特别定义。还应当理解,在诸如通用词典中定义的术语应当被理解为具有与它们在相关技术的上下文中的含义相一致的含义,而不应用理想化或极度形式化的意义来解释,除非本文有明确地这样定义。

对于相关领域普通技术人员已知的技术、方法和设备可能不作为详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。

图1为本发明面向国防领域防务智库的文本情感分析方法的流程示意图。如图1所示,所述文本情感分析方法包括以下步骤:

步骤S1:获取国防领域防务智库的文本Text;

步骤S2:按照预设的分词模型对所述文本Text中的篇章进行切分处理,预设的分词模型具体为常用标点符号,其中,所述常用标点符号至少包括逗号“,”、句号“。”、问号“?”和感叹号“!”等,此外,还可以包括分号“;”、省略号“……”等,从切分处理的文本篇章中得到句子集合T={t

步骤S3:对上述步骤S2中得到的句子集合T={t

接着,采用条件随机场(CRF)算法对所述预设方式处理后的句子集合T={t

其中,CRF算法原理如下:以句子“我爱天安门”为例,假设给定输入的分词结果为X={我,爱,天安门},那么输出序列为Y={名词,动词,名词}的概率应为最大。输入序列X又称为观测序列,输出序列Y又称为状态序列,该状态序列可构成马尔可夫随机场,所以根据观测序列得出状态序列的概率的过程包括将前一状态转化为后一状态的概率(即转移概率)以及从状态变量到观测变量的概率(即发射概率)。

其中,CRF分词过程具体为:

(1)CRF采用如下字母来表示每个词的状态:

词首,采用B表示;

词中,采用M表示;

词尾,采用E表示;

单字词,采用S表示;

(2)CRF在运算过程中,会寻找句子最大概率的输出序列Y,作为最终分词结果。实际上,就是对词位标注后,将B与E之间的字,以及S单字构成分词。例如:“我爱天安门”经CRF标注后,形成:我/S爱/S天/B安/M门/E,那么该句的分词结果就为:我(名词)/爱(动词)天安门(名词)。

再如,对句子“我喜欢研究生物”进行CRF标注后,可能存在多种分词结果。以下以两种分词结果为例。

然后,对于多种分词结果,计算其在整个语料库中出现的概率。其中,“研究生物”这个词汇组合中,“研究”和“生物”出现的概率高于“研究生”和“物”出现的概率,因此第一种分词结果被判定为错误的分词结果,而最大概率的输出序列为第二种分词结果,即SBEBEBE。

进而,CRF运算结束后寻找到每个句子的最大概率输出序列,最终得到分词后的文本数据集合t

步骤S4:基于上述步骤中得到的分词后的文本数据集合t

其中,2-POS模型是将语句中的词按照其词性进行分类,再用语句中连续n个词性的顺序组合作为对文本进行表示的一项,当n=2时,该语言模型被称为2-POS模型。例如:“我爱天安门”,分词并进行词性标注后为:“我(名词)/爱(动词)/天安门(名词)”,该语句的2-POS模型为“名词-动词、动词-名词”,其中“名词-动词”即为1个2-POS项。反映主观情感的2-POS项被称为2-POS主观模式,反映客观情感的2-POS项被称为2-POS客观模式。

基于主观2-POS模型的CHI统计方法如下:

其中,χ

接下来,以特征词pat

按照前述的定义,A项表示包含“战车”且属于“陆军”类别的文档数;B项表示包含“战车”但不属于“陆军”类别的文档数;C项表示不包含“战车”但却属于“陆军”类别的文档数;D项表示既不包含“战车”也不属于“陆军”类别的文档数。

由此,通过前述的公式可以得到χ

在对统计结果的分析中,若特征词“战舰”在“陆军”类别中出现较少,而在“海军”类别中出现较多,则说明该特征词对于“陆军”类别的贡献率较低,对于“陆军”类别应当将该特征词作为噪声排除。

在此,在传统的CHI统计方法中,难以排除前述那样的噪声。这是因为,若文档中“海军”类别中的“战舰”出现的次数大于“陆军”类别中“战车”出现的次数,则“战舰”将比“战车”的统计排名靠前,导致噪声被保留而影响结果的精确性。

对此,在本发明中,在计算公式中还包含A/(A+C)项。由此,对于在“陆军”类别中出现频率较小的特征词(例如战舰),将导致A/(A+C)项极小,能够作为噪声排除。另一方面,对于在“陆军”类别中出现频率较大的特征词(例如战车),将导致A/(A+C)项较大,能够作为有效结果保留。

步骤S5:导入预先建立的情感词典,该情感词典可以为知网Hownet情感词典,依据情感表达词的程度进行等级划分。具体地,程度等级包括至少三个等级,用权重weight

步骤S6:基于上述步骤中得到的每个主观句t′

标志性句子至少包括含有“总之”、“综上所述”、“难道”、“但是”等总结性和/或转折性词汇的句子,因为这类句子往往代表了作者的真实情感,以及在文本中处于段首和/或段尾的句子。

根据判断结果对每个主观句t′

步骤S7:依照所述情感词典,对所述主观句t′

然后根据主观句t′

其中,l=1,2,……,s,k=1,2,……,m,s,m均为自然数。

步骤S8:计算所述文本Text的情感倾向值O,

O=sign(Ori

其中,sign为符号函数,当Ori

图2为本发明面向国防领域防务智库的文本情感分析系统的结构示意图。如图2所示,所述文本情感分析系统10包括:

防务智库文本获取模块101,用于获取国防领域防务智库的文本Text;

文本切分模块102,用于按照预设的分词模型对所述文本Text中的篇章进行切分处理,得到句子集合;

预处理以及分词模块103,用于对所述句子集合进行预处理,并采用预设模型对所述预处理后的句子进行分词,得到分词后的文本数据;

筛选判定模块104,用于对分词后的文本数据进行条件筛选,并进行权重赋加判定,获得主观句子集合;

情感程度等级划分模块105,用于对情感表达词进行程度等级划分,并赋予对应的词语权重值;

标志性句子判断模块106,用于标志性句子判断,并根据判断结果进行特征权重值赋予;

情感得分计算模块107,用于计算文本的最终情感得分;

情感倾向性判断模块108,用于判断文本的情感倾向。

本领域的技术人员可以清楚地了解到本发明实施例的技术方案可借助软件和/或硬件来实现。本发明书中的“模块”是指能够独立完成或与其它部件配合完成特定功能的软件和/或硬件,其中硬件例如可以是FPGA(Field-Programmable Gate Array,现场可编程门阵列)、IC(Integrated Circuit,集成电路)等。

本发明实施例的各种模块可通过实现本发明实施例所述的功能的模拟电路而实现,也可通过执行本发明实施例所述的功能的软件而实现。

本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述的一种面向国防领域防务智库的文本情感分析方法的步骤。其中,计算机可读存储介质可以包括但不限于任何类型的盘,包括软盘、光盘、DVD、CD-ROM、微型驱动器以及磁光盘、ROM、RAM、EPROM、DRAM、VRAM、闪存存储器设备、磁卡或光卡、纳米系统(包括分子存储器IC),或适合于存储指令和/或数据的任何类型的媒介或设备。

需要说明的是,本发明着重面向国防领域防务智库文本报告数据,对于篇章级情感分析算法的改进可以运用到其它专业领域的文本报告中。

(实施例1)

以下说明本发明的一具体实施例。在本实施例中,以某一具体文本为例进行说明。在该实施例中,进行文本情感分析以供“新基建”的报告生成使用。

首先,获取国防领域防务智库的文本Text:

接着,按照预设的分词模型对前述的文本进行切分处理,预设的分词模型具体为常用标点符号。由此,获得了如下的句子集合。

接着,对于前述的步骤中得到的句子集合T,采用条件随机场(CRF)算法进行每个句子t

即,通过上述的分词处理,对于每一个句子t

接着,运用基于主观2-POS模型的CHI统计方法,对每个句子t

“基建(名词)-成就(名词)”、“突出(形容词)-成就(名词)”、“些许(形容词)-不足(名词)”

接着,基于前述的筛选出的2-POS项,对于包含各2-POS项的句子t

例如,句子t

接着,进行权重值w

接着,导入预先建立的情感词典,依据情感表达词的程度进行等级划分。具体地说,程度等级包括至少三个等级:lev1,lev2,lev3,至少三个等级之间的情感表达程度依次递减,其中,lev1表示非常强(对应的情感表达词诸如“超级”、“非常”、“极其”、“特别”等,此处非穷举),lev2表示强(对应的情感表达词诸如“很”、“尤其”、“实在”等,此处非穷举),lev3表示较强(对应的情感表达词诸如“有些”、“略微”、“稍微”等,此处非穷举);并且根据程度等级的差异赋予对应的词语权重值,三个等级lev1,lev2和lev3对应的词语权重值weight

在此,例如“突出”这一情感表达词的weight

接着,对于句子t

即,句子t

接着,依照前述的情感词典,对所述主观句中的每个词汇w

具体地说,对于主观句t

接着,将整个文本T的各个主观句的最终得分相加,得到文本T的最终情感得分。在本例中,文本T的最终得分为Ori

接着,将文本的最终情感得分Ori

应当理解,以上所述的具体实施例仅用于解释本发明,本发明的保护范围并不限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号