首页> 中国专利> 一种基于python文本分析的上市公司负面报道信息分析系统

一种基于python文本分析的上市公司负面报道信息分析系统

摘要

本发明涉及一种基于python文本分析的上市公司负面报道信息分析系统,包括采集模块、提取模块、分析模块和输出模块,其中,所述采集模块,用于获取媒体报道文本信息,其中包括进行对文本信息进行解码识别转换,并将采集的文本信息传输至所述提取模块;所述提取模块,用于进行对获取的1媒体报道文本信息进行关键字进行提取,获取文本特征信息,其中文本特征信息作为所述分析模块的输入;所述分析模块,用于对获取的文本特征信息进行语义情感分析,并将语义情感分析作为所述输出模块的输入,其中包括对文本特征信息进行词水平语义情感分析和句子水平语义情感分析;所述输出模块,用于获取所述分析模块3的语义情感分析并进行对获取媒体报道文本信息进行标注。

著录项

  • 公开/公告号CN112241627A

    专利类型发明专利

  • 公开/公告日2021-01-19

    原文格式PDF

  • 申请/专利权人 中国科学技术大学;

    申请/专利号CN202011073264.1

  • 发明设计人 张倩萍;曹崇延;

    申请日2020-10-09

  • 分类号G06F40/205(20200101);G06F40/30(20200101);G06F40/284(20200101);G06F40/237(20200101);

  • 代理机构11251 北京科迪生专利代理有限责任公司;

  • 代理人张乾桢

  • 地址 230026 安徽省合肥市包河区金寨路96号

  • 入库时间 2023-06-19 09:36:59

说明书

技术领域

本发明涉及一种基于python文本分析的上市公司负面报道信息分析系统。

背景技术

媒体报道对于公司治理有多个治理机制:首先通过媒体报道引发监管部门的注意;其次对企业市场行为的报道影响管理层在经理人市场中的声誉;最后媒体报道会影响管理层的公众形象。媒体关注能够显著抑制管理层非理性并购行为从而减少代理成本。另外发现媒体报道能减少财报重述和保护中小投资者。对管理层行为影响的直接性和强度、是否容易引发监管部门的关注和介入、报道的可信度和对公众注意力的影响等角度来说,媒体负面报道比总的媒体关注对公司行为的影响更重要。媒体的负面报道对控股股东的行为有很好的约束作用,可以减少控股股东寻租。

然而现有研究对于媒体负面报道的衡量主要有以下方式:权威报纸上检索上市公司股票简称和负面关键词,将检索的条数衡量媒体负面报道程度。在新闻搜索引擎检索上市公司股票简称和负面关键词,将检索的条数衡量媒体负面报道。以“1+媒体负或正面报道次数”的自然对数作为媒体报道程度的衡量指标。现有技术通过手工搜索负面关键词和上市公司股票简称,将搜索所得的新闻报刊的报道条数,或log(1+负面报道条数)作为负面报道程度的度量,这种方法不仅工作量大,而且直接通过报道条数和报道条数的变形衡量媒体负面报道的程度,忽略了同为负面报道的两篇负面报道之间的程度差异,另外通过检索负面关键词和上市公司股票简称所得的新闻报道并不一定为负面报道,如报道中的负面关键词前有否定词,报道中虽有负面报道,但大部分内容为正面报道内容,此类报道虽然为正面报道却被计入负面报道范畴。

因此,亟需一种基于python文本分析的上市公司负面报道信息分析系统。

针对相关技术中的问题,目前尚未提出有效的解决方案。

发明内容

为了解决上述技术问题,本发明提出一种基于python文本分析的上市公司负面报道信息分析系统,以克服现有相关技术所存在的上述技术问题。

本发明的技术方案为一种基于python文本分析的上市公司负面报道信息分析系统,包括:

采集模块,用于获取媒体报道文本信息,其中包括进行对文本信息进行解码识别转换,并将采集的文本信息传输至提取模块;

提取模块,用于进行对获取的媒体报道文本信息进行关键字进行提取,获取文本特征信息,其中文本特征信息作为分析模块的输入;

分析模块,用于对获取的文本特征信息进行语义情感分析,并将语义情感分析作为所述输出模块的输入,其中包括对文本特征信息进行词水平语义情感分析和句子水平语义情感分析;

输出模块,用于获取所述分析模块的语义情感分析结果,并将分析结果输出为对应的文件或进行可视化展示。

进一步的,其中,所述提取模块其关键字提取包括负面词汇提取、正面词汇提取、否定词汇提取和程度副词提取。

进一步的,其中,所述关键字提取还包括:标定负面词汇语句、标定正面词汇语句、标定否定词汇语句和标定程度副词语句。

进一步的,所述分析模块进行词水平语义情感分析,包括:利用嵌入矩阵W

y

一篇报道包含L

进一步的,其中一个句子中的单词数量为w个,每个单词的权值依赖于情感信息h

其中,σ代表Sigmoid函数,W

进一步的,所述分析模块进行报道水平语义情感分析,包括每篇报道中的句子数量为s个,表示为:

y

信息中包含L

进一步的,其包括获取报道中每个句子的权值,其每篇报道中的句子数量为s个,表示为:

其中,σ代表Sigmoid函数,W

进一步包括获取计算报道情感水平ot,表示为:

ot=F(softmax(W

其中,F是映射函数,W

有益效果:

本发明基于python文本分析上市公司负面报道程度的系统,集成采集模块和提取模块以及分析模块和输出模块,通过获取媒体报道文本信息,将采集的文本信息传输至所述提取模块;进行对获取的媒体报道文本信息进行关键字提取,获取文本特征信息并作为所述分析模块的输入,对获取的文本特征信息进行语义情感分析并进行对获取的媒体报道文本结果输出为对应报道的得分结果的.xls文件,不仅检索工作量小,且度量精准,识别率高,应用范围广。

附图说明

图1是一种基于python文本分析的上市公司负面报道信息分析系统框图;

图2是一种基于python文本分析的上市公司负面报道信息分析系统的场景应用示意图。

附图标记说明:1、采集模块;2、提取模块;3、分析模块;4、输出模块。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅为本发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域的普通技术人员在不付出创造性劳动的前提下所获得的所有其他实施例,都属于本发明的保护范围。

如图1-图2所示,本发明提出基于python文本分析上市公司负面报道程度的系统,包括采集模块1、提取模块2、分析模块3和输出模块4,其中;所述采集模块1与所述提取模块2连接,所述提取模块2与所述分析模块3连接,且所述分析模块3与所述输出模块4连接,其中;

所述采集模块1,用于获取媒体报道文本信息,其中包括进行对文本信息进行解码识别转换,并将采集的文本信息传输至所述提取模块2;

所述提取模块2,用于进行对获取的媒体报道文本信息进行关键字提取,获取文本特征信息,其中文本特征信息作为所述分析模块3的输入;

所述分析模块3,用于对获取的文本特征信息进行语义情感分析,并将语义情感分析作为所述输出模块4的输入,其中包括对文本特征信息进行词水平语义情感分析和句子水平语义情感分析;

所述输出模块4,用于获取所述分析模块3的语义情感分析并进行对获取媒体报道文本信息进行标注。

借助于上述方案,集成采集模块和提取模块以及分析模块和输出模块,通过获取媒体报道文本信息,将采集的文本信息传输至所述提取模块;进行对获取的媒体报道文本信息进行关键字进行提取,获取文本特征信息并作为所述分析模块的输入,对获取的文本特征信息进行语义情感分析并进行对获取媒体报道文本信息进行标注,实现检测并标注采集的负面文本信息,不仅检索工作量小,且度量精准,识别率高,应用范围广。

所述采集模块1,用于获取媒体报道文本信息,所述媒体报道文本信息,是公开信息(八家权威媒体:《中国证券报》、《证券日报》、《证券时报、《上海证券报》、《21世纪经济报道》、《经济观察报》、《中国经营报》、《第一财经日报》),

其中,所述提取模块2其关键字提取包括负面词汇提取、正面词汇提取、否定词汇提取和程度副词提取。

其中,所述关键字提取还包括:标定负面词汇语句、标定正面词汇语句、标定否定词汇语句和标定程度副词语句。

其中,所述词水平语义情感分析,包括嵌入矩阵W

y

一篇报道包含L

mGRU是一种双向的单元,包含前馈

其中,进一步包括其中一个句子中的单词数量为w个,每个单词的权值依赖于情感信息h

其中,σ代表Sigmoid函数,W

其中,所述水平语义情感分析,包括每条评论中的句子数量为s个,表示为:

其中,进一步包括,获取评论中每个句子的权值,其每条评论中的句子数量为s个,表示为:

其中,σ代表Sigmoid函数,W

其中,进一步包括获取计算评论意见水平ot,表示为:

ot=F(softmax(W

其中,F是映射函数,W

根据本发明的实施例,具体的,对于上述提取模块2其关键字提取,建立关键词数据库,具体如下:

1、建立负面(消极)词汇数据库,所述负面(消极)词汇包括:违法、非法、违规、犯罪、操纵、虚假、虚列、虚增、欺诈、诈骗、造假、受贿、行贿、贿赂、贪污、腐败、侵占、挪用资金、挪用公款、滥用职权、占用上市公司资产、国有资产流失、走私、偷税、漏税、拘留、逮捕、拘捕、判刑、隐藏重大事项、推迟披露、误导性陈述、涉嫌、内幕交易、双规、双开、亏损、资不抵债、暴跌、破产、业绩下滑、退市、整改、合谋、洗牌、丑闻、警告、占用上市公司资产、诱导性陈述、内幕交易、利润下滑、利润下降、安全事故、污染环境、破坏生态、推迟披露。

2、建立正面(积极)词汇数据库,所述正面(积极)词汇包括:大大改善、优化、变好、提高、进步、荣誉、慈善捐款、履行社会责任、保护环境、热心公益、回报社会、转型、技术领先、科技创新、扭亏为盈,利润增长、市场占有率提高、奖励、嘉奖、先进单位、先进个人、优点、造诣、吸引力、有利、得意、获益、提振、信心、鼓舞、辉煌、胜诉、获得赔偿、澄清、利好、中标、收入增长、资金充裕、开拓者。

3、建立否定词汇数据库,所述否定词汇包括:不大、不丁点儿、不甚、不怎么、没怎么、不可以、怎么不、几乎不、从来不、从不、不用、不曾、不该、不必、不会、不好、不能、很少、极少、没有、不是、难以、放下、扼杀、终止、停止、放弃、反对、缺乏、缺少、不、甭、勿、别、未、反、没、否、木有、非、无、请勿、无须、并非、毫无、决不、休想、永不、不要、未尝、未曾、毋、莫、从未、从未有过、尚未、一无、并未、尚无、从没、绝非、远非、切莫、绝不、毫不、禁止、忌、拒绝、杜绝、弗、

4、建立程度副词数据库,所述程度副词包括:

0.5倍:半点、不大、不丁点儿、不甚、不怎么、聊、没怎么、轻度、弱、丝毫、微、相对;

0.8倍:点点滴滴、多多少少、怪、好生、还、或多或少、略、略加、略略、略微、略为、蛮、稍、稍稍、稍微、稍为、稍许、挺、未免、相当、些、些微、些小、一点、一点儿、一些、有点、有点儿、有些;

1.2倍:大不了、多、更、更加、更进一步、更为、还、还要、较、较比、较为、进一步、那般、那么、那样、强、如斯、益、益发、尤甚、逾、愈、愈...愈、愈发、愈加、愈来愈、愈益、远远、越...越、越发、越加、越来越、越是、这般、这样、足、足足、1.25倍:不过、不少、不胜、惨、沉、沉沉、出奇、大为、多、多多、多加、多么、分外、格外、够瞧的、够戗、好、好不、何等、很、很是、坏、可、老、老大、良、颇、颇为、甚、实在、太、太甚、特、特别、尤、尤其、尤为、尤以、远、着实、曷、碜;

1.5倍:不为过、超、超额、超外差、超微结构、超物质、出头、多、浮、过、过度、过分、过火、过劲、过了头、过猛、过热、过甚、过头、过于、过逾、何止、何啻、开外、苦、老、偏、强、溢、忒。

2倍:百分之百、倍加、备至、不得了、不堪、不可开交、不亦乐乎、不折不扣、彻头彻尾、充分、到头、地地道道、非常、极、极度、极端、极其、极为、截然、尽、惊人地、绝、绝顶、绝对、绝对化、刻骨、酷、满、满贯、满心、莫大、奇、入骨、甚为、十二分、十分、十足、死、滔天、痛、透、完全、完完全全、万、万般、万分、万万、无比、无度、无可估量、无以复加、无以伦比、要命、要死、已极、已甚、异常、逾常、贼、之极、之至、至极、卓绝、最为、佼佼、郅、綦、齁、最。

尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,且应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号