公开/公告号CN115617970A
专利类型发明专利
公开/公告日2023-01-17
原文格式PDF
申请/专利权人 合肥工业大学;
申请/专利号CN202211389089.6
申请日2022-11-08
分类号G06F16/332(2019.01);G06F16/35(2019.01);G06F16/951(2019.01);G06F16/9535(2019.01);G06F40/30(2020.01);G06F40/295(2020.01);G06N3/04(2006.01);G06N3/08(2006.01);
代理机构合肥中谷知识产权代理事务所(普通合伙) 34146;
代理人袁锦波
地址 230000 安徽省合肥市屯溪路193号
入库时间 2023-06-19 18:21:03
法律状态公告日
法律状态信息
法律状态
2023-02-10
实质审查的生效 IPC(主分类):G06F16/332 专利申请号:2022113890896 申请日:20221108
实质审查的生效
2023-01-17
公开
发明专利申请公布
技术领域
本发明属于新闻分析技术领域,尤其涉及一种基于多种自然语言处理技术的无人驾驶新闻分析方法。
背景技术
在计算机技术和大数据技术的推动下,越来越多的研究者开始从媒体新闻、公司报道等方面提取出文本情绪信息,相关研究仍然处于快速发展之中。与之相应的,计算机科学领域中的大数据和人工智能技术的快速发展也使得海量的信息挖掘和分析更加自动化、智能化,特别是自然语言处理领域中以机器学习、深度学习算法为代表的文本挖掘技术的日渐成熟,为上市公司和市场投资者提供了更有效及时的新闻媒体信息,但现有的方法效率和准确性有待提高。
目前,无人驾驶技术成为汽车产业发展新变量。鲜有针对无人驾驶相关新闻进行文本分析的研究,因此如何通过对无人驾驶新闻进行挖掘分析和文本处理以实现对无人驾驶技术提供重要数据支持,以帮助改善或提高相关政策文件制定,且如何使投资者针对新闻情绪做出理性决策,进而及时调整投资策略成为当下研究重点。
因此,有必要提供一种新的基于多种自然语言处理技术的无人驾驶新闻分析方法解决上述技术问题。
发明内容
本发明的目的就在于为了解决上述问题而提供一种基于多种自然语言处理技术的无人驾驶新闻分析方法。
本发明通过以下技术方案来实现上述目的:
一种基于多种自然语言处理技术的无人驾驶新闻分析方法,包括以下步骤:
S1:采集与无人驾驶相关的新闻文档数据;
S2:对所述新闻文档数据进行预处理,得到处理后新闻文档数据;
S3:构建主题提取模型,通过所述主题提取模型对所述处理后新闻文档数据进行主题提取和困惑度值计算,得到多个新闻主题数据和困惑度值,基于所述困惑度值大小选择出最优的若干个新闻主题数据;
S4:构建情绪值计算模型,将所述新闻文档数据输入所述情绪值计算模型中进行训练,得到训练后情绪值计算模型;
S5:将所述处理后新闻文档数据输入所述训练后情绪值计算模型,得到每条所述处理后新闻文档数据的情绪值;
S6:基于最优的若干个新闻主题数据和每条所述处理后新闻文档数据的情绪值制作出制作出每个不同的所述新闻主题数据下情绪值的视觉图表,实现了新闻分析的目的。
作为本发明的进一步优化方案,所述步骤S1中采集与无人驾驶相关的新闻文档数据的具体内容如下:通过网络爬虫技术,从互联网中爬取含有与无人驾驶相关的关键词的新闻文档数据,所述关键词包括无人驾驶、自动驾驶和智能驾驶。
作为本发明的进一步优化方案,所述步骤S2中对所述新闻文档数据进行预处理,得到处理后新闻文档数据,具体内容如下:对所述新闻文档数据进行数据清洗,包括去除重复、无关的新闻文档数据并对其中进行停用词去除和分词处理。
作为本发明的进一步优化方案,所述步骤S3中构建主题提取模型,通过所述主题提取模型对所述处理后新闻文档数据进行主题提取和困惑度值计算,得到多个新闻主题数据和困惑度值,基于所述困惑度值选择出最优的若干个新闻主题数据,具体内容如下:
所述主题提取模型采用LDA模型,采用LDA模型对所述处理后新闻文档数据进行主题提取和困惑度值计算,得到多个新闻主题数据和困惑度值,通过调整所述新闻主题数据的数目、alpha值和beta值,得到新闻主题数据和困惑度值的对应关系,选择出当困惑度最低时的最优的若干个新闻主题数据。
作为本发明的进一步优化方案,所述步骤S4中构建情绪值计算模型,将所述新闻文档数据输入所述情绪值计算模型中进行训练,得到训练后情绪值计算模型,具体包括以下步骤:
S401:使用中文分词工具jieba将所述新闻文档数据中的句子切分为术语;
S402:采用Word2Vec模型提取所述术语的特征向量;
S403:将所述特征向量按照9:1的比例随机划分训练集、测试集,对所述训练集进行手工标注为预先标注的数据集,所述预先标注的数据集分为消极态度数据集和积极态度数据集;
S404:将所述训练集输入LSTM模型进行训练,再将所述测试集输入LSTM模型进行测试,直至所述LSTM模型的准确率达到预设值,得到训练后情绪值计算模型。
作为本发明的进一步优化方案,所述步骤S5中将所述处理后新闻文档数据输入所述训练后情绪值计算模型,得到每条所述处理后新闻文档数据的情绪值,具体内容如下:使用所述训练后情绪值计算模型对所述处理后新闻文档数据进行检索,获得每条所述处理后新闻文档数据对应的情绪值,公式如下:
其中,Senti
本发明的有益效果在于:
本发明通过手动标注消极训练集和积极态度数据集,提高LSTM模型的准确率,计算的情绪值准确率高;通过LDA模型更好地区分新闻报道关于无人驾驶技术的主题,并计算出每类主题下新闻情绪值,为媒体机构、政策制定者、机构投资者与监管者带来及时反馈,具有一定的经济和社会效益。
附图说明
图1是本发明的方法流程图;
图2是本发明的实施例中主题数目与困惑度值的关系图;
图3是本发明的实施例中的视觉图表。
具体实施方式
下面结合附图对本申请作进一步详细描述,有必要在此指出的是,以下具体实施方式只用于对本申请进行进一步的说明,不能理解为对本申请保护范围的限制,该领域的技术人员可以根据上述申请内容对本申请作出一些非本质的改进和调整。
实施例1
如图1-3所示,一种基于多种自然语言处理技术的无人驾驶新闻分析方法,包括以下步骤:
步骤S1、针对无人驾驶新闻,利用网络爬虫技术,从人民网、百度新闻爬取含有“无人驾驶”、“自动驾驶”、“智能驾驶”等关键词的新闻标题,存储在本地数据库中,形成无人驾驶新闻文档数据库。
步骤S2、无人驾驶新闻数据预处理。主要用于对所述无人驾驶新闻文档数据库中信息进行数据清洗,去除重复、无关的新闻数据并对其中进行停用词去除和分词处理;
步骤S3、主题数量确定和LDA模型:采用LDA模型对新闻文本进行主题提取;通过调整主题数目、alpha值和beta值,当困惑度最低时得到主题结构最优的对应模型,生成文档-主题概率矩阵,以及每个主题下最相关的30个词用于解释主题。
步骤S4、Word2vec文本向量化和LSTM建模训练。
步骤S401、使用中文分词工具jieba将上述新闻语料库中的句子切分为术语。
步骤S402、应用Word2Vec模型来提取深层神经网络能够理解的术语的特征。
步骤S403、构建训练集和测试集,将步骤S1得到的新闻信息按照比例9:1随机划分训练集、测试集,对训练集进行手工标注为预先标注的数据集,预注释集包含两类:消极态度、标注积极态度。
步骤S404、用Python语言训练LSTM分类器。通过反复调整参数,分类器达到85.71%的准确率。
步骤S5具体包括以下步骤:
使用经过训练的LSTM分类器将收集到的所有新闻进行检索,获得每条新闻对应的情绪值。
计算每日新闻情绪值的公式如下
其中Senti
步骤S6具体包括以下步骤:
步骤S601、通过步骤S3获得每条新闻所属主题,使用pyLDAvis获得不同话题的视觉图表;
步骤S602、通过步骤S5获得每条新闻的情绪,计算出每个主题下新闻情绪值进行可视化对比分析。
具体实现过程如下:
(1)从2018年8月20日到2021年12月6日,我们使用python以“无人驾驶”、“自动驾驶”和“智能驾驶”为关键词从人民网、百度新闻爬取新闻,经过去重、去无关得到了共19515条新闻。
(2)通过计算困惑度确定了5个主题的最佳数量,如图2所示,并对模型进行了训练获得了主题项矩阵。并选择30个高频词作为主题代表,根据特征词的语义关系确定主题内容,构成主题-关键词矩阵,如下表所示:
(3)随机选择2009条新闻并手工标注为预先标注的数据集,预注释集包含两类:标注消极态度的新闻1030条,标注积极态度的新闻979条。我们使用jieba将上述新闻语料库中的句子切分为术语。然后应用Word2Vec模型来提取深层神经网络能够理解的术语的特征。之后,构建训练集和测试集,用Python语言训练LSTM分类器。通过反复调整参数,分类器达到85.71%的准确率。
使用经过训练的LSTM分类器将收集到的2018年8月20日至2021年12月6日的所有新闻进行了检索,获得每条新闻对应的情绪值。最后,通过pyLDAvis获得不同话题的视觉图表,如图3所示,并且统计分析不同主题下的新闻情绪。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
机译: 为语音到文本转换提供匿名和安全机制的新颖创新方法。本发明提供了一种通用且可扩展的隐私层,其利用了现有的基于云的自动语音识别(ASR)服务,并且可以适应新兴的语音到文本技术,例如自然语言处理(NLP),语音机器人和其他基于语音的人工语言。智能接口。本发明还允许在不牺牲法律,医学,金融和其他隐私敏感领域的情况下应用最新和最好的语音技术。
机译: 用于对流体进行生物修饰的装置,用于对生物体内的流体进行生物修饰的装置,为生物提供具有一种或多种肝功能的体外装置,向生物体提供生命的体内装置一种或多种具有肝功能的生物,一种提供具有一种或多种肾功能的生物的体内装置,一种或多种具有肾脏和肝功能的生物的体内装置,为生物提供一种或多种肾功能,对生物进行流体生物学修饰的方法,制备连续平面器官的方法,为生物提供一种或多种肝功能的方法,方法提供具有一种或多种肾脏功能的生物,通过低温技术制备和使用保存的器官微粒的方法和方法提供具有一种或多种肾脏和生命的生物
机译: 就所生产的产品而言,至少附有样品的一种成分和特性,至少一种样品的分析是基于两种或更多种技术来提供表征数据;方法,系统和指令程序