公开/公告号CN113822514A
专利类型发明专利
公开/公告日2021-12-21
原文格式PDF
申请/专利权人 常州中吴网传媒有限公司;
申请/专利号CN202011539244.9
申请日2020-12-23
分类号G06Q10/06(20120101);G06F40/211(20200101);G06F40/253(20200101);G06F40/284(20200101);G06F40/289(20200101);G06K9/62(20060101);
代理机构11538 北京谨诚君睿知识产权代理事务所(特殊普通合伙);
代理人延慧;武丽荣
地址 213000 江苏省常州市新北区龙锦路1590号2号楼
入库时间 2023-06-19 13:46:35
技术领域
本发明涉及计算机技术领域,尤其涉及一种全媒体文稿质量控制方法。
背景技术
随着互联网的普及,记者由传统的线下发表文章,已经更多的转为了基于互联网平台的文章生成与发表方式。这样使得文章的生成速度更高和数量更大。而这些撰写的稿件当中,存在着质量参差不齐的问题,进而大大增加了新闻审稿人的工作量。此外,随着媒体发展的需要,基于互联网平台生成的文章可更多的包含如、图片、视频、音频等的内容实现全媒体文章,这样也更加增大了新闻审稿人的工作压力。目前国内尚未有对全媒体文稿质量控制较成熟的案例,进而急需一种可对全媒体文稿质量进行自动化审核的方法。此外,传统的人工审核方法不仅效率低,还具有因人工主观因素造成不准确、不公平的问题。
发明内容
本发明的目的在于提供一种全媒体文稿质量控制方法。
为实现上述发明目的,本发明提供一种全媒体文稿质量控制方法,包括以下步骤:
S1.获取在融媒生产平台发布的全媒体文稿;
S2.对所述全媒体文稿进行整体特征提取,获取所述全媒体文稿的整体特征评分;
S3.对所述全媒体文稿进行句子拆分和语法分析,获得句法评分;
S4.基于所述整体特征评分和所述句法评分,对所述全媒体文稿进行标记,并生成对所述全媒体文稿的整体评价。
根据本发明的一个方面,所述整体特征包括:结构特征和语言特征;
所述整体特征评分包括结构特征评分和语言特征评分;
步骤S2中,对所述全媒体文稿进行整体特征提取,获取所述全媒体文稿的整体特征评分的步骤中,包括:
S21.对所述全媒体文稿的结构进行判断,基于判断结果获取所述全媒体文稿的结构特征评分;
S22.对所述全媒体文稿的词汇进行判断,基于判断结果获取所述全媒体文稿的语言特征评分。
根据本发明的一个方面,步骤S21中,对所述全媒体文稿的结构进行判断,基于判断结果获取所述全媒体文稿的结构特征评分的步骤中,包括:
S211.判断所述全媒体文稿是否有分段;
S212.判断所述全媒体文稿是否有新闻六要素;
S213.判断所述全媒体文稿是否有图片;
S214.判断所述全媒体文稿是否有视频;
S215.判断所述全媒体文稿是否图文混排;
S216.汇总步骤S211-S215的判断结果生成所述结构特征评分。
根据本发明的一个方面,步骤S211中,若所述全媒体文稿存在分段,则在输出的判断结果中还包含有与所述分段的数量相匹配的预设数值;
步骤S213中,若所述全媒体文稿存在图片,则在输出的判断结果中还包含有与所述图片的数量相匹配的预设数值。
根据本发明的一个方面,步骤S22中,对所述全媒体文稿的词汇进行判断,基于判断结果获取所述全媒体文稿的语言特征评分的步骤中,包括:
S221.基于新闻报道慎用词汇表数据库对所述全媒体文稿进行识别,判断所述全媒体文稿中是否存在慎用新闻词汇;
S222.若存在所述慎用新闻词汇,则获取出现的所述慎用新闻词汇的数量;
S223.基于所述慎用新闻词汇的数量匹配相应的预设数值,并输出包含该预设数值的语言特征评分。
根据本发明的一个方面,步骤S223中,与所述慎用新闻词汇的数量相对应的所述预设数值为负值。
根据本发明的一个方面,步骤S3中,对所述全媒体文稿进行句子拆分和语法分析,获得句法评分的步骤中,包括:
S31.对所述全媒体文稿拆分为单条句子,并判断所述句子的句型,基于判断结果输出与所述句子的句型相对应的预设数值;
S32.对所述句子进行分词和词性标注,并对所述句子的情感值标注;
S33.若所述全媒体文稿中正面情感值的单句多,则标记为正面文稿,若所述全媒体文稿中负面情感值的单句多,则标记为负面文稿;
S34.汇总步骤S31至S33的输出结果,获得所述句法评分。
根据本发明的一个方面,步骤S32中,对所述句子进行分词和词性标注,并对所述句子的情感值标注的步骤中,将所述句子进行分词后的分词结果转换为词向量w,基于所述词向量w和朴素贝叶斯算法对所述分词结果和所述句子的情感值分别进行评分。
根据本发明的一个方面,基于所述词向量w和朴素贝叶斯算法对所述分词结果进行评分的步骤中,包括:
S321.基于所述词向量w和朴素贝叶斯算法建立计算公式,且计算公式为:
S322.基于所述计算公式获得与所述词向量w相对应的分词概率,且所述分词概率表示为:p(w
S323.基于所述分词概率得出所述分词结果的评分。
根据本发明的一个方面,步骤S322中,假设各所述词向量w为独立特征,则所述分词概率表示为:p(w
根据本发明的一个方面,对所述句子的情感值进行评分的步骤中,包括:
S324.构建情感词典;
S325.基于所述情感词典和偶数分词概率,获取所述句子的情感值评分,其计算公式为:
其中,Np,Nn分别代表表达正面情感和负面情感的词汇数目;ωp
根据本发明的一个方面,采用全媒体文稿质量控制模型执行步骤S1至S4,其中,所述全媒体文稿质量控制模型通过以下步骤获得:
A1.构建包含全媒体文稿样本的历史数据集,并对所述历史数据集中的所述全媒体文稿样本进行等级划分;
A2.提取所述全媒体文稿样本的整体特征,并获取第一标准评分;
A3.对所述全媒体文稿样本进行句子拆分和语法分析,获得第二标准评分;
A4.基于所述全媒体文稿样本,所述整体特征,所述第一标准评分,句子拆分和语法分析结果和所述第二标准评分对机器学习模型进行训练,直到所述机器学习模型的输出分数与所述全媒体文稿样本的标准评分的误差在预设误差范围内,则获得所述全媒体文稿质量控制模型。
根据本发明的一个方面,所述整体特征包括:结构特征和语言特征;
所述第一标准评分包括标准结构特征评分和标准语言特征评分;
步骤A2中,提取所述全媒体文稿样本的整体特征,并获取第一标准评分的步骤中,包括:
A21.对所述全媒体文稿的结构进行分析,基于分析结果获取所述全媒体文稿的标准结构特征评分;
A22.对所述全媒体文稿的词汇进行分析,基于分析结果获取所述全媒体文稿的标准语言特征评分。
根据本发明的一个方面,步骤S21中,对所述全媒体文稿的结构进行分析,基于分析结果获取所述全媒体文稿的标准结构特征评分的步骤中,包括:
A211.判断所述全媒体文稿是否有分段;
A212.判断所述全媒体文稿是否有新闻六要素;
A213.判断所述全媒体文稿是否有图片;
A214.判断所述全媒体文稿是否有视频;
A215.判断所述全媒体文稿是否图文混排;
A216.汇总步骤A211-A215的分析结果生成所述标准结构特征评分。
根据本发明的一个方面,步骤A211中,若所述全媒体文稿存在分段,则在输出的分析结果中还包含有与所述分段的数量相匹配的预设数值;
步骤S213中,若所述全媒体文稿存在图片,则在输出的分析结果中还包含有与所述图片的数量相匹配的预设数值。
根据本发明的一个方面,步骤A22中,对所述全媒体文稿的词汇进行分析,基于分析结果获取所述全媒体文稿的语言特征评分的步骤中,包括:
A221.基于新闻报道慎用词汇表数据库对所述全媒体文稿进行识别,判断所述全媒体文稿中是否存在慎用新闻词汇;
A222.若存在所述慎用新闻词汇,则获取出现的所述慎用新闻词汇的数量;
A223.基于所述慎用新闻词汇的数量匹配相应的预设数值,并输出包含该预设数值的标准语言特征评分。
根据本发明的一个方面,步骤A223中,与所述慎用新闻词汇的数量相对应的所述预设数值为负值。
根据本发明的一个方面,步骤A3中,对所述全媒体文稿样本进行句子拆分和语法分析,获得第二标准评分的步骤中,包括:
A31.对所述全媒体文稿拆分为单条句子,并判断所述句子的句型,基于分析结果输出与所述句子的句型相对应的预设数值;
A32.对所述句子进行分词和词性标注,并对所述句子的情感值标注;
A33.若所述全媒体文稿中正面情感值的单句多,则标记为正面文稿,若所述全媒体文稿中负面情感值的单句多,则标记为负面文稿;
A34.汇总步骤S31至S33的输出结果,获得所述第二标准评分。
根据本发明的一个方面,步骤A32中,对所述句子进行分词和词性标注,并对所述句子的情感值标注的步骤中,将所述句子进行分词后的分词结果转换为词向量w,基于所述词向量w和朴素贝叶斯算法对所述分词结果和所述句子的情感值分别进行评分。
根据本发明的一个方面,基于所述词向量w和朴素贝叶斯算法对所述分词结果进行评分的步骤中,包括:
A321.基于所述词向量w和朴素贝叶斯算法建立计算公式,且计算公式为:
A322.基于所述计算公式获得与所述词向量w相对应的分词概率,且所述分词概率表示为:p(w
S323.基于所述分词概率得出所述分词结果的评分。
根据本发明的一个方面,步骤A322中,假设各所述词向量w为独立特征,则所述分词概率表示为:p(w
根据本发明的一个方面,步骤S4中,基于所述全媒体文稿质量控制模型对所述全媒体文稿样本输出的正负面判断结果的准确度和召回率评估所述预设误差范围,其中,通过计算F score来评估所述预设误差范围的阈值,其中,F score表示为:
其中,Precision为准确度,recall为系统的召回率。
根据本发明的一种方案,本发明的方法实现了对全媒体文稿分析评价并输出整体结论的自动化过程,极大的解放了人力,提高了审稿的效率。
根据本发明的一种方案,本发明的方法应用于文稿的评分中,有效克服了人工评分过程中因人工主观因素造成不准确、不公平的问题。
根据本发明的一种方案,本发明的方法在审稿过程中,可达到对文稿整篇的完全评价,不会产生遗漏或错误的地方,使得评价结果更为准确。
附图说明
图1是示意性表示根据本发明的一种实施方式的媒体文稿质量控制方法步骤框图。
具体实施方式
下面结合附图和具体实施方式对本发明作详细地描述,实施方式不能在此一一赘述,但本发明的实施方式并不因此限定于以下实施方式。
如图1所示,根据本发明的一种实施方式,本发明的一种全媒体文稿质量控制方法,本发明的方法基于预先训练好的全媒体文稿质量控制模型实现,包括以下步骤:
S1.获取在融媒生产平台发布的全媒体文稿;
S2.对全媒体文稿进行整体特征提取,获取全媒体文稿的整体特征评分;
S3.对全媒体文稿进行句子拆分和语法分析,获得句法评分;
S4.基于整体特征评分和句法评分,对全媒体文稿进行标记,并生成对全媒体文稿的整体评价。
根据本发明的一种实施方式,整体特征包括:结构特征和语言特征;
整体特征评分包括结构特征评分和语言特征评分;
步骤S2中,对全媒体文稿进行整体特征提取,获取全媒体文稿的整体特征评分的步骤中,包括:
S21.对全媒体文稿的结构进行判断,基于判断结果获取全媒体文稿的结构特征评分;
S22.对全媒体文稿的词汇进行判断,基于判断结果获取全媒体文稿的语言特征评分。
根据本发明的一种实施方式,步骤S21中,对全媒体文稿的结构进行判断,基于判断结果获取全媒体文稿的结构特征评分的步骤中,包括:
S211.判断全媒体文稿是否有分段;
S212.判断全媒体文稿是否有新闻六要素;
S213.判断全媒体文稿是否有图片;
S214.判断全媒体文稿是否有视频;
S215.判断全媒体文稿是否图文混排;
S216.汇总步骤S211-S215的判断结果生成结构特征评分。
根据本发明的一种实施方式,步骤S211中,若全媒体文稿存在分段,则在输出的判断结果中还包含有与分段的数量相匹配的预设数值;
步骤S213中,若全媒体文稿存在图片,则在输出的判断结果中还包含有与图片的数量相匹配的预设数值。
根据本发明的一种实施方式,步骤S22中,对全媒体文稿的词汇进行判断,基于判断结果获取全媒体文稿的语言特征评分的步骤中,包括:
S221.基于新闻报道慎用词汇表数据库对全媒体文稿进行识别,判断全媒体文稿中是否存在慎用新闻词汇;
S222.若存在慎用新闻词汇,则获取出现的慎用新闻词汇的数量;
S223.基于慎用新闻词汇的数量匹配相应的预设数值,并输出包含该预设数值的语言特征评分。在本实施方式中,与慎用新闻词汇的数量相对应的预设数值为负值,为减分项目。
根据本发明的一种实施方式,步骤S3中,对全媒体文稿进行句子拆分和语法分析,获得句法评分的步骤中,将文稿拆分为段文档和单条句子进行分析,包括:
S31.对全媒体文稿拆分为单条句子,并判断句子的句型,基于判断结果输出与句子的句型相对应的预设数值;在本实施方式中,句型可分为陈述句、疑问句或感叹句,不同的句型则对应不同的分值。
S32.对句子进行分词和词性标注,并对句子的情感值标注;在本实施方式中,词性可分为名称、动词、形容词、副词等词性进行分词并标注,同时基于朴素贝叶斯算法实现单句的情感值标注。
S33.若全媒体文稿中正面情感值的单句多,则标记为正面文稿,若全媒体文稿中负面情感值的单句多,则标记为负面文稿;
S34.汇总步骤S31至S33的输出结果,获得句法评分。
根据本发明的一种实施方式,步骤S32中,对句子进行分词和词性标注,并对句子的情感值标注的步骤中,将句子进行分词后的分词结果转换为词向量w,基于词向量w和朴素贝叶斯算法对分词结果和句子的情感值分别进行评分。
根据本发明的一种实施方式,基于词向量w和朴素贝叶斯算法对分词结果进行评分的步骤中,包括:
S321.基于词向量w和朴素贝叶斯算法建立计算公式,且计算公式为:
S322.基于计算公式获得与词向量w相对应的分词概率,且分词概率表示为:p(w
S323.基于分词概率得出分词结果的评分。
根据本发明的一种实施方式,步骤S322中,假设各词向量w为独立特征,则分词概率表示为:p(w
根据本发明的一种实施方式,对句子的情感值进行评分的步骤中,包括:
S324.构建情感词典;在本实施方式中,采用了BosonNLP情感词典作为基础依据,然后针对行业特点对该字典增加了部分专业词汇,然后根据在构建的情感词典的基础上建立完成搜索引擎Solr的索引文档。
S325.基于情感词典和偶数分词概率,获取句子的情感值评分,其计算公式为:
其中,Np,Nn分别代表表达正面情感和负面情感的词汇数目;ωp
根据本发明的一种实施方式,采用全媒体文稿质量控制模型执行步骤S1至S4,其中,全媒体文稿质量控制模型通过以下步骤获得:
A1.构建包含全媒体文稿样本的历史数据集,并对历史数据集中的全媒体文稿样本进行等级划分。在本实施方式中可对样本的等级划分为A、B、C、D、E、F六个等级。在本实施方式中,可通过人工的方式对各样本的等级进行划分。
A2.提取全媒体文稿样本的整体特征,并获取第一标准评分;在本实施方式中,可通过人工的方式对样本中的整体特征进行标注,并分配相应的第一标准评分;
A3.对全媒体文稿样本进行句子拆分和语法分析,获得第二标准评分;在本实施方式中,可通过人工的方式对样本中的整体特征进行标注,并分配相应的第二标准评分;
A4.基于全媒体文稿样本,整体特征,第一标准评分,句子拆分和语法分析结果和第二标准评分对机器学习模型进行训练,直到机器学习模型的输出分数与全媒体文稿样本的标准评分的误差在预设误差范围内,则获得全媒体文稿质量控制模型。
根据本发明的一种实施方式,整体特征包括:结构特征和语言特征;
第一标准评分包括标准结构特征评分和标准语言特征评分;
步骤A2中,提取全媒体文稿样本的整体特征,并获取第一标准评分的步骤中,包括:
A21.对全媒体文稿的结构进行分析,基于分析结果获取全媒体文稿的标准结构特征评分;
A22.对全媒体文稿的词汇进行分析,基于分析结果获取全媒体文稿的标准语言特征评分。
根据本发明的一种实施方式,步骤S21中,对全媒体文稿的结构进行分析,基于分析结果获取全媒体文稿的标准结构特征评分的步骤中,包括:
A211.判断全媒体文稿是否有分段;
A212.判断全媒体文稿是否有新闻六要素;
A213.判断全媒体文稿是否有图片;
A214.判断全媒体文稿是否有视频;
A215.判断全媒体文稿是否图文混排;
A216.汇总步骤A211-A215的分析结果生成标准结构特征评分。
根据本发明的一种实施方式,步骤A211中,若全媒体文稿存在分段,则在输出的分析结果中还包含有与分段的数量相匹配的预设数值;
步骤S213中,若全媒体文稿存在图片,则在输出的分析结果中还包含有与图片的数量相匹配的预设数值。
根据本发明的一种实施方式,步骤A22中,对全媒体文稿的词汇进行分析,基于分析结果获取全媒体文稿的语言特征评分的步骤中,包括:
A221.基于新闻报道慎用词汇表数据库对全媒体文稿进行识别,判断全媒体文稿中是否存在慎用新闻词汇;
A222.若存在慎用新闻词汇,则获取出现的慎用新闻词汇的数量;
A223.基于慎用新闻词汇的数量匹配相应的预设数值,并输出包含该预设数值的标准语言特征评分。在本实施方式中,与慎用新闻词汇的数量相对应的预设数值为负值,为减分项目。
根据本发明的一种实施方式,步骤A3中,对全媒体文稿样本进行句子拆分和语法分析,获得第二标准评分的步骤中,将文稿样本拆分为段文档和单条句子进行分析,包括:
A31.对全媒体文稿拆分为单条句子,并判断句子的句型,基于分析结果输出与句子的句型相对应的预设数值;在本实施方式中,句型可分为陈述句、疑问句或感叹句,不同的句型则对应不同的分值。
A32.对句子进行分词和词性标注,并对句子的情感值标注;在本实施方式中,词性可分为名称、动词、形容词、副词等词性进行分词并标注,同时基于朴素贝叶斯算法实现单句的情感值标注。
A33.若全媒体文稿中正面情感值的单句多,则标记为正面文稿,若全媒体文稿中负面情感值的单句多,则标记为负面文稿;
A34.汇总步骤S31至S33的输出结果,获得第二标准评分。
根据本发明的一种实施方式,步骤A32中,对句子进行分词和词性标注,并对句子的情感值标注的步骤中,将句子进行分词后的分词结果转换为词向量w,基于词向量w和朴素贝叶斯算法对分词结果和句子的情感值分别进行评分。
根据本发明的一种实施方式,基于词向量w和朴素贝叶斯算法对分词结果进行评分的步骤中,包括:
A321.基于词向量w和朴素贝叶斯算法建立计算公式,且计算公式为:
A322.基于计算公式获得与词向量w相对应的分词概率,且分词概率表示为:p(w
S323.基于分词概率得出分词结果的评分。
根据本发明的一种实施方式,步骤A322中,假设各词向量w为独立特征,则分词概率表示为:p(w
根据本发明的一种实施方式,在步骤A4中,将前述的文稿特征和对应的人工评分输入机器学习模型,对其进行训练,直到机器学习模型的输出分数与人工评分的差值在预设范围内,则完成模型训练。其中,机器学习模型的选择可以KNN(邻近算法)、SVM(支持向量机)、DNN(深度神经网络算法)或RNN(循环神经网络算法)等,根据不同的题型选择不同的机器学习模型和模型评估标准进行训练,直到机器学习模型的输出分数与人工评分的差值在预设范围内,则模型训练完成。
在步骤S4中通过训练完成的模型对新获取的文稿进行整体评价所获得的评价结果中不仅包含了对文稿的评分标注、错别字标注,还包含了对文稿的评级。
根据本发明的一种实施方式,步骤S4中,基于所述全媒体文稿质量控制模型对所述全媒体文稿样本输出的正负面判断结果的准确度和召回率评估所述预设误差范围,其中,通过计算F score来评估所述预设误差范围的阈值,其中,F score表示为:
其中,Precision为准确度,recall为系统的召回率(即文稿样本中新闻词汇负面判断值的数量/文稿全部词汇数量)。
当参数α=1时,就是最常见的F score,其可表示为:
上述内容仅为本发明的具体方案的例子,对于其中未详尽描述的设备和结构,应当理解为采取本领域已有的通用设备及通用方法来予以实施。
以上所述仅为本发明的一个方案而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
机译: 一种控制站的控制方法,一种终端站的控制方法,一种控制站,一个终端站以及一种计算机可读存储介质
机译: 一种控制站的控制方法,一种终端站的控制方法,一种控制站,一个终端站以及一种计算机可读存储介质
机译: 一种用于机动车变速器的摩擦换挡元件的控制方法;一种包括该控制方法的电子控制单元;以及用这种控制方法操作的汽车变速器