首页> 中国专利> 基于LightGBM集成多个BERT模型的随机对照试验识别方法

基于LightGBM集成多个BERT模型的随机对照试验识别方法

摘要

本发明公开基于LightGBM集成多个BERT模型的随机对照试验识别方法,包括以下步骤:步骤s1:将预先准备的初始RCT数据分割为训练集、开发集以及测试集,所述初始RCT数据包括文本以及初始分类标签;步骤s2:将训练集、开发集以及测试集中的文本均分别转化为位置向量、文本向量以及字向量;步骤s3:训练模型;步骤s4:调整模型的超参数;步骤s5:使用训练好的模型对训练集和开发集文本进行分类;步骤s6:训练LightGBM模型;步骤s7:得到最终分类结果。本发明通过开发一个集成学习算法LightGBM集成4个不同模型,在Cochrane提供的RCT数据上训练,自动筛选出RCT类的题目和摘要。

著录项

说明书

技术领域

本发明涉及计算机数据处理技术领域,尤其涉及基于LightGBM集成多个BERT模型的随机对照试验识别方法。

背景技术

随机对照试验(RCT)一般被认为是评价药物安全性和有效性的金标准。近年来,如何利用真实世界证据评价药物的有效性和安全性,成为国内外药物研发和监管决策中日益关注的热点问题。

对于单一RCT,实验样本有限,常使用Meta分析来综合收集对某一疾病各种疗法的小样本、单个临床试验RCT的结果,对其进行系统评价和统计分析,将尽可能真实的科学结论及时提供给社会和临床医师,以促进推广真正有效的治疗手段,摈弃尚无依据的无效的甚至是有害的方法。

文献作为重要的科研展示分享形式,包含着众多科研信息。通常研究者通过文献检索的方式收集RCT相关文献。

然而,在进行系统评价的文献检索过程中,由于每年文献的爆炸性增长和检索策略特异性的缺乏,同时检索到的引文数量非常大,因此人工对检索结果进行RCT相关文献的筛选,耗时耗力。

目前,一些系统评价软件工具包括RCT分类功能,包括GAPScreener、Austrackr和Rayyan,它们是半自动参考过滤和选择软件,使用支持向量机(SVM)对文档进行分类。SVM是一种成功的机器学习模型,广泛应用于这些文本挖掘工具中,在21世纪的第一个十年中对文本进行分类。但SVM在很大程度上依赖于人为设置的样本特征,这可能是不稳定和劳动密集型的。

随着机器学习技术和计算机硬件的发展,基于网络的机器学习方法由于其在许多问题上的良好性能而受到人们的欢迎,特别是在图像识别和自然语言处理(NLP)方面。双向编码器表示从变压器(BERT),为一个预先训练的模型,由谷歌公司提出,在11个NLP任务在2018年10月取得了最好的模型结果。由于深度网络及其预训练过程,BERT模型可以在不同的NLP任务中取得更好的效果。在训练前的过程中,模型在大量的训练前数据集上学习语言的背景特征。这个过程机器学习经过大量的基础学习,特定的任务学习效果会更好。因此,我们希望使用与医学相关的不同的预训练BERT模型作为RCT分类任务的基本分类器。

在过去的两年里,LightGBM作为一种集成不同模型效应的集成方法,在机器学习任务中得到了广泛的应用。除了节省训练预测时间外,它的性能优于所有现有的Boosting算法。

目前在文本分类领域表现良好的模型是监督学习。文本分类的监督学习模型需要训练过程。在训练过程中,该模型适合于学习引文与分类标签之间的关系,在引文中使用已知的过滤标签来预测没有已知分类标签的引文。因此,筛选引文的准确性直接影响模型的分类效果。Cochrane是系统评价领域的一个公认项目,来自158个国家的全球卫生科学研究人员参与了对文本的分类。受过研究方法的训练的配对的评审员,独立筛选标题/摘要。评审员通过讨论或必要时与第三位审查员协商来解决分歧。

发明内容

本发明旨在提供一种基于LightGBM集成多个BERT模型的随机对照试验识别方法,用于自动筛选出RCT类的题目和摘要。

为达到上述目的,本发明是采用以下技术方案实现的:

基于LightGBM集成多个BERT模型的随机对照试验识别方法,包括以下步骤:

步骤s1:将预先准备的初始RCT数据分割为训练集、开发集以及测试集,所述初始RCT数据包括文本以及初始分类标签;

步骤s2:将训练集、开发集以及测试集中的文本均分别转化为位置向量、文本向量以及字向量;

步骤s3:使用训练集中的文本转化后的位置向量、文本向量、字向量和初始分类标签分别训练4个BERT模型;

步骤s4:使用开发集中的文本转化后的位置向量、文本向量、字向量和初始分类标签来调整4个BERT模型的超参数;

步骤s5:使用训练好的4个BERT模型对训练集和开发集文本进行分类,分为RCT类和非RCT类;

步骤s6:训练LightGBM模型;

步骤s7:使用4个BERT模型对测试集数据进行分类,得到分类结果,LightGBM模型综合4个BERT模型的分类结果得到测试集的最终分类结果。

优选的,所述文本包括题目和摘要,所述初始分类标签包括RCT类和非RCT类。

优选的,在步骤s1中,所述分割包括以下步骤:

步骤s101:将初始RCT数据均分为5份不相交的数据集;

步骤s102:依次选择s101中的5份的其中1份作为测试集,将其余4份作为训练数据,由此得到5组数据,每组数据中,包含1个训练数据和1个测试集,测试集与训练数据的样本数比例为1:4;

步骤s103: 针对5组数据,将每一组中的训练数据以3:1的比例随机分为训练集和开发集,由此每组数据由一个训练集,一个开发集和一个测试集组成,其中训练集、开发集以及测试集包含的样本数比例为3:1:1。

优选的,所述4个BERT模型分别为BIO-BBUPC、BIO-BBUP、SCI-BBU以及BBU,所述4个BERT模型作为基分类器。

优选的,在步骤s5中,训练集和开发集中的每一个文本经过一个BERT模型分类会得到一个2维向量作为分类结果,训练集和开发集的一个文本经过4个BERT模型的分类得到了一个8维向量。

进一步的,在步骤s6中,使用训练集和开发集的文本转化后的8维向量数据和训练集初始分类标签来训练LightGBM模型,并采用五折交叉验证,逐步调整LightGBM模型超参数。

本发明具有以下有益效果:

本发明通过集成4个不同BERT模型的LightGBM模型,自动化地出筛选RCT类的题目和摘要,本发明筛选结果的准确度、敏感度及特异度均更高,更加快速准确,减少人工工作量。

附图说明

图1为本发明总体框架工作流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进行进一步详细说明。

基于LightGBM集成多个BERT模型的随机对照试验识别方法,包括以下步骤:

步骤s1:将预先准备的初始RCT数据分割为训练集、开发集以及测试集,所述初始RCT数据包括文本以及初始分类标签。

所述初始RCT数据源自于Cochrane。Cochrane是系统评价领域的一个公认项目,来自158个国家的全球卫生科学研究人员参与了对文本的分类。受过研究方法的训练的配对的评审员,独立筛选标题/摘要。并且,评审员通过讨论或必要时与第三位审查员协商来解决分歧。

所述文本包括题目和摘要,所述初始分类标签包括RCT类和非RCT类。

在步骤s1中,所述分割包括以下步骤:

步骤s101:将初始RCT数据均分为5份不相交的数据集;

步骤s102:依次选择s101中的5份的其中1份作为测试集,将其余4份作为训练数据,由此得到5组数据,5组数据中,各自包含1份训练数据和1份测试集,训练数据与测试集比例为4:1;

步骤s103:分别将5组数据中的每一组训练数据以3:1的比例分为训练集和开发集,由此得到新的5组数据,新的每组数据包含训练集和开发集,训练集、开发集及测试集比例为3:1:1。

步骤s2:将训练集、开发集以及测试集中的文本均分别转化为位置向量、文本向量以及字向量。

步骤s3:使用训练集中的文本转化后的位置向量、文本向量、字向量和初始分类标签分别训练4个BERT模型。

所述4个BERT模型分别为SCI-BBU、BIO-BBUP、BBU以及BIO-BBUPC,所述4个BERT模型作为基分类器。

4个BERT模型有相同的不分大小写的基础BERT模型结构,但初始参数不同,分别名为BIO-BBUPC、BIO-BBUP、SCI-BBU以及BBU。 BIO-BBUPC是2018年在PubMed数据库中的摘要和临床笔记上预训练的;BIO-BBUP是2018年在PubMed数据库中的摘要和临床笔记上预训练的;SCI-BBU在语义学语料库进行了预训练,该语料库拥有1.14万篇论文,31亿标记;SCI-BBU在训练中使用了论文的全文,而不仅仅是摘要;BBU于2018年在维基百科数据上接受了预训练。不同的预训练集意味着不同初始模型参数。

步骤s4:使用开发集中的文本转化后的位置向量、文本向量、字向量和所述初始分类标签来调整4个BERT模型的超参数。超参数的调整主要是调整了输入文本的最大长度和学习率。

步骤s5:使用训练好的4个BERT模型对训练集和开发集文本进行分类,分为RCT类和非RCT类。

在步骤s5中,训练集和开发集中的每一个文本经过一个BERT模型分类会得到一个2维向量作为分类结果,训练集和开发集的一个文本经过4个BERT模型的分类得到了一个8维向量。

步骤s6:训练LightGBM模型。

在步骤s6中,使用训练集和开发集的文本转化后的8维向量数据和训练集初始分类标签来训练LightGBM模型,并采用五折交叉验证,逐步调整LightGBM模型超参数。

如图1, 展示了完成训练的模型识别一个文本是否是RCT类的工作过程,一篇文本,经过4个基分类器BIO-BBUP,BIO-BBUPC,SCI-BBU,BBU,分别得到4个分类结果,通过如图1中所示的Concat层实现4个分类结果的拼接,将4个分类结果合并作为LightGBM的输入,经过LightGBM模型,得到最终的分类结果,即RCT类或者非RCT类。每个文本经过基分类器或LightGBM模型计算得到的分类结果为一个2维向量([0,1]或者[1,0]),其中[0,1]代表非RCT类及 [1,0]代表RCT类。

步骤s7:使用4个BERT模型对测试集数据进行分类,得到分类结果,lightGBM模型综合4个BERT模型的分类结果得到测试集的最终分类结果,即为筛选结果。

下面通过五折交叉验证来说明本发明的技术效果:

评价方法性能的指标有准确性、敏感性、特异性、遗漏研究和工作量节省。RCT类的引文为合格引文,非RCT类的引文为不合格引文。准确度是正确预测的引文数量与引文总数的比率。敏感度是正确预测为合格引文的合格引文数量与合格引文总数的比率。特异度是被正确预测为不合格的引文数量与不合格引文总数的比率。

五折交叉验证,主要目的是为了说明模型的鲁棒性,模型本身具有稳定性。五折交叉验证中,本发明在每一次的测试集表现出稳定的高敏感性和特异性。测试集包含1472篇RCT类的引文,15,323篇非RCT类的引文,共16,794篇文献。

在案例研究评价集中的准确度为95%,灵敏度为93%,特异度为95%。灵敏度93%在案例研究中优于每个单一的BERT模型。在不采用其他措施且完全接受本发明准确性的情况下,本发明将避免手动筛选16,794篇引文中的14,650篇,使工作量减少87%。模型最终参数为以全部数据作为训练集所得到的模型参数,模型的评价参数以五折交叉验证的模型平均评价参数作为模型的最终评价参数。

不同NLP方法识别RCT类的五折交叉验证结果均值如表1所示:

表1:不同NLP方法识别RCT类的五折交叉验证结果均值

本发明识别RCT类的五折交叉验证结果如表2所示:

表2:识别RCT类的五折交叉验证结果

当然,本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号