首页> 中国专利> 一种基于自然语言处理的单细胞相关技术数据分析方法

一种基于自然语言处理的单细胞相关技术数据分析方法

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明公开了一种基于自然语言处理的单细胞相关技术数据分析方法，包括如下步骤：步骤一、对单细胞相关技术的文本进行数据预处理；步骤二、利用TF‑IDF进行单细胞相关技术的文本表示，构建文档向量空间模型，生成文档向量；步骤三、对所述文档向量进行单细胞相关技术的文本特征提取，得到单细胞相关技术的文本研究的主题和特征项；步骤四、对主题词进行向量表达，生成主题词向量矩阵；步骤五、将所述主题词向量矩阵输入AP聚类模型，主题词进行聚类，得到单细胞相关技术的文本数据的热点词簇；步骤六、对所述热点词簇进行实体识别分析。

著录项

公开/公告号CN113011133A

专利类型发明专利
公开/公告日2021-06-22

原文格式PDF
申请/专利权人吉林大学珠海学院;
展开▼

申请/专利号CN202110200765.X
发明设计人郑淮予;梁艳春;管仁初;
展开▼

申请日2021-02-23
分类号G06F40/117(20200101);G06F40/284(20200101);G06F40/289(20200101);G06F40/295(20200101);G06F40/30(20200101);G06K9/62(20060101);G16B40/00(20190101);
代理机构11369 北京远大卓悦知识产权代理有限公司;
代理人刘小娇
地址 519000 广东省珠海市金湾区安基东路8号
入库时间 2023-06-19 11:32:36

说明书

技术领域

本发明属于单细胞相关技术数据分析技术领域，特别涉及一种基于自然语言处理的单细胞相关技术数据分析方法。

背景技术

随着计算机技术的高速发展，计算机技术已经被应用于各个学科，信息生物学是近年的研究热门领域，应用计算机技术帮助解决生物学方面的问题变得越发普遍，近年来，随着人们对生物学和医学的研究深入，单细胞学成为研究的热点方向，在对细胞的研究中，每种细胞类型都有不同的谱系和独特的功能，对组织和器官产生不同的影响，并最终定义机体整体的生物学功能，每个细胞都会因为细胞的谱系和发育的不同环境有天然的异质性，在对细胞进行分析时，大部分的实验结果往往是细胞群体中信号表达的均值，是对细胞群体进行整体表征，或者只代表其中在数量上占优势的细胞信息，单个细胞独有的细胞特性往往被忽略。而大量研究发现在同一器官或组织的相同类型细胞也表现出显着的异质性，每个细胞都有其独特的表达模式。例如实体瘤样本的总RNA，一半以上来源于非癌细胞(成纤维细胞、淋巴细胞、巨噬细胞等)，使得癌细胞的信号可能被隐藏。因此，采用均值对单个细胞进行表征是不合适的，可能会丢失许多关键信息，单细胞的研究可以用来分析精确度较高的医学领域例如细胞的异质性等，单细胞的研究具有广阔的应用前景。单细胞相关技术的研究大部分是在医学实验中进行，随着互联网的高速发展，信息的传播性和流通性加快，关于单细胞相关技术研究的数据得到沉淀，这些数据中蕴藏着大量的潜在知识，从大量单细胞相关技术的数据中提取到潜在的知识对未来医学的研究非常重要，可以为医学研究者提供信息抓手和研究方向，从而加速医学的发展。

发明内容

本发明的目的是提供一种基于自然语言处理的单细胞相关技术数据分析方法，应用自然语言处理技术从大量的单细胞相关技术文本中发现潜在的语义信息，通过分析潜在的语义信息获取单细胞相关技术的研究热点方向。

本发明提供的技术方案为：

一种基于自然语言处理的单细胞相关技术数据分析方法，包括如下步骤：

包括如下步骤：

步骤一、对单细胞相关技术的文本进行数据预处理；

步骤二、利用TF-IDF进行单细胞相关技术的文本表示，构建文档向量空间模型，生成文档向量；

步骤三、对所述文档向量进行单细胞相关技术的文本特征提取，得到单细胞相关技术的文本研究的主题和特征项；

步骤四、对主题词进行向量表达，生成主题词向量矩阵；

步骤五、将所述主题词向量矩阵输入AP聚类模型，主题词进行聚类，得到单细胞相关技术的文本数据的热点词簇；

步骤六、对所述热点词簇进行实体识别分析。

优选的是，在所述步骤四之前还包括：

使用word2vec方法对单细胞相关技术的文本进行词向量训练，生成词向量模型。

优选的是，在所述步骤一中，数据预处理包括：

利用波特算法进行分词操作，将有关联的词分为一组；

词型还原，将单词转化为基本形式；

对单词的词性进行标注后，根据词性筛选去除不需要的单词；以及

去除停用词。

优选的是，在所述步骤二中，将单细胞相关技术的文档中词的词频与逆词频进行结合，并计算得到文档中每个词的TF-IDF值，形成文档向量。

优选的是，TF-IDF值为TF*IDF；

其中，

式中，n

优选的是，在所述步骤三中，采用LDA模型对使用TF-IDF构建好的文档向量，进行单细胞相关技术的文本特征提取。

优选的是，在所述步骤四中，生成主题词向量矩阵的方法为：

将主题映射到word2vec空间上，并将主题中的每个单词用该单词的词向量表示；将每个单词对主题的贡献率作为词向量的权值，累加得到一个M*N主题向量，主题词向量矩阵转换为一个K*M*N的三维张量。

优选的是，在所述步骤五中，采用吸引子传播算法对使用word2vec表达的LDA结果进行聚类，输入为主题词向量矩阵，使用余弦相似度占座位矩阵之间的相似度度量；其中，簇内的每个单词是按照其聚合在主题中的数目均值得到的。

优选的是，在所述步骤六中，采用基于规则与字典相结合的方法进行实体识别分析，以Mesh数据库为基准，对数据进行识别，别匹配规则包括：

按照字符直接匹配，如字符串匹配成功，返回该单词及其mesh分类；

将单词进行词型还原匹配，如匹配成功，返回该单词及其mesh分类；

将单词进行大小写转换，转为小写的形式进行匹配，如匹配成功，返回该单词及其mesh分类；

其中，如果单词是缩写词形式，则不进行大小写转换本发明的有益效果是：

(1)本发明提供的基于自然语言处理的单细胞相关技术数据分析方法，通过自然语言处理方法识别大规模文档集中潜藏的语义信息，根据自然语言处理方法的结果来挖掘单细胞相关技术中的潜在信息，对潜在的信息进行分析得到研究热点和研究趋势，可以为医学研究者提供研究的抓手和支持。

(2)本发明提供的基于自然语言处理的单细胞相关技术数据分析方法，基于LDA和AP算法的文本热点提取方法，相较于传统的文本语义潜在分析方法，该方法进一步的将LDA分类结果提取进行聚类，可以得到更深入的潜在信息。

(3)本发明采用Mesh实体识别进行分类，将最终结果进行Mesh标准化，为医学研究工作者提供更标准的热点分析方向。

附图说明

图1为本发明所述的基于自然语言处理的单细胞相关技术数据分析方法的流程图。

图2为本发明所述的训练阶段的流程图。

具体实施方式

下面结合附图对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

如图1-2所示，本发明提供了一种基于自然语言处理的单细胞相关技术数据分析方法，本发明基于单细胞相关技术的论文数据进行分析，旨在通过分析历年的论文数据中的潜在信息来获取单细胞相关技术的研究热点和未来发展方向，为医学工作者提供研究的抓手和方向。

本发明包括：训练阶段和分析阶段。

一、训练阶段包括：

1、将获取到的单细胞相关技术的文本进行数据预处理，数据预处理流程包括：分词、词型还原、词性标注、去停用词。数据预处理的具体过程如下：

(1)分词，利用波特算法进行分词操作，将有关联的词分为一组；同时在分词过程中加入Mesh数据库中的实体数据，将文本中包含的Mesh数据库中的词组用‘_’连接在一起，构成一个新的“单词”。

(2)词型还原，将单词以及词组的多种形式(例如：复数形式)转换为最基本的形式，降低实验数据的复杂度，本发明中采用NLTK和Spacy两种词型还原操作同时处理数据。

(3)词性标注，将单词根据词性标注为名词、动词、副词等，从而可以根据需要筛选掉不需要的单词，将对文档语义表达上没有帮助的单词去除，本实施例采用的标注方式为Spacy标注。

(4)去除停用词，本发明对文本中的一些对语义表达没有帮助的单词进行去除，例如助词、冠词等；本发明采用停用词表名词匹配的方式进行识别到停用词。

2、利用TF-IDF进行单细胞相关技术的文本表示，构建文档向量空间模型，生成文档向量。

TF-IDF方法是评价一个单词对于一个数据集中的一个文档得到重要程度的方法，在该算法中单细胞的重要性随着其在文档中出现的次数成正比例，但是同时会随着在语料库中出现的频率成反比例。具体的，将单细胞相关技术的文档中词的词频与逆词频进行结合，并通过平滑处理后计算得到文档中每个词的TF-IDF值，形成文档向量。

在本实施例中，利用TF-IDF进行单细胞相关技术的文本表示，构建文档向量空间模型，生成文档向量包括：将单细胞相关技术的文档中词的词频与逆词频进行结合，并通过平滑处理后计算得到文档中每个词的TF-IDF值，形成文档向量。TF-IDF是指TF*IDF，其中TF为单词t在文档d中出现的频率，具体计算过程为：

其中，n

IDF指逆向文档频率，即如果包含单词t

其中，|D|指语料库中所有文档的总数，|{j：t

3、采用LDA模型对使用TF-IDF构建好的文档向量，进行单细胞相关技术的文本特征提取，提取得到单细胞相关技术的文本研究主题和特征项。

将经过TF-IDF处理的文档向量输入到LDA主题模型中，设定主题数和语义阈值，其中主题数和语义阈值需要通过预先训练得到，主题模型结果中得到的每个主题理论上独立的，但是由于每个主题均包含数据集中方的所有单词，但是每个单词在不同主题的概率不同，所以通过主题模型训练可以讲文本中的单词或词组以主题的形式存在，缩小了实体范围。

在本实施例中，采用LDA模型对使用TF-IDF构建好的文档向量，进行单细胞相关技术的文本特征提取，提取得到单细胞相关技术的文本研究主题和特征项包括：主题模型是对输入数据进行主题抽取，输出的是一个N*M的矩阵，其中N为主题的数目，该数据为模型参数，通过预先训练得到。M为每个主题按贡献概率排序后的前M个单词，该参数有模型设置决定。得到的主题矩阵每一行为一个主题，每列中每个单词后面都紧跟着该单词被选择出现在该主题中的概率，即该单词对该主题的贡献率。本发明中采用LDA模型进行主题抽取，其中LDA模型采用的是GibbsSampling算法实现。在LDA的训练过程中使用困惑度对LDA模型进行评价，困惑度越低说明效果越好，一般采用困惑度的值趋于平衡的点其计算过程为：

p(w)＝p(z|d)*p(w|z)；

其中，

4、将经过预处理后的单细胞相关技术的文本使用word2vec方法进行词向量训练，生成词向量模型。

所述的将经过预处理后的单细胞相关技术的文本使用word2vec方法进行词向量训练，生成词向量模型包括：word2vec词向量模型是用向量的形式表示单词，即将数据中的单词投影到同一语义向量空间中，输入为保留停用词的预处理后的文本文件，通过词向量训练来进行上下文的向量构建，输出结合上下文的词向量。通过词向量模型训练后得到是一个M*N的向量矩阵，M为所有单词的数量，N为词向量的维度，N为模型参数，可以根据不同需求设定，本实施例设定N的值为300。本实施例利用word2vec模型中的skip-garm结构进行词向量训练。

5、使用训练好的词向量对LDA模型输出的主题词进行向量表达，生成主题向量矩阵。

所述的使用训练好的词向量对LDA模型输出的主题词进行向量表达，生成主题向量矩阵包括：将主题映射到word2vec空间上，由于主题训练结果中每个主题由单词或词组组成，并没有具体的量化表示。因此将主题中每个单词用该单词的词向量表示，并通过每个单词对主题的贡献率作为词向量的权值，最终累加得到一个M*N主题向量，而主题矩阵转换为一个K*M*N的三维张量，其中K为LDA算法中生成的主题数量。

6、使用AP聚类模型对LDA的主题词进行聚类，其输入为主题词向量矩阵，结果为单细胞相关技术的文本数据的热点词簇。具体包括：

LDA的训练结果为潜在语义分析的初步结果，每个主题之间有重叠关联部分，为了更好的进行潜在信息发掘，需要对主题训练的结果进行再聚类。本发明采用的是吸引子传播算法，输入为主题向量矩阵，并采用余弦相似度作为矩阵之间的相似度度量，最终结果，簇内的每个单词是按照其在聚合在其中的主题的数目均值得到的。AP算法中对吸引信息和归属信息进行交替更新，其中吸引信息按照下面公式进行迭代：

其中，s是刻画点之间相似度的矩阵，元素r(i,k)描述了数据对象k适合作为数据对象i的聚类中心的程度，表示的是从i到k的消息。

归属信息按照下面公式进行迭代：

其中，元素a(i,k)描述了数据对象i选择数据对象k作为其聚类中心的合适程度，表示的是从k到i的消息

本实施例中采用相似度矩阵的中间值作为自相似性。最终结果中，展示经过算法分类后的词簇，簇中展示单词及其在该簇中的权重。

二、分析阶段：

分析阶段即对AP聚类后的结果在语义方面进行进一步的分析处理，本实施例采用基于规则与字典相结合的方法进行实体识别分析，识别的过程使用模式匹配的方法进行处理，具体处理方式为每年所有的聚类记过进行合并，然后利用字符串匹配的方式将聚类的记过同Mesh数据库中的实体进行匹配，识别出可以被匹配成功的实体。以Mesh数据库为基准，对数据进行识别，具体的识别匹配规则有三个：

(1)按照字符直接匹配，如字符串匹配成功，返回该单词及其mesh分类。

(2)将单词进行词型还原匹配，如匹配成功，返回该单词及其mesh分类。

(3)将单词进行大小写转换，如果是缩写词形式，则不转换，否则按照转为小写的形式进行匹配，如匹配成功，返回该单词及其mesh分类。

本发明将自然语言处理与单细胞相关技术结合进行分析，提出基于LDA和AP的潜在主题发现算法，为主题信息发现提供一种思路。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于自然语言处理的单细胞相关技术数据分析方法 [P] . 中国专利： CN113011133A . 2021-06-22
2. 基于自然语言处理的数据分析方法、装置和计算机设备 [P] . 中国专利： CN111753527A . 2020-10-09
3. Novel and innovative means of providing an anonymized and secure mechanism for speech-to-text conversion. This invention provides a versatile and extensible privacy layer that leverages existing cloud-based Automated Speech Recognition (ASR) services and can accommodate emerging speech-to-text technologies, such as Natural Language Processing (NLP), voice bots and other voice-based artificial intelligence interfaces. This invention also allows the latest and best-of-breed speech technologies to be applied to the legal, medical, financial, and other privacy-sensitive fields without sacrificing [P] . 美国专利： US2020005792A1 . 2020-01-02

机译：为语音到文本转换提供匿名和安全机制的新颖创新方法。本发明提供了一种通用且可扩展的隐私层，其利用了现有的基于云的自动语音识别（ASR）服务，并且可以适应新兴的语音到文本技术，例如自然语言处理（NLP），语音机器人和其他基于语音的人工语言。智能接口。本发明还允许在不牺牲法律，医学，金融和其他隐私敏感领域的情况下应用最新和最好的语音技术。
4. DATA ANALYSIS METHOD AND APPARATUS BASED ON NATURAL LANGUAGE PROCESSING, AND COMPUTER DEVICE [P] . WO2021139343A1 . 2021-07-15

机译：基于自然语言处理和计算机设备的数据分析方法和装置
5. SINGLE-CELL CHROMATIN ACCESSIBILITY SEQUENCING DATA ANALYSIS METHOD AND SYSTEM BASED ON PEAK CLUSTERING [P] . 世界知识产权组织专利： WO2020198942A1 . 2020-10-08

机译：基于峰聚类的单细胞染色质可达性排序数据分析方法及系统