PAcluster: Clustering polyadenylation site data using canonical correlation analysis

Ji Guoli; Lin Qianmin; Long Yuqi; Ye Congting; Ye Wenbin; Wu Xiaohui

首页> 外文期刊>Journal of Bioinformatics and Computational Biology >PAcluster: Clustering polyadenylation site data using canonical correlation analysis

【24h】

PAcluster: Clustering polyadenylation site data using canonical correlation analysis

机译：PACLUSTER：使用规范相关分析聚类多腺苷酸化站点数据

获取原文

获取原文并翻译 | 示例

获取外文期刊封面封底 >>

开具论文收录证明 >>

文献代查 >>

团队文献服务 >>

页面导航

摘要
著录项
引文网络
相似文献
相关主题

摘要

Alternative polyadenylation (APA) is a pervasive mechanism that contributes to gene regulation. Increasing sequenced poly(A) sites are placing new demands for the development of computational methods to investigate APA regulation. Cluster analysis is important to identify groups of co-expressed genes. However, clustering of poly(A) sites has not been extensively studied in APA, where most APA studies failed to consider the distribution, abundance, and variation of APA sites in each gene. Here we constructed a two-layer model based on canonical correlation analysis (CCA) to explore the underlying biological mechanisms in APA regulation. The first layer quantifies the general correlation of APA sites across various conditions between each gene and the second layer identifies genes with statistically significant correlation on their APA patterns to infer APA-specific gene clusters. Using hierarchical clustering, we comprehensively compared our method with four other widely used distance measures based on three performance indexes. Results showed that our method significantly enhanced the clustering performance for both synthetic and real poly(A) site data and could generate clusters with more biological meaning. We have implemented the CCA-based method as a publically available R package called PAcluster, which provides an efficient solution to the clustering of large APA-specific biological dataset.

机译：替代的多腺苷酸化（APA）是一种有助于基因调控的普遍机制。增加测序多（a）站点正在为调查APA调节的计算方法的开发提供新的需求。聚类分析对于鉴定共同表达基因的群体是重要的。然而，在APA中尚未广泛研究聚（a）位点的聚类，其中大多数APA研究未能考虑每个基因中APA位点的分布，丰度和变异。在这里，我们基于规范相关分析（CCA）构建了一种双层模型，探讨APA调节中的潜在生物机制。第一层量化了每种基因之间的各种条件的APA位点的一般相关性，第二层鉴定了在其APA模式上具有统计学显着相关的基因，以推断特定的APA特异性基因簇。使用分层聚类，我们将我们的方法与三个基于三个性能索引的四个其他广泛使用的距离措施进行了全面。结果表明，我们的方法显着提高了合成和真实多（A）现场数据的聚类性能，可以产生具有更多生物学意义的集群。我们已经实现了基于CCA的方法作为称为PACLUSTRUST的公开可用的R包，它为大型APA的生物数据集进行了有效的解决方案。

著录项

来源
《Journal of Bioinformatics and Computational Biology》 |2017年第5期|共19页
作者
Ji Guoli; Lin Qianmin; Long Yuqi; Ye Congting; Ye Wenbin; Wu Xiaohui;
展开▼
作者单位

Xiamen Univ Dept Automat Xiamen Fujian Peoples R China;

Xiamen Univ Dept Automat Xiamen Fujian Peoples R China;

Xiamen Univ Dept Automat Xiamen Fujian Peoples R China;

Xiamen Univ Coll Environm &

Ecol Xiamen Fujian Peoples R China;

Xiamen Univ Dept Automat Xiamen Fujian Peoples R China;

Xiamen Univ Dept Automat Xiamen Fujian Peoples R China;

展开▼
收录信息
原文格式 PDF
正文语种 eng
中图分类细胞生物学;
关键词
Polyadenylation; alternative polyadenylation; cluster analysis; canonical correlation analysis; software;

机译：聚腺苷酸;替代多腺苷酸;聚类分析;规范相关分析;软件;

相似文献

外文文献
中文文献
专利

1. PAcluster: Clustering polyadenylation site data using canonical correlation analysis [J] . Ji Guoli, Lin Qianmin, Long Yuqi, Journal of Bioinformatics and Computational Biology . 2017,第5期

机译：PACLUSTER：使用规范相关分析聚类多腺苷酸化站点数据
2. Comparison Of Canonical Correlation Analysis And The Generalized Canonical Correlation Analysis Using The Lognormal And Cauchy Distributed Data [J] . S. I. ONYEAGU, G. A. OSUJI, O.M. ONYIA Mathematical Theory and Modeling . 2014,第5期

机译：使用对数正态和柯西分布数据进行典范相关分析和广义典范相关分析的比较
3. Clustering adaptive canonical correlations for high-dimensional multi-modal data [J] . Su Shuzhi, Fang Xianjin, Yang Gaoming, Journal of visual communication & image representation . 2020,第Auga期

机译：聚类高维多模态数据的自适应规范相关性
4. Distributed sparse canonical correlation analysis in clustering sensor data [C] . Chen Jia, Schizas Ioannis D. Asilomar Conference on Signals, Systems Computers . 2013

机译：聚类传感器数据中的分布式稀疏典范相关分析
5. The functional data analysis of hourly air pollution data: Canonical correlation and principal component analyses of PM10, PM2.5 and ozone data for El Paso, Texas. [D] . Samuels, Vernon. 2006

机译：每小时空气污染数据的功能数据分析：德克萨斯州埃尔帕索的PM10，PM2.5和臭氧数据的典范相关性和主成分分析。
6. Cluster analysis of replicated alternative polyadenylation data using canonical correlation analysis [O] . Wenbin Ye, Yuqi Long, Guoli Ji, 2019

机译：使用规范相关分析对重复的替代聚腺苷酸化数据进行聚类分析
7. Flood Frequency Analysis at Ungauged Site Using Group Method of Data Handling and Canonical Correlation Analysis [O] . Basri Badyalina, Ani Shabri 2016

机译：采用分组数据处理方法和典型相关分析的无人值点洪水频率分析
8. Does Canonical Correlation Analysis Provide Reliable Information on Data Correlation in Array Processing [R] . Ge, H., Kirsteins, I. P., Wang, X. 2009

机译：规范相关分析是否为阵列处理中的数据关联提供了可靠的信息

PAcluster: Clustering polyadenylation site data using canonical correlation analysis

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅