不做实验如何快速发文章? 结直肠癌可变剪切数据挖掘套路分享
2019.12.26
1662次

背景:

      可变剪切(AS)是一种有效和普遍的转录调控机制,扩大了基因组的编码能力,并与癌症的发生和发展相关。目前对结直肠癌(CRC)的可变剪接进行系统的分析非常少,因此研究这个是非常有必要的。


思路:

       从TCGA数据库下载RNA-seq数据和相应的临床信息。然后,使用SpliceSeq来评估RNA剪接模式,并计算了 Percent Spliced In (PSI)值。根据PSI值比较CRC和癌旁的差异可变剪切事件(DEAS)。利用生物信息学方法进一步分析了DEAS及其剪接网络。最后,采用Kaplan-Meier、Cox比例回归和非监督聚类分析方法,评价DEAS与患者临床特征的关系。


微信图片_20191226111327.jpg


结果:

       本研究共识别出34,334个AS,其中421个DEAS。这些DEAS的亲本基因在调节蛋白激酶活性、PI3K-AKT信号通路和p53信号通路等CRC相关过程中发挥重要作用。有37个DEAS事件与OS有关,68个DEAS事件与DFS相关,其中AT(CXCL12)和RI(CSTF3)与OS和DFS均显著相关。基于DEAS的无监督聚类分析,显示具有不同生存模式的4个类,并与一致的分子亚型相关。

结论:

       在CRC中,AS事件似乎存在很大的差异,这些差异可能是预后和生物学调控的重要决定因素。我们所鉴定的DEAS和剪接网络对于揭示CRC中AS的潜在机制具有重要价值,并为进一步验证治疗靶点提供了线索。



       接下来,让我们来看看作者具体是怎么做的吧~


一、可变剪切事件鉴定


       从TCGA中获得627例CRC患者的RNA-seq数据,经SpliceSeq分析,得到82,411 AS事件(13,201个基因)。根据剪接模式,这些事件大致可分为七种类型,包括外显子跳跃(ES)、互斥外显子(ME)、保留内含子(RI、候补启动子(AP)、候补终止子(AT)、替代供体位点(AD)和候补受体位点(AA)(图a)。将AS事件进行两步过滤:a)具有PSI值的样本大于75%;b)PSI均值大于0.05。经过滤后,剩余34,334 AS事件(8942个基因)。平均一个基因,有4个AS类型。


二、可变剪切事件差异分析


       用T检验比较了肿瘤样本和正常人样本的AS事件的PSI值,取|log2FC|>1且adj.P


       基于DEAS的无监督的聚类分析,肿瘤样本和正常人样本被清楚地分为两组(图b),这表明以上鉴定的DEAS结果是可信的。DEAS可能直接影响其亲本RNA的表达,特别是当AT或AP事件发生时。为了探讨DEAS与差异表达基因(DEG)之间的关系,我们对DEG中发生的DEAS进行了分析(图c)。如我们所料,影响亲本RNA表达的DEAS,AT(44.4%)和AP(50.0%)占比94.4%。图d是几个基因的AS事件示意图~


微信图片_20191226112200.jpg

微信图片_20191226111348.jpg



三、差异可变剪切富集及互作分析


      已经有证据表明AS可以通过一些机制直接影响蛋白质功能。因此,对发生DEAS的亲本基因进行了GO、KEGG富集分析。GO富集分析显示,这些基因多与蛋白结合、细胞形态发生、GTPase调节活性和蛋白激酶活性有关。KEGG富集分析显示,这些基因多富集在PI3K-Akt信号通路、p53信号通路、NF-kb信号通路等癌症相关通路中。上述结果表明DEAS的亲本基因在调节CRC相关生物学过程中起着重要作用。而这些基因转录体结构的变化必然会影响其蛋白翻译,并进一步修饰其蛋白质特征。因此,有必要从蛋白质网络的角度对这些事件进行研究。基于DEAS相关基因的PPI网络分析不仅显示了正常状态下的交互关系,而且揭示了AS事件对整个网络的潜在影响。



微信图片_20191226111357.jpg



四、剪切因子与DEAS相关性网络


       由于AS事件主要由剪接因子调控,这些剪接因子与前mRNAs结合,影响外显子的选择和剪接位点的选择,更重要的是,肿瘤微环境中的DEAS可能是由几个关键的剪接因子引起的。本研究通过文献和数据库的手工筛选,确定了71个剪接因子,这些剪接因子都在先前的研究中进行了实验验证。我们从TCGA数据库中,找到了这些剪接因子的表达数据。然后,将71个剪接因子的表达水平与每个DEAS的PSI值进行相关性分析,并构建了剪切调控网络(|R|>0.5,p


微信图片_20191226111403.jpg



五、DEAS在大肠癌预后中的价值


      对于每一种AS,我们根据PSI值将病人分为两组,然后分别对OS和DFS进行单变量生存分析,结果发现总共37个DEAS事件与OS相关,68个DEAS事件与DFS相关。图a展示了同时与OS和DFS显著相关的DEAS。单因素分析中与生存率显著相关的DEAS通过多因素分析进一步评估,以确定CRC的独立预后指标,结果发现,有4个OS独立预后指标,11个DFS独立预后指标(图b)。并且AT(CXCL12)和RI(CSTF3)可以作为大肠癌OS和DFS的独立预后指标。


微信图片_20191226111409.jpg

微信图片_20191226111450.jpg


       AT(CXCL12)和RI(CSTF3)根据PSI值分组患者在OS和DFS存活分析中均形成了显著的Kaplan-Meier曲线(图ab)。以上结果说明DEAS不仅具有重要的生物学意义,而且具有潜在的临床价值。


微信图片_20191226111455.jpg


六、与预后和分子亚型相关的AS簇


      我们的研究结果表明,每种DEAS在个体水平上的表达差异很大,部分反映了CRC患者的预后。因此我们思考通过对所有样本进行无监督的聚类,是否可以根据421的DEAS来识别出不同的AS模式。通过结合用肘子法(Elbow method)和Gap statistic,我们确定了分类数k=4(图a,b)。临床数据和突变数据与聚类结果一起展示在图c,我们发现不同的CMS、TNM分期、KRASm和生存状态(OS和DFS) 的CRC样本在集群间中的分布不是随机的。例如,归类为C3的肿瘤样本有更频繁的KRAS突变和富集的CMS4和晚期TNM分期。作为CRC的先前定义的共识分子亚型,CMS4已被证明包括更多的间充质样癌症,具有高的基质浸润和较差的患者预后。因此,我们进行了Kaplan-Meier分析,以评估聚类和预后之间的关系。结果表明,聚类与不同的预后显著相关,其中C3的肿瘤样本在OS和DFS分析中均与不良预后相关(图d)。总的来说,这些发现表明,CRC的AS有相当大的差异,部分是由原发性肿瘤的分子特征决定,进而影响了临床结果。


微信图片_20191226111502.jpg


      RNA_seq、差异分析、GO、KEGG、PPI、相关性分析、生存分析、聚类分析……这些超级常见的生信分析方法,加上了可变剪切,立马身价倍增,你值得拥有!



在线咨询
在线咨询
OA系统入口