RNA-SEQ分析
RNA-Seq就是指转录组的测序技术,而RNA-Seq流程是指分析测序数据的一整套相关程序的集合,在这里面分享的内容分别是:用soap软件将测序后的数据比对到参考基因或参考基因组上、对比对后的数据进行过滤、统计过滤后数据信息并计算基于的表达量,覆盖率,长度等、查看reads在参考基因组上的分布情况、计算两个样本之间基因表达量的相关性、在两个样本之间筛选差异基因、对筛选出来的差异基因进行聚类分析,对差异基因进行GO功能富集分析、对差异基因进行Pathway功能富集分析。
该流程是针对深圳华因康基因科技有限公司自身的测序特点来编写的,通过RNA-Seq流程的分析,可以了解某种样本的基因表达情况,以及主要的生物学功能。
分析服务流程:
案例分析:
1、基因的长度、覆盖率和表达量的计算
解释:Rawreads:测序后的reads个数,Mapreads:能比对上的reads个数,Uniquereads:只比对到一个位置上的reads个数,Multireads:比对到多位点的reads个数,Perfectmap:0错配的reads个数,Missmap:有2个错配的reads个数,Length:基因长度,Coverage:基因被所有reads覆盖过的碱基个数和整个基因的长度比值,Unireads:唯一比对到这个基因上的reads个数,RPKM:基因的表达量,用于后续分析。
2、查看reads在参考基因组上分布情况
以酵母2号染色体为例:
解释:酵母包括线粒体内染色体在内一共有17套染色体,构成酵母细胞的全套基因组,将reads 比对到参考基因组上的位置相对到标准位置上,即比对到的位置信息与这条序列长度的比值(横坐标),纵坐标表示reads的个数。从图中可以看出,reads在2号染色体上的分布并不均匀,说明有些序列(基因)高表达,有些序列(基因)低表达。其他(部分)染色体图信息如下:
3、两个样本基因表达量的相关性
解释:查看两个样本之间的基因表达量相关性,这里用spearman系数和斜率来查看,从图中可以直接,大概的了解两者之间的区别。图中的每个点代表一个基因的表达量,如果点越分散,说明两个样本之间存在越多的差异基因。
4、差异基因的筛选
这里同样用两个酵母的样本来举例。
|
Haploid |
Diploid |
Reference genes |
5720 |
5720 |
Detected genes |
5294 |
5287 |
Diffgenes |
821 |
163 |
解释:Reference genes:是指参考基因的个数;Detected genes:是指检测到的基因个数(允许1-2个mismatch,并且至少是2条reads覆盖到某基因上);Diffgene是指:差异基因个数,差异基因是指某个基因在具体某个样本里面表达比较高的基因。