转录组分析一条龙

04-29

Trinity 进行转录组分析的一条龙服务

1. Trinity进行转录组组装

Trinity 进行转录组组装的典型命令如下:

$ /opt/biosoft/trinityrnaseq_r20131110/Trinity.pl --seqType fq --JM 50G\ --left sample1_1.clean.fastq sample2_1.clean.fastq\

--right sample1_2.clean.fastq sample2_2.clean.fastq\

--jaccard_clip --CPU 6 --SS_lib_type FR

–JM 后的参数设定与转录组的大小有关，在内存足够的情况下，设定大点能节约时间；

–left 和 –right 后可以接多个样平的数据，并用空格隔开，值得注意的是，left reads name 以/1结尾，rigth reads name以/2结尾；

–jaccard_clip 适合于基因稠密的真菌物种；

–SS_lib_type 适合于链特异性测序

大数据量(>300M pairs)的RNA-seq 数据，最好使用

TRINITY_RNASEQ_ROOT/util/normalize_by_kmer_coverage.pl对reads 进行处理后再使用trinity 进行组装，以降低内存消耗和大量时间。

也可以设置–min_kmer_cov 2，丢弃uniquely occurring kmer, 从而降低内存消耗。参考文献：

1. Grabherr MG, Haas BJ, Yassour M, Levin JZ, Thompson DA, Amit I, Adiconis X, Fan L, Raychowdhury R, Zeng Q, Chen Z, Mauceli E, Hacohen N, Gnirke A, Rhind N, di Palma F, Birren BW, Nusbaum C, Lindblad-Toh K, Friedman N, Regev

A. Full-length transcriptome assembly from RNA-seq data without a reference genome. Nat Biotechnol. 2011 May 15;29(7):644-52. doi: 10.1038/nbt.1883. PubMed PMID: 21572440.

2. Borodina T, Adjaye J, Sultan M. A strand-specific library preparation protocol for RNA sequencing. Methods Enzymol. 2011;500:79-98. PubMed PMID: 21943893.

2. Trinity输出结果的统计

Trinity 默认的输出结果为：trinity_out_dir/Trinity.fasta。

该fasta 格式文件中序列名例如：

>comp6749_c0_seq1 len=328 path=[471:0-83 388:84-208 679:209-327] >comp6749_c0_seq2 len=328 path=[304:0-83 388:84-208 679:209-327] >comp6749_c0_seq3 len=245 path=[901:0-125 679:126-244]

可以看到，trinity 生成的结果为components, 而一个components 可能有多个seq 。这相当于一个gene 能有多个transcripts 。

可以使用trinity 自带的程序TrinityStats.pl 对components 和transcripts 的数目，大小和N50等进行统计。

$ $TRINITY_HOME/util/TrinityStats.pl trinity_out_dir/Trinity.fasta Total trinity transcripts: 40138

Total trinity components:

Percent GC: 61.31 31067

3. 将reads 比对到转录组, 并进行可视化

TRINITY_RNASEQ_ROOT/util/alignReads.pl能调用bowtie 将reads map到转录组，并可以设置链特异性参数。

$ TRINITY_RNASEQ_ROOT/util/alignReads.pl --left left.fq --right right.fq --seqType fq\

--target Trinity.fasta --aligner bowtie --retain_intermediate_files 结果中生成coordSorted 和nameSorted 的sam 和bam 文件。如果设置了链特异性参数，则额外生成+链和-链的比对结果文件。

TRINITY_RNASEQ_ROOT/util/SAM_nameSorted_to_uniq_count_stats.pl用于统计比对结果

$ $TRINITY_HOME/util/SAM_nameSorted_to_uniq_count_stats.pl

bowtie_out.nameSorted.sam.+.sam

#read_type count pct

proper_pairs 21194964 93.22 both read pairs align to a single contig and point toward each other.

left_only 836213 3.68 only the left (/1) read is reported in an alignment

right_only 687576 3.02 only the right (/2) read is reported in an alignment

improper_pairs 16640 0.07 both left and right reads align, but to separate contigs, or to a single contig in the wrong expected relative orientations.

可以将Trinity.fasta 导入到IGV 中作为genome ，上载bam 文件，从而可视化比对结果。

4. 使用RSEM 进行表达量计算

首先，需要下载最新版本的RSEM ，安装并将程序加入到$PATH中。

$ wget http://deweylab.biostat.wisc.edu/rsem/src/rsem-1.2.8.tar.gz $ tar zxf rsem-1.2.8.tar.gz

$ cd rsem-1.2.8

$ make

$ echo "PATH=$PWD:\$PATH" >> ~/.bashrc

使用$TRINITY_HOME/util/RSEM_util/run_RSEM_align_n_estimate.pl可以调用RSEM ，从而计算表达量。如果是链特异性测序，则加入–SS_lib_type参数。 $TRINITY_HOME/util/RSEM_util/run_RSEM_align_n_estimate.pl

--transcripts Trinity.fasta \

--seqType fq --left left.reads.fq --right right.reads.fq --SS_lib_type FR \

--prefix RSEM --thread_count 4 -- --bowtie-phred64-quals --no-bam-output

将rsem-calculate-expression 程序的参数–bowtie-phred64-quals 和

–no-bam-output 加入到run_RSEM_align_n_estimate.pl中，则如上所示。这两个参数分别代表fastq 的质量格式是phred64，不输出bam 文件(节约大量时间) 。若运行出现问题，点击：RSEM 的README 文件。

结果生成两个abundance estimation information文件:

RSEM.isoforms.results : EM read counts per Trinity transcript

RSEM.genes.results : EM read counts on a per-Trinity-component (aka… gene) basis, ‘gene’ used loosely here.

可以根据得到的结果，去除掉IsoPct 低于1%的transcripts 。可以依据

RSEM.isoforms.results 使用

TRINITY_RNASEQ_ROOT/util/filter_fasta_by_rsem_values.pl过滤掉trinity 组装结果中的lowly supported transcripts。

但不推荐过滤掉这些序列。

5. 鉴定差异表达transcripts

Trinity 可以使用Bioconductor package中的edgeR 或DESeq 来鉴定差异表达trancripts 。因此，需要安装R 和相关的一些包。

source("http://bioconductor.org/biocLite.R")

biocLite('edgeR')

biocLite('DESeq')

biocLite('ctc')

biocLite('Biobase')

install.packages('gplots’)

install.packages(‘ape’)

5.1 使用上一节中的RSEM 来分别对每个样品的每个生物学重复进行表达量计算

5.2 将每个样的RSEM 的结果进行合并

$ $TRINITY_HOME/util/RSEM_util/merge_RSEM_frag_counts_single_table.pl \

sampleA.RSEM.isoform.results sampleB.RSEM.isoform.results ... \ > transcripts.counts.matrix

$ TRINITY_HOME/util/RSEM_util/merge_RSEM_frag_counts_single_table.pl \ sampleA.RSEM.gene.results sampleB.RSEM.gene.results ... \ > genes.counts.matrix

然后修改生成的两个matrix 文件的column headers（代表着样品和重复的名字），有利于下游的分析。如果要分析transcripts 水平的差异表达，则使用transcripts.counts.matrix 文件；若要分析gene 水平的差异表达，则使用genes.counts.matrix 。

5.3 无生物学重复进行差异表达分析

$TRINITY_HOME/Analysis/DifferentialExpression/run_DE_analysis.pl用于调用edgeR 或DESeq 进行差异表达基因分析。直接输入该命令查看其用法。 Trinty 推荐使用edgeR 进行差异表达分析。

$TRINITY_HOME/Analysis/DifferentialExpression/run_DE_analysis.pl \ --matrix counts.matrix --method edgeR

注意输入的matrix 是counts 的数据，而不要是FPKM 的数据。

5.4 有生物学重复进行差异表达分析

首先，要建立文件samples_described.txt，内容为：

conditionA condA-rep1

conditionA condA-rep2

conditionB condB-rep1

conditionB condB-rep2

conditionC condC-rep1

conditionC condC-rep2

condA-rep1, condA-rep2, condB-rep1… 等对应着counts.matrix 文件中的column names 。

命令如下：

$TRINITY_HOME/Analysis/DifferentialExpression/run_DE_analysis.pl \ --matrix SP2.rnaseq.counts.matrix --method edgeR \

--samples_file samples_described.txt

结果文件中 logFC 是 log2 Fold Change; logCPM 是 log2-counts-per-million 。值得注意的是：程序默认去除counts 数都少于10的transcripts 或genes ，不对其进行差异分析。所以有差异分析的genes 或transcripts 数目低于原始的数目。

5.5 提取差异表达基因，对其进行聚类分析

5. 5. 1 表达量的 N O R M A L I Z E D

使用TMM 方法将counts 转换为FPKM 。

首先从1个样平的RSEM 结果中提取长度数据：

$ cut -f 1,3,4 sampleA.RSEM.isoforms.results > feature_lengths.txt 然后使用TMM 方法将counts 数据转换为FPKM 数据:

$ $TRINITY_HOME/Analysis/DifferentialExpression/run_TMM_normalization_write_FPKM_matrix.pl \

--matrix counts.matrix --lengths feature_lengths.txt

5. 5. 2 提取差异表达转录子

注意的是，这一步要在edgeR 的结果文件中运行程序：

$ $TRINITY_HOME/Analysis/DifferentialExpression/analyze_diff_expr.pl \ --matrix matrix.TMM_normalized.FPKM -P 0.001 -C 2

默认下选择FDR 值低于0.001，log2fold-change 的绝对值>=2为差异表达基因。程序输出差异表达基因FPKM 、log2FC 、FDR 等值和聚类图 Heat Map.

5. 5. 3 根据聚类图提取子类

根据聚类结果，可以自动或手动确定子类。

自动确定子类：

$ $TRINITY_HOME/Analysis/DifferentialExpression/define_clusters_by_cutting_tree.pl \

--Ptree 20 -R file.all.RData

上例中从数的20%处来自动划分子类。

手动确定子类：

$ R

> load("all.RData") # check for your corresponding .RData file name to use here, replace all.RData accordingly

source("$TRINITY_HOME/Analysis/DifferentialExpression/R/manually_define_clusters.R")

> manually_define_clusters(hc_genes, centered_data)

然后左键点击选择子类，右键结束选择

6. 提取蛋白编码区

使用transdecoder 从trinity 的转录子中提取coding region。最新版的transdecoder 貌似有点问题。

$ $TRINITY_HOME/trinity-plugins/transdecoder/transcripts_to_best_scoring_ORFs.pl \

-t transcripts.fasta -m 100

默认下允许的最小的protein 长度为100.

提取出了coding region，得出对应的protein 序列，有利于于下一步的功能注释。

与《转录组分析一条龙》相关的范文

05-25 2014年高考理综生物部分试题分析

20XX年高考卷理综生物部分试题分析昆明八中杨丽 20XX年高考试题分析挑选了选择题1和非选择的29进行分析：选择题题目：1．同一物种的两类细胞各产生一种分泌蛋白，组成这两种蛋白质的各种氨基酸含量相同，但排列顺序不同，其原因是参与这两种蛋白质合成的（） A．tRNA种类不同 B．mRNA碱基序列不同 c．核糖体成分不同 D．同一密码子所决定的氨基酸不同分析：本题以细胞的成分为切入点，综合 ...

12-11 辅修专业教学计划

《生物技术》辅修专业教学计划一、专业培养目标本辅修专业培养生物技术及其相关领域的应用型人才。二、专业培养要求本辅修专业的学生通过学习可获得以下几方面知识、能力和素质： 1、掌握生命科学和生物技术等方面的基本理论和基本知识，具有一定的生物工程原理的基础知识； 2、掌握生物技术方面的基本实验技能； 3、具有综合运用所掌握的理论知识和技能，从事生物技术及其相关领域产品研发、生产、管理的能力； 4 ...

09-02 高三老师毕业寄语

高三老师毕业寄语祝愿同学们的人生道路走得平稳、坚实、铿锵、辉煌！绵软的时代，需要刚性的风骨；愿你们永远以精神的富有坦然于世。活出自由，活出坦荡！青春因奋斗而亮丽人生因高考而辉煌生命因你们而精彩毕业不是结束，毕业意味着开始，希望同学们在新的征程上脚踏实地，走得晚高、更远！直须看尽洛城花，始共春风容易别，希望同学们好好把握青春，把握这生命中最灿烂的年华，不留一丝遗憾。少年振衣，可作千里 ...

07-31 根据学校教育特点,搞好普法宣教工作(记"四五"普法工作先进个人事迹)

　　**，大学学历，35岁，中共党员，1989年8月参加教育工作，毕业于**教育学院思想政治教育专业，中学一级教师，现任*****中学办公室主任。　　他常说，作为一名党员，一名教育工作者，普法是自己的工作责任，自己能为普法宣传工作做点力所能及的事，让学生多了解国家的法律法规，这是我最开心的事。我校从20XX年起，在县普法办的领导下，按县普法办和上级的文件精神，根据县普法办的统一部署和要求，在校园内 ...

07-22 廉政文化经验

从探索特点规律入手推进廉政文化建设地方税务机关是实行垂直管理的经济执法部门，由于担负着组织地方税费收入、调节经济的管理职能，始终处于腐蚀与反腐蚀斗争的焦点，是党风廉政建设的重要阵地。全面推进地税廉政文化建设，是从源头上预防和治理腐败，深入推进地税系统反腐倡廉工作的必然要求，是构建和谐地税的重要内容。胡锦涛同志在中央纪委二次全会上指出，反腐倡廉，重在建设，就是要不断认识和把握规律，以建设性的思路 ...

08-25 说明文专题训练

一、阅读下面一段文字，完成1-4题。①飞船一般为多舱体结构，舱体之间要能分离，可靠性安全性要求极高。“神舟号”载人飞船为三舱段复合结构。最前端的一个舱体称为轨道舱，它具备可独立运行卫星的一切功能，与飞船分离后可在太空独立进行各种飞行试验；位于最后端的推进舱也称为设备舱(或资源舱)，完成既定任务后，再入大气层自毁。居中的返回舱完成任务后，承载着航天员安全返回预定的着陆场。“神舟号”飞船从发射升空至返 ...

02-19 信用社各管理部门职责

第一部份　　联社管理部门职责　　第一章　　办公室职责　　办公室是主管全联社社务系统运行、规章制度建设、决策督办、企业形象维护及行政后勤管理的综合协调和服务部门。　　主要职责如下：　　第一条　　负责本部门职责范围内全联社系统业务运作的组织和管理；　　第二条　　负责掌管请示报告制度、会议制度、值班制度、公文制度，掌握全联社执行上级部门各项方针政策的情况和市联社各部门工作动态；负责社务信息工作 ...

07-12 裙楼商铺市场定位与推广策略分析

裙楼商铺市场定位与推广策略分析　　一、项目基本概况　　**花园位于＊＊中心城龙城大道与龙福路交汇处，总占地面积5万平方米，总建筑面积11万平方米，共分四期开发，目前一、二期已入伙。其裙楼商铺计有35间，总面积约1944.35平方米，商铺目前基本上空置。　　二、项目的SwoT分析　　虽然本项目地段位置较为优越，但现实又存在着一些影响项目形象的因素，以至裙楼商铺目前处于滞销状态。所以我们只有充 ...

08-27 小学语文第一学期试卷分析

小学语文第一学期试卷分析在这样一个郁闷的下午，对着每年一成不变的试卷分析，我犹豫着是不是又该像往年一样的下笔-审题不清、字义不明、基础不牢固。我将加强这个，加强那个；训练这个、训练那个。我又想起了王校长说我们的试卷分析她都会背了。考试，有第一就必定有第五。关键在于你是第一还是第五，这个问题很重要，这个问题必须有。比这更重要的是第五之后如何反思，如何分析。所以，今天我要写出一份有诚意的试卷分析， ...

04-19 五年级品德与社会下册期末试卷分析

五年级品德与社会下册期末试卷分析一、对试题的认识就整份试题情况看，题型覆盖面广，有填空、判断、选择、连线、简答、看图答题六部分构成。难易适度，既考查了学生对本学科基础知识的学所，提升了孩子们辨别是非曲直的观念，同时又检测了孩子们的综合实践能力，符合每个层次的学生的认知情况。二、考试概况分析，，，，，，，，整体看来，五（3）、五（4）班成绩不太满意，比同年级最高成绩低十几分，不及格人数太多 ...

随机推荐

猜你喜欢

转录组分析一条龙

·农村远程教学表彰工作的讲话稿

·广告理论与策划终结版期末复习资料

·理想,在彼岸

·企业存货管理问题研究[论文]

·浅谈学校法制教育论文1

·公路路政执法必会100题

·2016五一服装促销方案

·汽车空调用层叠式蒸发器标准

·科技活动周总结

·红外光谱在定量分析中的应用

·乡镇干部群众路线教育实践活动心得体会

·资源环境与城乡规划管理专业毕业论文

·春季学期教学工作总结

·广州2013中考时间大致安排

·2012年中国三本院校排名(前100强)

·水电站启闭机验收规程

·春节精力充沛五个一你能做到哪几样?

·模具的装配工艺

·酒店员工宿舍用电管理规定

·生产车间现场标识