转录组RNAseq术语解释
RNA-Seq 名词解释
1.index
测序的标签,用于测定混合样本,通过每个样本添加的不同标签进行数据区分,鉴别测序样品。
2. 碱基质量值
(Quality Score或Q-score )是碱基识别(Base Calling)出错的概率的整数映射。碱基质量值越高表明碱基识别越可靠,碱基测错的可能性越小。
3.Q30
碱基质量值为Q30代表碱基的精确度在99.9%。
4.FPKM (Fragments Per Kilobase of transcript per Million fragments mapped) 每
1百万个map 上的reads 中map 到外显子的每1K 个碱基上的fragment 个数。计算公式为
公式中,cDNA Fragments 表示比对到某一转录本上的片段数目,即双端Reads 数目;Mapped Reads(Millions)表示Mapped Reads总数,以10为单位;Transcript Length(kb):转录本长度,以kb 个碱基为单位。
5.FC (Fold Change)
即差异表达倍数。
6.FDR (False Discovery Rate)
即错误发现率,定义为在多重假设检验过程中,错误拒绝(拒绝真的原(零) 假设) 的个数占所有被拒绝的原假设个数的比例的期望值。通过控制FDR 来决定P 值的阈值。
7.P 值(P-value )
即概率,反映某一事件发生的可能性大小。统计学根据显著性检验方法所得到的P 值,一般以P
8. 可变剪接(Alternative splicing)
有些基因的一个mRNA 前体通过不同的剪接方式(选择不同的剪接位点)产生不同的mRNA 剪接异构体,这一过程称为可变剪接(或选择性剪接,alternative splicing)。可变剪接是调节基因表达和产生蛋白质组多样性的重要机制,是导致真核生物基因和蛋白质数量较大差异的重要原因。在生物体内,主要存在7种可变剪接类型:A )Exon skipping;B )Intron retention;C) Alternative 5' splice site;D) Alternative 3' splice site;E) Alternative first exon;F) Alternativelast exon;G) Mutually exclusive exon。
9. 外显子跳跃(Exon skipping)
外显子在前体mRNA 剪接形成成熟mRNA 过程中被跳过,最终没有出现在某些成熟mRNA 上,这种剪接机制被称为外显子跳跃。
10. 内含子保留(Intron retention)
前体mRNA 在剪接形成成熟mRNA 的过程中,部分内含子被保留下来,这种剪接机制被称为内含子保留。
11. 5'或3' 端可变剪接
前体mRNA 在剪接形成成熟mRNA 的过程中,5' 端或3' 端边界发生不同方式的剪接,这种剪接机制被称为5' 或3' 端可变剪接。
12. 基因结构优化
由于使用的软件或数据本身的局限性,导致所选参考基因组的注释往往不够精确,需要对原有注释的基因结构进行修正,这一过程称为基因结构优化。
13. 基因间区(intergenic)
指基因与基因之间的间隔序列,不属于基因结构,不直接决定氨基酸,可能通过转录后调控影响性状的区域。
14. UTR:(UntranslateRegions)
非翻译区域。是信使 RNA (mRNA )分子两端的非编码片段。5'-UTR 从mRNA 起点的甲基化鸟嘌呤核苷酸帽延伸至 AUG 起始密码子,3'-UTR 从编码区末端的终止密码子延伸至多聚 A 尾巴(Poly-A )的前端。
15. ORF(open reading frame)
开放阅读框或开放读码框。是结构基因的正常核苷酸序列,从起始密码子到终止密码子的阅读框可编码完整的多肽链,其间不存在使翻译中断的终止密码子。
16. CDS(Coding sequence)
是编码一段蛋白产物的序列,是结构基因组学术语。DNA 转录成mRNA ,mRNA 经剪接等加工后翻译出蛋白质,所谓CDS 就是与蛋白质序列一一对应的DNA 序列,且该序列中间不含其它非该蛋白质对应的序列,不考虑mRNA 加工等过程中的序列变化,总之,就是与蛋白质的密码子完全对应。
17. 插入片段大小(insert size)
通过检测双端序列在基因组上的起止位置,可以得到插入片段的实际长度,决定了测序的长度,是信息分析的重要参数。
18. 分子标记
是遗传标记的一种,直接在DNA 分子上检测遗传变异。分子标记能对不同发育时期的个体、组织器官甚至细胞作检测,数量极多,遍及整个基因组,多态性高,遗传稳定,不受环境及基因表达与否的影响。目前常见分子标记主要有SNP 、InDel 、SSR 等。
19. SNP(Single Nucleotide Polymorphism)
即单核苷酸多态性,主要是指在基因组水平上由单个核苷酸的变异所引起的DNA 序列多态性。SNP 所表现的多态性只涉及到单个碱基的变异,这种变异可由单个碱基的转换(transition)或颠换(transversion)所引起,也可由碱基的插入或缺失所致。但通常所说的SNP 并不包括后两种情况。
20. SSR(Simple Sequence Repeat,SSR )
即简单重复序列,又叫微卫星序列,指的是基因组中由1-6个核苷酸组成的基本单位重复多次构成的一段DNA ,广泛分布于基因组的不同位置,长度一般在200bp 以下。
21. 转换(transition)
同类型(嘌呤和嘌呤,或嘧啶和嘧啶)碱基之间的相互替换称为转换。
22. 颠换(transversion)
不同类型(嘌呤和嘧啶)碱基之间的相互替换称为颠换。
23. RNA编辑(RNA editing)
是指在mRNA 水平上改变遗传信息的过程。具体来说,指基因转录产生的mRNA 分子中,由于核苷酸的缺失,插入或置换,基因转录物的序列不与编码序列互补,使翻译生成的蛋白质的氨基酸组成,不同于基因序列中的编码信息现象。
24. 差异表达转录本(DifferentiallyExpressed Transcript,DET )
指表达水平存在显著差异的转录本。
25. 差异表达基因(Differentially Expressed Gene,DEG )
指在两个不同条件(如对照与处理、野生型和突变型、不同时间点、不同组织等)下,表达水平存在显著差异的基因,称之为差异表达基因。
26. 生物学重复(Biological Replicates)
可以定义为使用来自不同抽提的RNA 样本进行杂交,例如,同一来源独立制备的样本,或者不同来源的样本(不同组织或者一个细胞系的不同培养物)。
27. 技术重复
使用同一个抽提的RNA 进行实验称为技术重复。与生物学重复相比,技术重复不是完全独立的,取平均值不能去除共有的系统偏差。
28. 皮尔逊相关系数r (Pearson’s Correlation Coefficient)
用于度量两个变量X 和Y 之间的相关(线性相关),其值介于-1与1之间。其中,1表示变量完全正相关,0表示无关,-1表示完全负相关。在高通量测序中,将皮尔逊相关系数作为生物学重复相关性的评估指标。越接近1,说明两个重复样品相关性越强。
29. Unigene
Unique Gene的英文缩写,意为广泛通用的基因数据库,通过电脑对相同基因座(Locus )的收集整理集合形成一个非冗余的基因数据库。
30. Contig
高通量测序中利用软件将具有一定长度overlap 的reads 连成更长的片段,这些通过reads overlap关系得到的不含N 的组装片段称之为Contig 。
31. Scaffold
高通量测序中reads 经过拼接获得Contigs ,Contig 经过确定先后顺序用N 连接起来组成Scaffold 。
32. Contig N50
Reads 拼接后会得到长度不同的Contigs 。将所有Contigs 的长度相加后获得一个Contig 的总长度。之后将所有Contig 按照序列长度由短到长进行排序,如获得Contig1,Contig2,Contig3……..。将Contig 按照这个顺序一次相加,当相加的长度达到Contig 总长度的一半时,最后一个加上的Contig 长度即为Contig N50。
33. component
TRINITY 软件拼接过程中,由于contig 的构造方法,使得各个contig 之间不可能共享k 个以上序列,因此这些 inchwormcontigs 不能很好的表征各种可变剪切形式和同源基因等情况,软件中“chrysalis”这一步骤将那些有重叠的contigs 聚类,构成components 。component 就成为一组可变剪切isoform 或同源基因可能的表征的集合。
34. de Bruijn graph
使用 TRINITY 软件拼接时,在“chrysalis”步骤中会将 component 通过 overlap 关系构建成 de Bruijn 图,便于获取可变剪切的序列。
35. 数字基因表达谱(DigitalGene Expression Profile,DGE )
利用新一代高通量测序技术和高性能的计算分析技术,能够全面、经济、快速地检测某一物种特定组织在特定状态下的基因表达情况。
36. small RNA
对长度在18-40bp 的短 RNA 进行序列、结构、表达、功能上的分析,主要进行miRNA ,siRNA ,piRNA 几种类型 sRNA 的分析;可与 mRNA 关联分析。
37. ncRNA(non-coding RNA)
非编码RNA 。指不编码蛋白质的RNA 。其中包括 rRNA ,tRNA ,snRNA ,snoRNA 和microRNA 等多种已知功能的 RNA ,及未知功能的 RNA 。其共同特点是都能从基因组上转录而来,不需要翻译成蛋白即可在 RNA 水平上行使各自的生物学功能。
38. 降解组测序(Degradome Sequencing)
利用高通量测序平台,针对miRNA 介导的剪切降解片段进行深度测序,从中筛选miRNA 作用的靶基因,并结合生物信息学分析确定降解片段与miRNA 的精确配对信息。该技术能从细胞或组织中准确高效的筛选出 miRNA 的靶基因,为研究miRNA 与其对应的靶基因的相互关系提供准确、高效的筛选手段。
39. lncRNA(long noncoding RNA)
长链非编码RNA 。在长度200-100000nt 之间,不具有编码蛋白功能的转录本。
40. 正链/负链(plus strand/minus strand)
对于一个基因来说,DNA 的两条链中有一条链作为RNA 合成时的模板,这条链叫负链,另一条叫正链。
41. 反义链/有义链(antisense strand/sense strand)
在双链DNA 中,用来转录mRNA 的DNA 链称为模板链(template strand),不用于转录的链则称为非模板链(nontemplate strand)。根据碱基互补配对原则,转录出的mRNA 链的碱基序列与非模板链的碱基序列一致,惟一不同的是,非模板链中的T mRNA链中全部置换成了U 。正是由于非模板链的碱基序列实际上代表了 mRNA 的碱基序列(只不过在mRNA 中T 换成了U ),因此非模板链又被称为编码链( coding strand), 有义链(sense strand)和克里克链(crick strand),而用来转录mRNA 的DNA 链被称为非编码链(anticoding strand)或反义链(antisense strand)或沃森链(watson strand)。
42. 链特异性(strand specific):
链特异性建库,可以确定转录本来自正链还是负链。以便更加准确的获得基因的结构以及基因表达信息。并且可以更好的发现新的基因。(研究表明:很多基因组区域具有正负链的转录本,反义转录是真核基因的一个特征,是一种重要的调控方式。对于原核以及低等真核生物的基因组,常常具有重叠基因。
43. GO(Gene Ontology)
基因本体联合会(Gene Ontology Consortium)所建立的数据库,旨在建立一个适用于各种物种的,堆积因何蛋白质功能进行限定和描述的,并能随着研究不断深入而更新的语言词汇标准。GO 是多种生物本体语言中的一种,提供了三层结构(分子功能、生物学途径、细胞组件)的系统定义方式,用于描述基因产物的功能。网址:http://www.geneontology.org/。
44. BSR(Bulked Segregant RNA sequencing)
将转录组测序与集群分离分析相结合,在转录组范围内开发SNPs ,筛选与性状紧密连锁的SNPs ,进行功能基因的定位,同时进行基因差异表达分析等转录组常规分析的技术。
45. eQTL
以一个分离群体中不同个体(基因型)或者是其它有遗传结构的群体作为样本,运用QTL 分析方法分析特定基因转录丰度差异而得到的一些遗传区域,转录丰度用于作为个体中基因表达水平的衡量方式,并且作为一个性状来分析(e Trait)。
46. COG/KOG
COG 是Clusters of Orthologous Groups of proteins的简称,KOG 为euKaryotic Ortholog Groups。这两个注释系统都是NCBI 中基于基因直系同源关系的数据库,其中COG 针对原核生物,KOG 针对真核生物。COG/KOG结合进化关系将来自不同物种的同源基因分为不同的 Ortholog 簇,目前COG 有4873个分类,KOG 有4852个分类。来自同一 ortholog 的基因具有相同的功能,这样就可以将功能注释直接继承给同一 COG/KOG 簇的其他成员。详见http://www.ncbi.nlm.nih.gov/COG/。
47. Nr(NCBI non-redundant protein sequences)
是NCBI 官方的蛋白序列数据库,它包括了 GenBank 基因的蛋白编码序列,PDB(Protein Data Bank)蛋白数据库、SwissProt 蛋白序列及来自PIR (Protein Information Resource)和PRF (Protein Research Foundation )等数据库的蛋白序列。根据 nr 注释信息我们能得到 GO 功能注释。
48. KEGG(Kyoto Encyclopedia of Genes and Genomes)
是系统分析基因产物和化合物在细胞中的代谢途径以及这些基因产物的功能的数据库。它整合了基因组、化学分子和生化系统等方面的数据, 包括代谢通路(KEGG PATHWAY)、药物(KEGG DRUG)、疾病(KEGG DISEASE)、功能模型(KEGG MODULE)、基因序列(KEGG GENES)及基因组(KEGG GENOME )等等。KO (KEGG ORTHOLOG)系统将各个KEGG 注释系统联系在一起,KEGG 已建立了一套完整KO 注释的系统,可完成新测序物种的基因组或转录组的功能注释。详见
http://www.genome.jp/kegg/。
49. Rfam是ncRNA 注释库
包含rRNA ,tRNA ,snoRNA ,snRNA 等类型非编码RNA 。详见http://rfam.xfam.org/。