转录组RNAseq术语解释

05-05

RNA-Seq 名词解释

1.index

测序的标签，用于测定混合样本，通过每个样本添加的不同标签进行数据区分，鉴别测序样品。

2. 碱基质量值

（Quality Score或Q-score ）是碱基识别（Base Calling）出错的概率的整数映射。碱基质量值越高表明碱基识别越可靠，碱基测错的可能性越小。

3.Q30

碱基质量值为Q30代表碱基的精确度在99.9%。

4.FPKM （Fragments Per Kilobase of transcript per Million fragments mapped）每

1百万个map 上的reads 中map 到外显子的每1K 个碱基上的fragment 个数。计算公式为

公式中，cDNA Fragments 表示比对到某一转录本上的片段数目，即双端Reads 数目；Mapped Reads(Millions)表示Mapped Reads总数，以10为单位；Transcript Length(kb)：转录本长度，以kb 个碱基为单位。

5.FC （Fold Change）

即差异表达倍数。

6.FDR （False Discovery Rate）

即错误发现率，定义为在多重假设检验过程中，错误拒绝(拒绝真的原(零) 假设) 的个数占所有被拒绝的原假设个数的比例的期望值。通过控制FDR 来决定P 值的阈值。

7.P 值（P-value ）

即概率，反映某一事件发生的可能性大小。统计学根据显著性检验方法所得到的P 值，一般以P

8. 可变剪接（Alternative splicing）

有些基因的一个mRNA 前体通过不同的剪接方式（选择不同的剪接位点）产生不同的mRNA 剪接异构体，这一过程称为可变剪接(或选择性剪接，alternative splicing)。可变剪接是调节基因表达和产生蛋白质组多样性的重要机制，是导致真核生物基因和蛋白质数量较大差异的重要原因。在生物体内，主要存在7种可变剪接类型：A ）Exon skipping；B ）Intron retention；C) Alternative 5' splice site；D) Alternative 3' splice site；E) Alternative first exon；F) Alternativelast exon；G) Mutually exclusive exon。

9. 外显子跳跃（Exon skipping）

外显子在前体mRNA 剪接形成成熟mRNA 过程中被跳过，最终没有出现在某些成熟mRNA 上，这种剪接机制被称为外显子跳跃。

10. 内含子保留（Intron retention）

前体mRNA 在剪接形成成熟mRNA 的过程中，部分内含子被保留下来，这种剪接机制被称为内含子保留。

11. 5'或3' 端可变剪接

前体mRNA 在剪接形成成熟mRNA 的过程中，5' 端或3' 端边界发生不同方式的剪接，这种剪接机制被称为5' 或3' 端可变剪接。

12. 基因结构优化

由于使用的软件或数据本身的局限性，导致所选参考基因组的注释往往不够精确，需要对原有注释的基因结构进行修正，这一过程称为基因结构优化。

13. 基因间区(intergenic)

指基因与基因之间的间隔序列，不属于基因结构，不直接决定氨基酸，可能通过转录后调控影响性状的区域。

14. UTR:(UntranslateRegions)

非翻译区域。是信使 RNA （mRNA ）分子两端的非编码片段。5'-UTR 从mRNA 起点的甲基化鸟嘌呤核苷酸帽延伸至 AUG 起始密码子，3'-UTR 从编码区末端的终止密码子延伸至多聚 A 尾巴（Poly-A ）的前端。

15. ORF（open reading frame）

开放阅读框或开放读码框。是结构基因的正常核苷酸序列，从起始密码子到终止密码子的阅读框可编码完整的多肽链，其间不存在使翻译中断的终止密码子。

16. CDS（Coding sequence）

是编码一段蛋白产物的序列，是结构基因组学术语。DNA 转录成mRNA ，mRNA 经剪接等加工后翻译出蛋白质，所谓CDS 就是与蛋白质序列一一对应的DNA 序列，且该序列中间不含其它非该蛋白质对应的序列，不考虑mRNA 加工等过程中的序列变化，总之，就是与蛋白质的密码子完全对应。

17. 插入片段大小（insert size）

通过检测双端序列在基因组上的起止位置，可以得到插入片段的实际长度，决定了测序的长度，是信息分析的重要参数。

18. 分子标记

是遗传标记的一种，直接在DNA 分子上检测遗传变异。分子标记能对不同发育时期的个体、组织器官甚至细胞作检测，数量极多，遍及整个基因组，多态性高，遗传稳定，不受环境及基因表达与否的影响。目前常见分子标记主要有SNP 、InDel 、SSR 等。

19. SNP（Single Nucleotide Polymorphism）

即单核苷酸多态性，主要是指在基因组水平上由单个核苷酸的变异所引起的DNA 序列多态性。SNP 所表现的多态性只涉及到单个碱基的变异，这种变异可由单个碱基的转换(transition)或颠换(transversion)所引起，也可由碱基的插入或缺失所致。但通常所说的SNP 并不包括后两种情况。

20. SSR（Simple Sequence Repeat，SSR ）

即简单重复序列，又叫微卫星序列，指的是基因组中由1-6个核苷酸组成的基本单位重复多次构成的一段DNA ，广泛分布于基因组的不同位置，长度一般在200bp 以下。

21. 转换(transition)

同类型（嘌呤和嘌呤，或嘧啶和嘧啶）碱基之间的相互替换称为转换。

22. 颠换(transversion)

不同类型（嘌呤和嘧啶）碱基之间的相互替换称为颠换。

23. RNA编辑（RNA editing）

是指在mRNA 水平上改变遗传信息的过程。具体来说，指基因转录产生的mRNA 分子中，由于核苷酸的缺失，插入或置换，基因转录物的序列不与编码序列互补，使翻译生成的蛋白质的氨基酸组成，不同于基因序列中的编码信息现象。

24. 差异表达转录本（DifferentiallyExpressed Transcript，DET ）

指表达水平存在显著差异的转录本。

25. 差异表达基因（Differentially Expressed Gene，DEG ）

指在两个不同条件（如对照与处理、野生型和突变型、不同时间点、不同组织等）下，表达水平存在显著差异的基因，称之为差异表达基因。

26. 生物学重复（Biological Replicates）

可以定义为使用来自不同抽提的RNA 样本进行杂交，例如，同一来源独立制备的样本，或者不同来源的样本（不同组织或者一个细胞系的不同培养物）。

27. 技术重复

使用同一个抽提的RNA 进行实验称为技术重复。与生物学重复相比，技术重复不是完全独立的，取平均值不能去除共有的系统偏差。

28. 皮尔逊相关系数r （Pearson’s Correlation Coefficient）

用于度量两个变量X 和Y 之间的相关（线性相关），其值介于-1与1之间。其中，1表示变量完全正相关，0表示无关，-1表示完全负相关。在高通量测序中，将皮尔逊相关系数作为生物学重复相关性的评估指标。越接近1，说明两个重复样品相关性越强。

29. Unigene

Unique Gene的英文缩写，意为广泛通用的基因数据库，通过电脑对相同基因座（Locus ）的收集整理集合形成一个非冗余的基因数据库。

30. Contig

高通量测序中利用软件将具有一定长度overlap 的reads 连成更长的片段，这些通过reads overlap关系得到的不含N 的组装片段称之为Contig 。

31. Scaffold

高通量测序中reads 经过拼接获得Contigs ，Contig 经过确定先后顺序用N 连接起来组成Scaffold 。

32. Contig N50

Reads 拼接后会得到长度不同的Contigs 。将所有Contigs 的长度相加后获得一个Contig 的总长度。之后将所有Contig 按照序列长度由短到长进行排序，如获得Contig1，Contig2，Contig3……..。将Contig 按照这个顺序一次相加，当相加的长度达到Contig 总长度的一半时，最后一个加上的Contig 长度即为Contig N50。

33. component

TRINITY 软件拼接过程中，由于contig 的构造方法，使得各个contig 之间不可能共享k 个以上序列，因此这些 inchwormcontigs 不能很好的表征各种可变剪切形式和同源基因等情况，软件中“chrysalis”这一步骤将那些有重叠的contigs 聚类，构成components 。component 就成为一组可变剪切isoform 或同源基因可能的表征的集合。

34. de Bruijn graph

使用 TRINITY 软件拼接时，在“chrysalis”步骤中会将 component 通过 overlap 关系构建成 de Bruijn 图，便于获取可变剪切的序列。

35. 数字基因表达谱（DigitalGene Expression Profile，DGE ）

利用新一代高通量测序技术和高性能的计算分析技术，能够全面、经济、快速地检测某一物种特定组织在特定状态下的基因表达情况。

36. small RNA

对长度在18-40bp 的短 RNA 进行序列、结构、表达、功能上的分析，主要进行miRNA ，siRNA ，piRNA 几种类型 sRNA 的分析；可与 mRNA 关联分析。

37. ncRNA（non-coding RNA）

非编码RNA 。指不编码蛋白质的RNA 。其中包括 rRNA ，tRNA ，snRNA ，snoRNA 和microRNA 等多种已知功能的 RNA ，及未知功能的 RNA 。其共同特点是都能从基因组上转录而来，不需要翻译成蛋白即可在 RNA 水平上行使各自的生物学功能。

38. 降解组测序（Degradome Sequencing）

利用高通量测序平台，针对miRNA 介导的剪切降解片段进行深度测序，从中筛选miRNA 作用的靶基因，并结合生物信息学分析确定降解片段与miRNA 的精确配对信息。该技术能从细胞或组织中准确高效的筛选出 miRNA 的靶基因，为研究miRNA 与其对应的靶基因的相互关系提供准确、高效的筛选手段。

39. lncRNA（long noncoding RNA）

长链非编码RNA 。在长度200-100000nt 之间，不具有编码蛋白功能的转录本。

40. 正链/负链（plus strand/minus strand）

对于一个基因来说，DNA 的两条链中有一条链作为RNA 合成时的模板，这条链叫负链，另一条叫正链。

41. 反义链/有义链（antisense strand/sense strand）

在双链DNA 中，用来转录mRNA 的DNA 链称为模板链(template strand)，不用于转录的链则称为非模板链（nontemplate strand）。根据碱基互补配对原则，转录出的mRNA 链的碱基序列与非模板链的碱基序列一致，惟一不同的是，非模板链中的T mRNA链中全部置换成了U 。正是由于非模板链的碱基序列实际上代表了 mRNA 的碱基序列（只不过在mRNA 中T 换成了U ），因此非模板链又被称为编码链（ coding strand）, 有义链（sense strand）和克里克链(crick strand)，而用来转录mRNA 的DNA 链被称为非编码链（anticoding strand）或反义链（antisense strand）或沃森链(watson strand)。

42. 链特异性（strand specific）：

链特异性建库，可以确定转录本来自正链还是负链。以便更加准确的获得基因的结构以及基因表达信息。并且可以更好的发现新的基因。（研究表明：很多基因组区域具有正负链的转录本，反义转录是真核基因的一个特征，是一种重要的调控方式。对于原核以及低等真核生物的基因组，常常具有重叠基因。

43. GO（Gene Ontology）

基因本体联合会（Gene Ontology Consortium）所建立的数据库，旨在建立一个适用于各种物种的，堆积因何蛋白质功能进行限定和描述的，并能随着研究不断深入而更新的语言词汇标准。GO 是多种生物本体语言中的一种，提供了三层结构（分子功能、生物学途径、细胞组件）的系统定义方式，用于描述基因产物的功能。网址：http://www.geneontology.org/。

44. BSR(Bulked Segregant RNA sequencing)

将转录组测序与集群分离分析相结合，在转录组范围内开发SNPs ，筛选与性状紧密连锁的SNPs ，进行功能基因的定位，同时进行基因差异表达分析等转录组常规分析的技术。

45. eQTL

以一个分离群体中不同个体（基因型）或者是其它有遗传结构的群体作为样本，运用QTL 分析方法分析特定基因转录丰度差异而得到的一些遗传区域，转录丰度用于作为个体中基因表达水平的衡量方式，并且作为一个性状来分析（e Trait）。

46. COG/KOG

COG 是Clusters of Orthologous Groups of proteins的简称，KOG 为euKaryotic Ortholog Groups。这两个注释系统都是NCBI 中基于基因直系同源关系的数据库，其中COG 针对原核生物，KOG 针对真核生物。COG/KOG结合进化关系将来自不同物种的同源基因分为不同的 Ortholog 簇，目前COG 有4873个分类，KOG 有4852个分类。来自同一 ortholog 的基因具有相同的功能，这样就可以将功能注释直接继承给同一 COG/KOG 簇的其他成员。详见http://www.ncbi.nlm.nih.gov/COG/。

47. Nr(NCBI non-redundant protein sequences)

是NCBI 官方的蛋白序列数据库，它包括了 GenBank 基因的蛋白编码序列，PDB(Protein Data Bank)蛋白数据库、SwissProt 蛋白序列及来自PIR （Protein Information Resource）和PRF （Protein Research Foundation ）等数据库的蛋白序列。根据 nr 注释信息我们能得到 GO 功能注释。

48. KEGG(Kyoto Encyclopedia of Genes and Genomes)

是系统分析基因产物和化合物在细胞中的代谢途径以及这些基因产物的功能的数据库。它整合了基因组、化学分子和生化系统等方面的数据, 包括代谢通路（KEGG PATHWAY）、药物（KEGG DRUG）、疾病（KEGG DISEASE）、功能模型（KEGG MODULE）、基因序列（KEGG GENES）及基因组（KEGG GENOME ）等等。KO （KEGG ORTHOLOG）系统将各个KEGG 注释系统联系在一起，KEGG 已建立了一套完整KO 注释的系统，可完成新测序物种的基因组或转录组的功能注释。详见

http://www.genome.jp/kegg/。

49. Rfam是ncRNA 注释库

包含rRNA ，tRNA ，snoRNA ，snRNA 等类型非编码RNA 。详见http://rfam.xfam.org/。

与《转录组RNAseq术语解释》相关的范文

08-25 说明文专题训练

一、阅读下面一段文字，完成1-4题。①飞船一般为多舱体结构，舱体之间要能分离，可靠性安全性要求极高。“神舟号”载人飞船为三舱段复合结构。最前端的一个舱体称为轨道舱，它具备可独立运行卫星的一切功能，与飞船分离后可在太空独立进行各种飞行试验；位于最后端的推进舱也称为设备舱(或资源舱)，完成既定任务后，再入大气层自毁。居中的返回舱完成任务后，承载着航天员安全返回预定的着陆场。“神舟号”飞船从发射升空至返 ...

11-06 个人实习月底总结

个人实习月底总结日子过得飞快，如同马路上疾驶过的车轮子般，转瞬即逝。眨眼间不看就半月去了，谁曾想这原本是慢得如同蜗牛般在爬的暑假生活呢。有事儿做的感觉就是不同凡响。小小感慨下这半来个月，那滋味儿真是又酸又甜，更有苦有辣，咋么说也得总结一个，也不枉我一番汗水下去，免了那抛于脑后之忧。言归正传，既然是月小结麽，那么下面我就具体汇报下这半个月来的工作情况。主要实习了两个方面，分别是路况记者跟导播。 ...

05-25 2014年高考理综生物部分试题分析

20XX年高考卷理综生物部分试题分析昆明八中杨丽 20XX年高考试题分析挑选了选择题1和非选择的29进行分析：选择题题目：1．同一物种的两类细胞各产生一种分泌蛋白，组成这两种蛋白质的各种氨基酸含量相同，但排列顺序不同，其原因是参与这两种蛋白质合成的（） A．tRNA种类不同 B．mRNA碱基序列不同 c．核糖体成分不同 D．同一密码子所决定的氨基酸不同分析：本题以细胞的成分为切入点，综合 ...

08-19 电业局新闻宣传工作管理制度

　　前言　　×××电业局（以下简称“我局”）根据国家电网公司《安全生产健康环境质量管理体系及有关管理规定》，建立了我局《安全生产健康环境质量管理体系》（以下简称“sheq管理体系”），为规范我局sheq管理体系，控制我局《新闻宣传工作管理》的过程，特制定本制度。　　本制度由宣传部负责解释。　　编制：××× 　　审核：××× 　　批准：××× 　　1范围　　本制度规定了我局新闻宣传工作的原则 ...

02-09 高三生物复习计划

高三生物复习计划复习目标 1、用恰当的专业术语，阐述已学过的生物学概念和原理，用适当的表达形式准确地描述一些生物现象和事实。 2、能对生物的结构和功能、部分和整体、生物与环境的一些关系问题进行分析和解答。 3、能选用恰当的方法验证简单的生物学事实、探究简单的生物学问题，并对实验信息进行处理和分析。 4、培养学生严谨的科学态度和科学素质的同时，着重培养学生的创新意识和创造能力第一轮：基础知识复习 ...

06-14 大学生假期社会实践报告

一.实践报告撰写的内容与要求：一份完整的实践报告应由以下部分组成： 1.报告题目报告题目应该用简短、明确的文字写成，通过标题把实践活动的内容、特点概括出来。题目字数要适当，一般不宜超过20个字。如果有些细节必须放进标题，为避免冗长，可以设副标题，把细节放在副标题里。 2．学院及作者名称学院名称和作者姓名应在题目下方注明，学院名称应用全称。 3．摘要（有英文摘要的中文在前，英文在后）报告需配 ...

08-11 社会实践论文规范

　　社会实践是大学生全面素质提高的重要环节，是学生将所学知识应用于社会的重要过程。它既是学生学习、研究与实践成果的全面总结，又是对学生素质与综合能力的一次全面检验。为培养学生的科学精神，保证我校学生社会实践论文的质量，避免与社会实践总结混淆，为广大同学撰写社会实践论文提供指导，为优秀论文的评定提供依据，特制定本规范。　　一.实践论文撰写的内容与要求　　一份完整的实践论文应由以下部分组成：　　 ...

01-02 XX县粮食安全应急预案

　　目录　　　　一、总则　　（一）编制目的　　（二）编制依据　　（三）适用范围　　（四）工作原则　　二、组织指挥体系及职责　　（一）应急指挥机构　　（二）日常办事机构　　（三）县粮食安全应急指挥机构　　三、事件分级　　（一）I级(重大)粮食应急状态　　（二）II级(较大)粮食应急状态　　（三）III级(一般)粮食应急状态　　四、预警监测　　（一）市场监测　　（二） ...

12-09 邮政储蓄员先进事迹演讲稿

邮政营业小窗口为民服务大文章　　我叫XXX，1998年入伍，20XX年进入邮政系统工作，先后在储蓄营业、储蓄复核等岗位上工作过，现为柳泉铺邮政支局储蓄营业员。　　一、加强学习，扎实工作本领　　20XX年初到老庄工作，是我第一次接触储蓄业务。当我首次看到陌生的键盘和显示屏上黑压压的字符，心里不由得有些发怵。万一自己敲错了哪个键，出现失误可怎么办呢？一想起这，头就真有点发晕的感觉。可想到领导的关 ...

11-15 八年级物理(沪科版)课堂教学计划

八年级物理（沪科版）课堂教学计划（20xx-20xx学年度第二学期）为增强教育教学的时效性和规范性，深化教育课程改革，全面推进素质教育，面向全体学生，促进学生的全面发展，全面提高教育教学质量，确保本学期课堂教学工作顺利实施，制定本计划：教育教学目标一、三维教学目标（一）知识与技能 1.初步认识物质的属性及结构等内容，了解物体的尺度等内容，初步认识资源利用与环境保护的关系。 2.初步认识机 ...

随机推荐

猜你喜欢

转录组RNAseq术语解释

·平安工作站年度总结

·社区综治工作学习体会

·创业园区企业创业协议

·碳青霉烯类耐药肠杆菌科细菌耐药机制及其控制

·少先队队务建设

·通信原理试卷及答案(2份)

·[优秀作文]尊严无价

·产品质量认证与消费者的关系

·保护母亲河倡议书[优秀作文]两篇

·这场少有人知的屠城血战,才是促成垓下之战.霸王别姬的关键一战

·公司企业员工2014年度工作总结及2014年度工作规划

·抗洪捐款倡议书

·幼儿新年贺词大全

·巴东:巫峡绝壁上的天路

·华夏银行笔试经验

·营销费用科目分类及管理规定

·同分异构体的判断技巧

·无纸化会议系统技术方案

·出国留学健康证明如何办理?

·八一建军节