药用植物叶绿体基因组研究
世界科学技术—中医药现代化★ 专题讨论:中药资源研究的前沿技术
提出了药用植物叶绿体基因组测序摘要:本文在总结植物叶绿体基因组测序研究进展基础上,
测序平台的确定,生物信息学工具的综合分析应用,样品提取、分析及检测等的策略,对物种的选择,
技术环节进行了深入讨论。
关键词:药用植物叶绿体全基因组测序doi:10.3969/j.issn.1674-3849.2010.03.027
策略
otae%20Organelles),但多数物种为农作物或经济作物,药用植物的叶绿体全基因组序列相对较少,很大程度上限制了药用植物的药物代谢工程、转基因工程、物种鉴定及进化等方面的发展。本文在前人研究的基础上,基于新一代测序技术在药用植物叶绿体全基因组测序研究中的应用进行探讨,提出一种新的叶绿体基因组测序的策略。
收稿日期:2010-06-02修回日期:2010-06-12
* **
叶绿体相关研究在过去的数十年取得了巨大成
结构、就,尤其在利用基因序列研究叶绿体的起源、
进化、正反向遗传学、叶绿体基因工程等方面取得了
特别重大进展[1~3]。随着大规模测序技术的不断发展,
是二代测序技术的应用,极大推动了叶绿体基因组
已有170多个物种的叶绿体全基的深入研究。目前,
因组序列在NCBI 发布(http://www.ncbi.nlm.nih.gov/
一、药用植物叶绿体基因组及其测序研究现状1986年,烟草和地钱叶绿体全基因组测序完成[4~5],
开创了叶绿体全基因组测序的先河,也第一次揭示了叶绿体基因组的结构特征。之后陆续有其他物种的叶绿体基因组序列在NCBI 发布,但数量增长缓慢。至2000年,仅有16个物种完成了叶绿体全基因组测序。但2005年以后在NCBI 上公布的叶绿体全基因组序列的物种数直线上升,截止2010年5月,
(图1)已有176个叶绿体基因组序列公布。叶绿体全
基因组序列的测定不仅加速了物种的进化、迁徙等方面的研究,对物种的鉴定和转基因研究也存在着巨大的推动作用。以往的叶绿体基因组研究多侧重于农作物和经济作物如大麦、高梁、大豆、甘蔗等[6~8],
台东苏铁等[9~10],以及具有进化意义的孓遗物种如桫椤、
仅有少数药用植物的叶绿体基因组序列发布,如人参、木贼麻黄、薏苡等[11~13],且这些药用植物的叶绿体
(30970307)负责人:陈士林。国家自然科学基金面上项目:叶绿体全基因组条形码鉴定方法研究,用,E-mail :[email protected]。
在读博士研究生,主要研究方向:生药学,博士,主要研究方向:联系人:林小涵,E-mail ;李西文,中药资源可持续利
Science and Technology/Modernizationof Traditional Chinese Medicine and Materia Medica
〕 442
基因组测序并不是以药用为研究目的。近年来,随着
植物药在基世界医药领域“回归自然”热潮的兴起,
因组方向的研究获得了越来越多的关注,如人参基因组计划的启动* 、利用叶绿体DNA 序列进行药用植物的物种鉴定等。随着测序技术的革新与飞速发基于新一代测序技术的展,测序成本大幅度降低[14],
药用植物叶绿体基因组的大规模测序将推动药用植物的叶绿体基因组的深入研究和相关产业的发展。
二、药用植物叶绿体基因组测序的必要性与药用植物物种的总数相比,已获得的叶绿体全基因组序列还很匮乏,叶绿体全基因组研究的应用潜力并没有得到很好的发挥,限制了药用植物亲缘学研究、物种鉴定及基因工程等相关应用领域的发展。测序技术的障碍是制约药用植物叶绿体全基因组序列获得的一个重要因素。随着新一代测序技术的日趋成熟,叶绿体全基因组测序将进入一个高
应用叶绿体基因序列进行药用植速发展时期。目前,
物的相关研究主要体现在以下几个方面:
1. 中外学者通常运用形态学、孢粉学、胚胎学与细胞学等多种手段对药用植物不同科属及属下分类系
现代分子系统学也应用到统位置进行研究。近年来,
药用植物的分类与进化研究[15~16]。叶绿体基因组序列用于物种的进化研究最早是利用单个基因或者基因间隔的核苷酸多态性进行分析,后来发展为对多个基因进行叠加分析即A+B+C原则,然而多个基因的联合分析仍然不能解决某些科属间的分类及进化关
很系问题[17]。随着叶绿体全基因组序列的日益增多,
多物种的系统进化研究上了一个新的台阶。Rorbert K Jansen 等[18]对包括蔷薇分支在内的28个物种的叶绿体全基因组序列进行比对分析,一定程度上解决
[1**********]0
16
49
84
121
171
176
了长久以来被子植物蔷薇分支的系统进化位置模糊的问题。但Leebens-Mack 等[19]也提出在进行系统进
很大程度上会化分析时,如果基础数据量不足够大,
影响甚至出现错误的推论。因此,要想得到更加精准的系统进化树就必然要增加基础分析的数据量即增加物种的叶绿体全基因组序列。
2. 叶绿体基因作为DNA Barcoding 标准序列的地位已经得到公认,但是在DNA 条形码鉴定研究工作
适用中发现,尽管该方法具有操作简单、可重复性强、
但DNA 条形码长度于多个分类阶元等诸多优点[20~21],
多介于300~700bp之间,有时包含序列的变异信息不
种内和充足,在区分和鉴定部分药用植物(如贝母属)种间样品时存在困难;同时植物基因组的高变异性导致在植物中至今还未找到公认的通用DNA 条形码序
列[22]。上述结果从理论上证明一些常用的DNA 条形码在通用性上存在局限性。叶绿体基因组在植物中广泛存在,长度达到110~160kb,与DNA 条形码相比,
本课题组具有更好的通用性和更强的分辨力。因此,
(Cp-genome Bar - 首先提出了叶绿体全基因组条形码
coding )的概念,即通过叶绿体全基因组的比较对植物进行快速和准确的鉴定。但目前NCBI 数据库中的叶绿体基因组全序列的数目还达不到构建条形码数据库的数量,需要通过对大量的药用植物开展叶绿体基因组的全序列测序才能实现这一目标。
3. [23]利用基因枪法首次成功的实现了叶绿体遗传转化,之后在高等植物烟草、拟南芥和番茄中也相继实现了质体的转化[24]。但出于生物安全的考虑,抗生素不能作为叶绿体基因工程的选择条件,应采用多种激素诱导促使质体增殖技术,而这一增殖技术目前仅在上述植物和另外一些茄科植物中适用。限制高等植物叶绿体转化的主要瓶颈是大多数植物的叶绿体基因组序列不清楚, 因而无法确定用于载体构建的同源重组片段和外源基因的插入位点。因此,获得更多的植物叶绿体基因组全序列是进行叶绿体转化技术深入研究的前提。药用植物的转录组学、代谢组学以及基因组学的研究所揭示的次生代谢、生长发育、抗病抗逆的分子机制为药用植物叶绿体工程的研究提供了丰富的遗传转化背景,新一代测序技术将加速叶绿体基因组全序列的指数
148
2000年2005年2006年2007年2008年2009年2010年
图1
NCBI 上登录的叶绿体基因组个数
* 443〔 World Science and Technology/Modernizationof Traditional Chinese Medicine and Materia Medica 〕
世界科学技术—中医药现代化★ 专题讨论:中药资源研究的前沿技术
级增长,推动叶绿体基因工程突破瓶颈。
三、叶绿体全基因组测序的策略1. 已完成叶绿体全基因组序列测序的物种大多是农
作物和经济作物,这些物种与人们的生产生活关系密切,并且其分子研究背景相对丰富,易于利用叶绿体基因工程进行改良和应用。与之相比,药用植物叶绿体基因组测序有其自身的特点,其物种的选择可以从以下几点来考虑。① 大宗常用中药材或趋于濒危、急需保护的名贵物种;② 在亲缘学研究上有重要意义的物种;③
尤其是采用DNA 条形码仍在种或种下等级难以鉴别,
难以鉴定的物种。进行对单个物种或者几个样品的叶
提取方法上一般采用两种方式:绿体基因组进行测序,
每(从头测序)。Illumina/Solexa'sGA Ⅱ 测序通量最大,
每Mb 个测序反应的数据通量约为200Gb ,费用低廉,
花费不足2美金,测序一个循环需8天时间,读长相对较短。ABI SOLiD3每个测序反应的数据通量约为100Gb ,每Mb 花费不足2美金,测序一个循环需12~16天时间,其突出的特色就是具有良好的纠错功能和新的SNP 发掘功能。针对药用植物叶绿体基因组测序
尤其是对目物种选择的标准,对大量不同科属的物种,
DNA 。而采用高通量测序技术同时对多个物种的叶绿
体基因组进行测序时,对叶绿体DNA 浓度和纯度要求更高,尽量保证无核基因组DNA 和线粒体DNA 污染。另外,如无同科同属物种的叶绿体基因组信息,很难找到保守区段的序列设计PCR 引物,利用总DNA 进行叶绿体基因组扩增的方法的可行性相对较差。因此,利用二代测序仪进行多个物种叶绿体基因组序列测序时,适合采用第二种叶绿体DNA 提取方法。
2. 单个或者少数几个样品叶绿体基因组序列的测
传统的Sanger 测序法即可满足其测序,由于通量小,
序要求。而对多个样品或者批量样品进行叶绿体基因
随着分子研组测序时,采用传统的测序方法费时费力。
研发了新一代的测序技术-高通量究技术的不断革新,
(Roche )测序技术。高通量的测序平台以罗氏公司的
(Roche GS FLX Titanium )454测序平台,Illumina 公司
的Solexa 基因组分析平台(Illumina/Solexa'sGA Ⅱ )和
(ABI SOLiD3)ABI 公司的SOLiD 测序平台为代表[25~
26]
新一代测序技术具。与传统的Sanger 测序方法相比,
(表1)有速度快、费用低及通量高的优势,同时这3个
大测序平台又各具特色。Roche GS FLX Titanium 读长最长,平均测序长度可达到400bp ;测序的速度快,一个测序循环只需要0.35天,通常适用于De Novo 测序
*
** ① 直接提取植物样品总的DNA ,利用叶绿体基因组保守序列设计引物进行长距离PCR 获得叶绿体基因组全序列;② 首先分离叶绿体细胞器,再提取叶绿体
前尚未报道的叶绿体全基因组科属的物种进行测序,
一次测序多个样品,需要配De Novo 测序更符合要求;
合不同样品加不同标签技术,因此,选取Roche GS FLX Titanium 测序平台进行多样本的叶绿体全基因组
按照一个测序反应可以完成近50测序可能更为适宜。
个叶绿体全基因组序列的测定,如果按照一个run 的成本为3万美元计算,则每个叶绿体全基因组的测序成本在600美元。如果测20个run ,可以测得1000个左右物种的全基因组序列,将原有的不到200个物种的叶绿体基因组序列指数级增长到3位数。这对解决物种间系统进化关系,促进叶绿体基因工程的发展有着极大的推进作用。
3. 现代生物信息学的突起和快速发展也为测序后宏量数据的快速处理提供了便捷的途径。叶绿体基因组数据必须依赖生物信息学工具的辅助处理才能进行正确拼接、组装和注释分析。罗氏454采用自己配套的Newbler 软件进行序列拼接。另外,Phred -Phrap-Consed [27~28]也可以辅助基因组序列组装。拼接所得的Contig 与Genbank 的nt 和nr 库进行比对分析对叶绿体的基因进行注释,也可根据公认的叶绿体注释软件DOGMA * ,进行叶绿体序列的注释。除此之外,宾夕法尼亚州立大学建立了叶绿体专属的数
通过只针对叶绿体据库** ,可输入未知叶绿体序列,
基因BLAST 进行注释。完整的叶绿体基因组序列可使用MultiPipmaker [29]、Mega4.0[30]等软件进行多个基因组的比较分析,REPuter [31]分析基因组内的重复序
(MP )列,PAUP version 4.0进行最大简约法和最大似
然法(ML )的系统进化分析和进化树的构建。生物信息学的迅速发展能够实现对叶绿体基因组测序数据进行快速有效的分析,进而推动叶绿体基因组序列信息的深层挖掘和利用。
World Science and Technology/Modernizationof Traditional Chinese Medicine and Materia Medica 〕 444
10μ g 以上的叶绿体DNA ,但不同物种叶绿体含量不同,在去除叶片中的多糖多酚时会不同程度的影响最后叶绿体DNA 的得率,所以取新鲜叶片量应超过100g ,以确保最终测序的DNA 总量。如采集大量的样品不能马上提取,将新鲜叶片匀浆后浸泡在缓冲液中,-20℃ 保存备用。
(2)叶绿体基因组DNA 提取与检测。
幼嫩的植物叶片含有大量的叶绿体DNA ,更有利于高质量的叶绿体DNA 获取。利用琼脂糖凝胶电泳检测DNA 的质量和完整性;用紫外分光光度计检
以保证测序所需DNA 的量。测DNA 的浓度,
叶绿体DNA 测序中除了对总量的要求,还对DNA 纯度有较高的要求。因为提取过程中需要先分离叶绿体,在分离过程中容易导致线粒体和核基因组序列污染,如果混入较多的线粒体和核基因组的
浪DNA ,测序结果中会产生大量非叶绿体无用数据,需要对费大量的数据通量并影响数据的拼接。因此,
所得的叶绿体DNA 进行检测。可采取两种方法:① 用一种或者两种核酸内切酶对提取的叶绿体DNA
如果含有线粒体和核基因组的DNA ,进行酶切。则酶
如果切的条带呈现弥散状。但这种方法精确性较差,混入了少量的线粒体和核基因组的DNA ,达不到肉
眼所能观察的程度,就会产生实验误差。② 将提取的叶绿体DNA 构建文库,并从中随机选取50~100个克隆数进行Sanger 测序。根据测序结果可判断出所提取的叶绿体DNA 的纯度是否能达到测序的要求。一般来讲,叶绿体DNA 的纯度难以达到100%,90%以上的纯度即符合测序要求。
(3)正确估计测序通量。
一个run 的如采用Roche GS FLX Titanium 测序,
测序通量约为500Mb ,如果进行物理分区,会降低测序通量,分区越多,最终得到的数据量越少。罗氏的
(1)采样及样品的保存。
由于高通量测序的叶绿体DNA 总量需达到5~
每100g 新鲜的叶片可以获得10μ g ,依照实验得率,
4. 150kb ,每个样品的测序通量一般需达到20~30倍覆
盖度,可根据实际情况计算每个区添加的物种数。
四、叶绿体基因组研究的应用与展望
虽然目前NCBI 上已登录了近200个叶绿体基
这仅为很小的因组,但相比整个植物界的物种数量,
新的生物一部分。随着第二代测序技术的飞速发展,
信息分析软件的开发,叶绿体基因组测序物种的数量将会大幅增加。叶绿体基因组序列数量的增多不仅会带动叶绿体基因组在系统进化、物种鉴定等方面的深入研究,也将推动叶绿体基因工程的发展。佛罗里达大学的Daniell 实验室专门致力于叶绿体基因
,并提出工程的研究(http://daniell.ucf.edu/welcome)
50转基因能更好的应用于医用蛋白的生产、植物抗性蛋白的表达、改良作物品质、农作物代谢途径的改造等方面提供数据支持。药用植物叶绿体基因组测序除了可以极大地丰富叶绿体基因组序列的数量,更重要的是可以推动药用植物在分子育种、遗传转化以及系统进化等方面的研究进程。
参考文献
1Tatsuya Wakasugi, Takahiko Tsudzuki, Masahiro Sugiura. The genomics
of land plant chloroplasts:Gene content and alteration of genomic in ⁃ formation by RNA editing. Photosynthesis Research , 2001, 70∶ 107~118.
2Adrian C Barbrook, Christopher J Howe, Davy P Kurniawan, et al . Or ⁃ 2010, 365∶ 785~797.1992, 19∶ 149~168.
ganization and expression of organellar genomes. Phil . Trans. R. Soc. B , Masahiro Sugiura. The chloroplast genome. Plant Molecular Biology ,
34
quence of the tobacco chloroplast genome:its gene organization and expression. The EMBO Journal , 1986, 5(9)∶ 2043~2029.
Kanji Ohyama, Hideya Fukuzawa, Takayuki Kohchi, et al. Structure
K.Shinozaki, M.Ohme, M.Tanaka, et al. The complete nucleotide se ⁃
5
and organization of Marchantia polymorpha chloroplast genome:I. 203(2)∶ 281~298.
Cloning and gene identification. Journal of Molecular Biology , 1988, 6
Christopher Saski, Seung -Bum Lee, Siri Fjellheim, et al. Complete
chloroplast genome sequences of Hordeum vulgare, Sorghum bicolor genomes. Theor Appl Genet , 2007, 115∶ 571~590.
GS FLX Titanium Rapid Library MID Adaptors Kit 含有12种MID 标签,如果一个run 分为两个区,则总的通量约为300Mb 左右;分为4个区,则总的通量约为
每个区包含约60Mb 的数据,一个样品所250Mb 左右,
得的数据量为60/12Mb。叶绿体基因组DNA 平均为
and Agrostis stolonifera , and comparative analyses with other grass
7Takayuki Asano, Takahiko Tsudzuki, Sakiko Takahashi, et al. Complete nucleotide sequence of the sugarcane ( Saccharum Officinarum ) chloro ⁃ Genomes. DNA Research , 2004, 11(2)∶ 93~99.
plast Genome:A comparative analysis of four monocot chloroplast Christopher Saski, Seung -Bum Lee, Henry Daniell, et al. Complete
8
445〔 World Science and Technology/Modernizationof Traditional Chinese Medicine and Materia Medica 〕
世界科学技术—中医药现代化★ 专题讨论:中药资源研究的前沿技术
chloroplast genome sequence of Glycine max and comparative analyses 9
Lei Gao, Xuan Yi, Yong-Xia Yang, et al . Complete chloroplast genome sequence of a tree fern Alsophila spinulosa :insights into evolutionary changes in fern chloroplast genomes. BMC Evolutionary Biology , 2009, 10Chung-Shien Wu, Yu-Ting Lai , Ching-Ping Lin, et al. Chloroplast
9∶ 130.
with other legume genomes. Plant Molecular Biology , 2005,59:309~322.
19Jim Leebens-Mack, Linda A Raubeson, Liying Cui, et al. Identifying
the basal angiosperm node in chloroplast genome phylogenies:sampling one's way out of the Felsenstein zone. Mol Biol Evol , 2005, 22(10)∶ 20Shilin Chen, Hui Yao, Jianping Han, et al. Validation of the ITS2Re ⁃
PLoS ONE , 2010, 5(1)∶ e8613. 1948~1963.
gion as a Novel DNA Barcode for Identifying Medicinal Plant Species.
genome (cpDNA)of Cycas taitungensis and 56cp protein-coding genes of Gnetum parvifolium :insights into cpDNA evolution and phylogeny of extant seed plants. Mol Biol Evol , 2007, 24(6)∶ 1366~1379.
21陈士林, 宋经元, 姚辉, 等. 药用植物DNA 条形码鉴定策略及关键技
术分析. 中国天然药物, 2009, 7(5)∶ 322~327.
22Hui Yao, Jing-Yuan Song, Xin-Ye Ma, et al. Identification of dendro ⁃
psbA-trnH intergenic region. Planta Med , 2009,75( 6)∶ 667~669.
11Ki-Joong Kim, Hae-Lim Lee. Complete chloroplast genome sequences
from korean ginseng (Panax schinseng Nees) and comparative analysis of sequence evolution among 17vascular plants. DNA Research , 2004, 11(4)∶ 247~261.
bium species by a candidate DNA barcode sequence:The chloroplast
23Boynton JE, Gillham NW, Harris EH, et al. Chloroplast transformation
in Chlamydomonas with high velocity microprojectiles. Science , 1988, 240(4858)∶ 1534~1538.( 8)∶ 3429~3431, 3434.
12Chung-Shien Wu, Yu-Ting Lai, Ching-Ping Lin, et al. Evolution of re ⁃
lection toward a lower-cost strategy. Molecular Phylogenetics and Evo ⁃
duced and compact chloroplast genomes (cpDNAs)in gnetophytes:Se ⁃ 24桂腾琴, 孙敏. 叶绿体基因工程的研究进展. 安徽农业科学, 2009, 3725Michael Imelfort, David Edwards. De novo sequencing of plant genomes
using second -generation technologies. Brief Bioinform , 2009, 10(6)∶ 609~618.
lution , 2009, 52∶ 115~124.
13Charles H Leseberg, Melvin R Duvall. The complete chloroplast genome
of plastomes in cereals. J Mol Evo l, 2009, 69(4)∶ 311~318.Rev Genet , 2009, 11∶ 31~46.
of Coix lacryma-jobi and a comparative molecular evolutionary analysis
14Michael L. Metzker. Sequencing technologies-the next generation. Nat 15张阵阵, 郭美丽, 张军东. 分子标记技术及其在药用植物中的应用.
药学实践杂志, 2007, 25( 3)∶ 137~140.
16张杰, 康冀, 吴兴亮. 灵芝属分子系统学研究进展. 贵州科学, 2006, 2417Sean W Graham, Richard G Olmstead. Utility of 17chloroplast genes
for inferring the phylogeny of the basal angiosperms. American Journal of Botany , 2000, 87(11)∶ 1712~1730.( 2)∶ 75~79.
27Brent Ewing, LaDeana Hillier, Michael C. Wendl, et al. Base-calling of
Genome Research , 1998, 8(3)∶ 175~185.
26Kelly Rae Chi. The year of sequencing. Nat Methods , 2008, 5(1)∶ 11~14.
automated sequencer traces using phred. I. Accuracy assessment.
28Brent Ewing, Phil Green. Base-calling of automated sequencer traces us ⁃ 29Scott Schwartz, Laura Elnitski, Mei Li, et al. MultiPipMaker and sup ⁃
porting tools:alignments and analysis of multiple genomic DNA se ⁃ quences. Nucleic Acids Research , 2003. 31(13)∶ 3518~3524.
ing phred. II. Error probabilities. Genome Research , 1998. 8(3)∶ 186~194.
18Robert K Jansen, Charalambos Kaittanis, Christopher Saski, et al. Phy ⁃
30Koichiro Tamura, Joel Dudley, Masatoshi Nei, et al. MEGA4:Molecular
lar Biology and Evolution 2007. 24(8)∶ 1596~1599.
Evolutionary Genetics Analysis (MEGA)Software Version 4.0. Molecu ⁃
logenetic analyses of Vitis (Vitaceae)based on complete chloroplast
genome sequences:effects of taxon sampling and phylogenetic methods on resolving relationships among rosids. BMC Evolutionary Biology , 2006, 6∶ 32.
31Stefan Kurtz, Jomuna V Choudhuri, Enno Ohlebusch, et al. REPuter:
the manifold applications of repeat analysis on a genomic scale. Nucle ⁃ ic Acids Research , 2001. 29(22)∶ 4633~4642.
Chloroplast Genome of Medicinal Plants
Lin Xiaohan 1, Liu Zhihua 1, Li Qing 1, Chen Shilin 1, Li Xiwen 2
(1.Institute of Medicinal Plant Development, Chinese Academy of Medical Sciences &Peking Union Medical
College, Beijing 100193, China ;
2. Department of Chemistry, Tsinghua University, Beijing 100084, China) Abstract:This paper presents a strategy of medicinal plant chloroplast genome sequencing based on the progress in plant chloroplast genome sequencing. It also discusses the issues in species selection, sequencing platform choice, and comprehensive application of bioinformatics tools, as well as the technical difficulties in sample extraction, anal ⁃ ysis and detection.
Keywords:Medicinal plants, Chloroplast genome, Sequencing, Strategy
王瑀,(责任编辑:责任译审:张立崴)
〔 World Science and Technology/Modernizationof Traditional Chinese Medicine and Materia Medica 〕
446