生物信息学作业
CDK2基因和蛋白质序列的生物信息学分析
姓名:
学号:
专业:
1前言
细胞周期蛋白依赖激酶2(cyclin-dependent kinase 2,CDK2) ,又名细胞分裂激酶2(cell division kinase 2)或p33蛋白激酶(p33 protein kinase),其基因定位于人类基因组的12号染色体上的q13染色带上。CDK2基因全长6013bp ,这部分中有7个外显子和6个内含子,7个外显子的长度依次为353bp 、78bp 、121bp 、171bp 、102bp 、204bp 、1264bp(可依次记为外显子1-7) 。在翻译过程中,该基因转录成的mRNA 的外显子1的前137bp 和外显子7的后1159bp 不进行翻译,属于调控序列。mRNA 上只有中间的部分编码蛋白质。
CDK2基因可以转录为两种mRNA 。其中,变体1长度为2325bp ,编码298个氨基酸;变体2长度为2223bp ,编码264个氨基酸。这两种蛋白质为CDK2的同型蛋白,功能相同,具有调控细胞分裂的功能,主要在G1期到S 期和S 期到G2期这两个阶段起作用。CDK2广泛分布在生物体的各种细胞的胞质溶胶和细胞核质中,但只在进行分裂的细胞中行使功能,这是因为CDK2只有与不同的细胞周期蛋白(cyclin)结合后才具有活性。CDK2可以与细胞周期蛋白A 、B1、B3、E 等结合后,参与细胞周期调控。由于CDK2在细胞内的数量变化有可能导致细胞周期异常而产生癌症,故CDK2基因可以被看作癌基因,其活性和表达量可以作为衡量癌症的指标。CDK2与周期蛋白E 的复合体不仅能直接参与中心体复制的起始调控,还能与类Rb 蛋白p107或转录因子E2F 结合,促进细胞从G1期向S 期转化或调控DNA 复制有关的基因转录。而CDK2与周期蛋白A 的复合体可以增强DNA 复制因子RF-A 的活性。
在CDK2分子中,被称为T 环的氨基酸环阻断了活性部位,妨碍激酶履行它的酶功能,而且活性部位的氨基酸形成一种难于为蛋白质结合的形状。CDK2与周期蛋白结合时,周期蛋白将T 环转出2nm 以上,又将CDK2中的PSTAIRE 螺旋部分转了, 并把活性部位氨基酸变成能与底物蛋白结合的正确构象。CDK2的活性不仅与周期蛋白有关,还与其上的Thr-15、Tyr-15、Thr-160三个位点是否磷酸化有关。一般情况下,与周期蛋白结合的CDK2的上述三个位点被Wee/Mik1和CAK 激酶磷酸化,但此时复合体还没有活性,只有当Cdc25c 将Thr-15、Tyr-15两个位点去磷酸化后,复合体才有活性。细胞中存在多种因子对CDK2进行修饰调节,此外还存在对其活性起负性调控的蛋白质,即CDK 激酶抑制物,例如p21CIP/WAF1、p27KIP2等。
前面提到,CDK2基因转录的产物有两种。这两种mRNA 的不同之处在于变体1由全部7个外显子组成,而变体2缺失外显子5,由剩余的6个外显子组成。这样翻译成的两种同型蛋白的长度就相差34个氨基酸。
2 材料和方法:
2.1序列数据来源
采用蛋白质名称对NCBI 非冗余蛋白质数据库进行检索,CDK2蛋白的记录有1013个。而采用基因名称对NCBI 非冗余核酸数据库进行检索,CDK2蛋白的记录有680个。 采用人(Homo sapiens) 的CDK2蛋白序列进行BLAST 搜索。
2.2序列分析方法
2.2.1 序列比对方法
将以上序列数据以fasta 格式作成一个文件后,用ClustalX2进行全序列自动比对。比对过程中采取自动比对和手动比对相结合,输出格式为Clustal 格式(.aln )。
2.2.2分子系统发育分析方法
用MEGA4.0(Molecular Evolutionary Genetics Analysis 4.0)进行系统发育分析。采用MEGA4.0的邻接法(Neighbor-joining method, NJ)和最大简约法(Maximum parsimony method, MP )建树。NJ 方法中采用Poission 校正的氨基酸取代模型,在MP 方法中采用CNI 的方法搜索最简约树。在两种方法中对空位的处理都采取全部删除(Complete deletion )策略,同时采用自举检验(bootstrap test,重抽样500次) 估计系统树中结点的置信值(BCL 值)。
2.2.3蛋白质家族和基序与结构域分析方法
所研究蛋白质在PFAM 、PROSITE 等蛋白质二次数据库中的分类情况
2.2.4蛋白质三级结构与结构分类分析
所研究蛋白质在蛋白质结构数据库中的分类情况
3 结果
3.1 序列的查询情况
CDK2在HomoloGene 数据库中只有1条记录,即:HomoloGene:74409. Gene conserved in Eukaryota,其中有18个物种的19条蛋白质序列。
3.2 序列的比对情况
从19条蛋白质序列的比对结果可以看出,这些序列的高度同源区较多,大致可分为7个区域。这些区域的序列有较高的保守性,是蛋白质的功能区。个别序列有十几到几十个长度不等的插入序列,这可能与蛋白质的外显子剪接或编码基因的突变有关,这一区域在功能上的作用较小。
以蛋白质的起始氨基酸为例,19条序列的起始氨基酸均为甲硫氨酸,但比对的结果却是有5条序列的的前几个氨基酸被认为是插入的。这可能的原因是如果认为19条序列的起始氨基酸均为甲硫氨酸,则其中有5个因为会给比对体系带来过多的空位,从而降低了整个体系的评分。
3.3 序列之间的遗传距离
Description
Data Type : Amino acid Analysis : Pairwise distance calculation ->Compute : Distances only Include Sites : ->Gaps/Missing Data : Complete Deletion
Substitution Model : ->Model : Amino: Poisson correction ->Substitutions to Include : All ->Pattern among Lineages : Same (Homogeneous) ->Rates among sites : Uniform rates
No. of Sites : 284 d : Estimate
[1] Homo_sapiens [2] Pan_troglodytes [3] Canis_familiaris [4] Bos_taurus [5] Mus_musculus
[6] Rattus_norvegicus [7] Danio_rerio [8] Drosophila_melanogaster [9] Anopheles_gambiae
[10] Schizosaccharomyces_pombe[11] Saccharomyces_cerevisiae [12] Kluyveromyces_lactis
[13] Ashbya_gossypii [14] Magnaporthe_grisea[15] Neurospora_crassa [16] Arabidopsis_thaliana
[17]Oryza_sativa_1 [18]Oryza_sativa_2 [19] Plasmodium_falciparum
[ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18]
[ 1]
[ 2] 0.000
[ 3] 0.011 0.011
[ 4] 0.014 0.014 0.011
[ 5] 0.011 0.011 0.007 0.004
[ 6] 0.011 0.011 0.007 0.004 0.000
[ 7] 0.100 0.100 0.088 0.092 0.092 0.092
[ 8] 0.423 0.423 0.434 0.434 0.434 0.434 0.439
[ 9] 0.507 0.507 0.501 0.507 0.501 0.501 0.496 0.429
[10] 0.391 0.391 0.402 0.402 0.397 0.397 0.413 0.519 0.606
[11] 0.456 0.456 0.456 0.450 0.456 0.456 0.450 0.568 0.568 0.413
[12] 0.484 0.484 0.484 0.478 0.484 0.484 0.478 0.549 0.580 0.407 0.124
[13] 0.462 0.462 0.462 0.462 0.462 0.462 0.450 0.561 0.586 0.407 0.136 0.088
[14] 0.391 0.391 0.402 0.402 0.397 0.397 0.423 0.531 0.586 0.351 0.331 0.321 0.297
[15] 0.381 0.381 0.386 0.381 0.386 0.386 0.407 0.519 0.580 0.361 0.316 0.326 0.316 0.104
[16] 0.366 0.366 0.366 0.366 0.366 0.366 0.356 0.525 0.531 0.445 0.467 0.473 0.467 0.423 0.402
[17] 0.361 0.361 0.361 0.371 0.371 0.371 0.366 0.543 0.549 0.434 0.456 0.467 0.445 0.381 0.381 0.173
[18] 0.407 0.407 0.402 0.397 0.397 0.397 0.402 0.599 0.561 0.439 0.467 0.473 0.456 0.423 0.402 0.164 0.168
[19] 0.462 0.462 0.462 0.467 0.462 0.462 0.467 0.612 0.638 0.574 0.543 0.543 0.549 0.537 0.561 0.434 0.439 0.456
3.4 序列/物种之间的系统发生重建结果
分子系统发育分析结果中NJ 法和MP 法分析结果见图1及2。
图1:CDK2蛋白分子进化树:NJ (Neighbor joining)分析,分枝上显示的数字是Bootstap 检验获得的BCL (bootstrap confidence level) 值。
图2:CDK2蛋白分子进化树:MP (Maximum parsimony)分析,分枝上显示的数字是Bootstap 检验获得的BCL (bootstrap confidence level) 值。
建树结果分析:使用NJ 和MP 两种方法建立的进化树与物种树基本一致,主要的不同是NJ 法建立的进化树中,拟南芥与水稻的两种CDK2蛋白的进化关系有误,应为先分离出拟南芥,然后分离出两种水稻的CDK2蛋白。
3.5 蛋白质家族特征分析结果
CDK2属于CMGC 丝氨酸/苏氨酸蛋白激酶家族,CDK ×亚家族。这一家族的蛋白质都有一段相似的CDK 激酶结构域,其中有一小段序列相当保守,即PSTAIRE 序列。据认为,这段序列与周期蛋白结合有关。
以人的CDK2蛋白为例,其有1个结构域,7个基序。结构域上有两个分别有磷酸化激酶和磷酸转移酶的功能的区域。
人的CDK2蛋白的结构域具有蛋白激酶的功能(Pfam00069),其结构为:
PFTK2_HUMAN [Homo sapiens (Human)] Serine/threonine-protein kinase PFTAIRE-2 EC=2.7.11.22 (384 residues)
使用PROSITE scan在人的CDK2蛋白上共找到7个基序,分别为:
(1)cAMP 和cGMP 依赖性蛋白激酶磷酸化位点(cAMP- and cGMP-dependent protein kinase phosphorylation site),正则表达为[RK](2)-x-[ST]。
(2)PKC 磷酸化位点(Protein kinase C phosphorylation site),正则表达为[ST]-x-[RK]。有研究表明,细胞中的PKC 含量升高可以促进CDK2和周期蛋白E 的结合。
(3)酪蛋白激酶Ⅱ磷酸化位点(Casein kinase II phosphorylation site ),正则表达为
[ST]-x(2)-[DE]。
(4)酪氨酸激酶磷酸化位点(Tyrosine kinase phosphorylation site ),正则表达为
[RK]-x(2,3)-[DE]-x(2,3)-Y。
(5)豆蔻酰化位点(N-myristoylation site),正则表达为G-{EDRKHPFYW}-x(2)-[STAG CN]-{P}。
(6)特异性蛋白激酶与A TP 结合区域(Protein kinases ATP-binding region signature),正则表达为[LIV]-G-{P}-G-{P}-[FYWMGSTNH]-[SGA]-{PW}-[LIVCAT]-{PD}-x-[GSTACLI VMFY]-x(5,18)-[LIVMFYWCSTAR]-[AIVP]-[LIVMFAGCKR]-K。有活性的CDK2在通过将ATP 的磷酸基团转移到底物上以调控细胞周期。
(7)特异性丝氨酸/苏氨酸蛋白激酶活性位点(Serine/Threonine protein kinases active-site signature ),正则表达为[LIVMFYC]-x-[HY]-x-D-[LIVMFY]-K-x(2)-N-[LIVMFYCT](3)。
3.6蛋白质三级结构与结构分类分析
CDK2的3D 结构已知,显示其结构如下图。
CDK2在SCOP 结构分类数据库中的分类如下:
Root: scop
Class: Alpha and beta proteins (a+b) [53931]
Mainly antiparallel beta sheets (segregated alpha and beta regions) Fold: Protein kinase-like (PK-like) [56111]
consists of two alpha+beta domains, C-terminal domain is mostly alpha helical
Superfamily: Protein kinase-like (PK-like) [56112]
shares functional and structural similarities with the ATP-grasp fold and PIPK Superfamily
Family: Protein kinases, catalytic subunit [88854]
members organized in the groups and subfamiles specified by the comments
Protein: Cyclin-dependent PK, CDK2 [88855]
CMGC group; CDKs subfamily; serine/threonine kinase
Species: Human (Homo sapiens) [TaxId: 9606] [88856]
SQ P24941
CDK2的两个结构域在CA TH 结构分类数据库中的分类如下:
结构域1有磷酸化激酶功能,分类号为3.30.200
CATH Code 3
3.30 Level Description Alpha Beta 2-Layer Sandwich
3.30.200 Phosphorylase Kinase; domain 1
结构域2有磷酸转移酶功能,分类号为1.10.510
CATH Code 1
1.10 Level Description Mainly Alpha Orthogonal Bundle
1.10.510 Transferase(Phosphotransferase); domain 1
4 讨论
CDK2在生命活动中有广泛的功能,除了可以调控有丝分裂和减数分裂的细胞周期,还有可能参加细胞凋亡过程。
CDK2调控细胞周期通过与周期蛋白A 或E 结合为复合体实现。CyclinE-CDK2复合体为细胞从G1进入S 期的关键激酶复合物。CyclinE-CDK2复合体形成后,磷酸化其底物蛋白,如视网膜母细胞瘤蛋白(pRb)、pRb 家族成员P107、CDC6等,使DNA 合成得以进行,细胞由G1期进入S 期。DNA 作为遗传物质必须被准确地复制到子代细胞中,当DNA 受到损伤和出现错误时,其复制是不被允许的。这是由于高等真核细胞存在一个G1期限制点,DNA 损伤后会激活一些针对Cyclin-CDK 活性的抑制因子,包括CIP/KIP(周期蛋白抑制蛋白/激酶抑制蛋白) 家族成员P21(cip1)、P27(kip1)和P57(kip2)。这些激酶活性的抑制因子结合与复合体结合,使其失去激酶活性,不能磷酸化其底物,DNA 的合成从而不能被启动。CyclinE-CDK2的激酶活性是受着P21、P27和P57等严格调控的。CyclinE-CDK2推动细胞进入S 期后,其G1/S期的使命即完成,通过S 期激酶结合蛋白(Skp)2-SCF介导泛素化,被蛋白酶体降解。
CyclinA-CDK2复合体是一种丝氨酸/苏氨酸激酶,在细胞周期G1/S期转化和S 期进程中发挥着关键性的作用。已有研究发现一些与DNA 复制相关的CyclinA-CDK2底物,如Cdc6、Mcm4、Cdt1和Fen1。而最近的研究显示,CyclinA-CDK2能够在细胞凋亡过程中被激活,并调控细胞凋亡的进程。这一过程有可能通过磷酸化其特异性的底物来调控细胞凋亡进行,因此其潜在底物目标群为对细胞凋亡有着重要调控作用的Bcl-2家族蛋白质,可通过体外磷酸化试验验证候选蛋白能否被CDK2磷酸化。
CDK2除了是驱动细胞通过G1/S期检验点进入S 期完成DNA 合成的关键性调控蛋白,在减数分裂中的作用也很重要。试验发现,敲除小鼠CDK2基因后小鼠生长发育正常,只是不育,生殖细胞减数分裂受到影响。生殖细胞的分裂受到促卵细胞成熟因子MPF 的影响。MPF 是由CDK1和CyclinB 组成的异二聚体,在减数分裂调控中处于核心地位。CDK2是MPF 的主要上游分子,其活性变化会影响到MPF 的活性。因此CDK2即使对减数分裂没有直接的作用,
至少也会通过改变MPF 的活性而影响到卵母细胞的减数分裂。
生物信息学是一门数学、统计、计算机与生物医学交叉结合的新兴学科。它通过对生物学实验数据的获取、加工、存储、检索与分析,进而达到揭示数据所蕴含的生物学意义的目的。当前生物信息学的研究主要集中于核苷酸和氨基酸序列的存储、分类、检索和分析等方面,在人类疾病与功能基因的发现与识别、基因与蛋白质的表达与功能研究方面都发挥着关键的作用,同时生物信息学在基于基因与蛋白质功能缺陷的合理化药物设计方面也有着巨大的潜力。生物信息学目前已形成了多个研究方向,其中研究重点如序列比对、蛋白质结构比对和预测、基因识别及非编码区分析研究、分子进化和比较基因组学、序列重叠群(Contigs)装配、遗传密码的起源、基于结构的药物设计、生物系统的建模和仿真和生物信息学技术方法的研究等。
人类对基因的认识已上升到在整个基因组水平上考察基因的组织结构和信息结构,考察基因之间在位置,结构和功能上的相互关系。这要求生物信息学在一些基本的思路上要做本质的观念转变。由于生物信息学是基于分子生物学与多种学科交叉而成的新学科,现有的形势仍表现为各种学科的简单堆砌,相互之间的联系并不是特别的紧密。在处理大规模数据方面,没有行之有效的一般性方法;而对于大规模数据内在的生成机制也没有完全明了,这使得生物信息学的研究短期内很难有突破性的结果。要使问题得到真正的解决,最终可能得从生物学自身,从数学上的新思路来获得动力。
5 参考文献
Cohen EE, Zhu H, Lingen MW, Martin LE, et al. A feed-forward loop involving protein kinase Calpha and microRNAs regulates tumor cell cycle. Cancer Res 2009 Jan 1;69(1):65-74.
Hodgson JG, Yeh RF, Ray A, Wang NJ, et al. Comparative analyses of gene copy number and mRNA expression in glioblastoma multiforme tumors and xenografts. Neuro Oncol 2009 Oct;11(5):477-87.
翟中和, 王喜忠, 丁明孝. 细胞生物学. 北京:高等教育出版社,2000.
舒伟, 马清钧, 叶昕.CyclinE-CDK2相关蛋白与细胞周期调控. 生物技术通讯,2008,19(1):97-100. 李清, 何侃, 高畅, 李晶华, 金英花.CyclinA-Cdk2对B 细胞成熟因子的体外磷酸化作用. 中国生物制品学杂志,2008,21,(9):765-767.
关泽红, 旭日干.CDK2在精母细胞和卵母细胞减数分裂中的作用. 生理科学进展,2008,39,(2):169-171.