基于遗传学近视眼发病的因素分析
[摘要] 本文旨在对于近视眼发病过程中的遗传学因素的影响的大小进行评估,利用统计学上的主成分分析方法,对于选取的9个人群的11个风险基因进行了定量的统计分析,PCA图谱上两个与风险相关的区域被发现,该发现区域与低视力频率呈线性关系。分析结果支持近视眼发病与遗传因素的紧密联系。 [关键词] 近视眼;遗传因素;主成分分析;人群聚集 [中图分类号] R77 [文献标识码] A [文章编号] 1673-9701(2013)32-0001-04 An analysis on the causation of myopia based on genetics CHE Yan Chemistry Department,University of California,Berkeley CA94709,USA [Abstract] The paper aims to evaluate genetic contribution of myopia in developing the disease via principal component analysis(PCA). In this paper,PCA studies were conducted on 11 potential myopia risk loci among 9 different populations and the result shows a close relationship between myopia and the genetic structure. [Keywords] Myopia;Genetic aspect;PCA;Population aggregation 近视症,俗称“近视眼”,是一种十分常见的眼科疾病。目前近视眼已经成为世界上最为常见的眼科疾病之一,在中国发病率已达到33%(2010年数据),在美国发病率更是达到了41.6%[1](2004年数据)。 然而,近视眼的主要成因却是一个富有争议的话题。一般认为近视眼是有遗传倾向的。Fotouhi的研究表明近视眼的发病具有很强的家族聚集倾向性,兄弟姐妹之间的发生率可达2.09~3.86[2]。 在另一方面,也有一些人提出争议,认为在近视眼的发病过程中,遗传并不是主要的因素。Rachel Nowak在她的文章Lifestyle causes myopia, not genes中提到人“受到环境因素的巨大影响以至于可以彻底抵消遗传的因素影响”[3]。除此以外,Rose 和Morgan的研究中指出环境因素的改变在世界范围内的近视眼流行过程中起到决定性作用[4]。 本文通过主要成分分析在9个不同人群的11个潜在的近视眼风险位点进行分析,以评估遗传因素在近视眼发展中的作用大小。 1 资料与方法 1.1位点数据收集 潜在的风险位点信息是从网站“A Catalog of Published Genome-Wide Association Studies[5]和“23andme” website[6]上得到的。见表1。 1.2 人群数据收集 分区的个体单体型数据是从国际的“Hapmap”项目[7]中得到的。选中的9个不同的人群见表2。 1.3统计学方法 主成分分析(PCA)是一种可以将一组相关的观测转化为一组线性无关的变量的正交线性变换[8]。在本文中,主成分分析中的R package主要用于过滤噪音数据以及减少数据的维度。 2 结果 根据表1、表2,分析如下。 2.1风险相关位点的连锁不平衡和P值的比较 图1显示不同风险位点对于近视眼发病风险的贡献。 图1 选中风险位点的关联 从左到右点的分布为:rs4373767、rs4557020、rs1137、rs282544、rs93180836、rs10034228,rs1585471、rs6685224、rs577948、rs560766、rs939661。相互之间r2值在0.8 到1之间的SNPs在图中是红色的,与其他10个位点r2值 从图1显示,不同的等位基因对于近视眼发病风险的贡献各不相同。 其中影响最大的rs9318083的p值为2×10-16。从图谱中我们还可以注意到另一个特点就是缺少遗传上的连锁不平衡, 这一点也可以从11个风险相关等位基因的相关性图像中看出。 图2即显示了不同风险等位基因之间的相关性。 图2 选定的近视风险等位基因的相关性 x轴和y轴都是位点位置的任意单位。红色表示高连锁不平衡(r2=1),而黑色表示不相关(r2=0)。只有两个位点(rs4373767和rs1137)的 r2数值>0.8(r2=0.83),而其他的等位基因都是完全不连锁的。 2.2近视眼的人群聚集 图3为9个人群450个个体遗传数据的PCA图像。 图3 近视眼的人中聚集 图3 450个个体的遗传数据在主成分轴1(PC1)和主成分轴2(PC2)中。颜色标记:红色,ASW;绿色,CEU;蓝色,CHB;黄色,CHD;橘色,GIH;紫红色,JPT;黑色,MEX;灰色,TSI;棕色,YRI。 图3显示出了在人群层面上缺乏聚集倾向。来自不同人群的个体混杂在一起难以分辨,但是人群整体可以被分在两个主要区域中(上述标出的区域A与区域B中)。大多数来自于ASW和YRI人群的较少的一些个体,在PC1~0 中形成了一个更小的聚集群。由于中间的聚集群与区域A和区域B比较相对较小,所以在本研究以下部分中中间区域所带来的效应被忽略。 为了确认种群聚集是否完全不存在,进行了成对数据主成分分析。见图4、图5。 图4 CHD 和YRI的PCA 颜色: CHD,红色;YRI,绿色 图5 CHD和ASW的PCA 颜色:CHD,红色;ASW,绿色 从图4和图5中,可以看出ASW 和YRI 人群与CHD人群配在一起时的聚集情况,尽管它们之间的界限并不明确。这个观察说明了种群聚集确实存在,但是它们之间的亲缘关系比较近,这也是图3中没有显示出种群聚集情况的原因之一。另一个需要指出的特点就是ASW和YRI人群的种群聚集的形态与位置十分相似,所以可以推测ASW与YRI人群在遗传上是十分相关的。 人口集群的存在也在CHD与其他不相关的人群比对时发现。见图6、图7。 与ASW 和 YRI人群相似,集群可以被识别出来,但是它们之间的边界比较模糊。但是,人群集群在CHD与和它紧密联系的种群CHB和JPT一起在图中比较时消失: 2.3近视眼发病中遗传因素贡献的大小 在PCA 分析过程中, 2个主要的、独立于人群之外的种群聚集区域被发现。 说明了风险相关的等位基因作为一个遗传的整体在近视眼发病过程中起作用而且造成了两个遗传的产物,即A和B。至于遗传因素对于表型的贡献有多大,我们应该找到种群聚集区域与世界上近视眼发病率之间的关系。单体基因型与表型统计之间的一个强有力的关系可以揭示出基因型与表现型之间紧密的联系,也就是说遗传还是在近视眼发病中的主要因素。 人群被分成5个不同的区域,这5个不同的区域的近视眼发病率可以从联合国世界卫生组织的数据中查到[9]。人群TSI和CEU来源于非常相似的地理位置而且遗传上紧密联系。由于TSI包括了一个特殊范围的个体,故在此处忽略其数据以防止一个小区域内的遗传波动(漂变)影响整体的结果。同理,CHB的数据也被排除在外。见表3。 表3 人群及其所属的区域 低视力因子衡量了一个个体在一个特定区域内视力低下的相对概率,其值越高患有近视的风险就越大。笔者统计了图3中区域A和区域B中的单体型并且获得了他们相应的频率。见表4和图10。 表4 低视力因素和在图3中单体型的分布 图10 区域A中个体发病频率vs低视力因子 图10 说明了低视力因子随着区域A中的单体型频率线性增加,r2值大约0.926。因此,一个个体在PCA图上落入区域A的可能性越大,其近视眼的发病可能性越大。于是,区域A被发现是一个“高风险”区域。见图11、图12。 图11 区域B中个体频率vs低视力因子 图12 区域B中个体的频率vs低视力因子 *除去非洲的数据 图11显示,相关关系在一定程度上是线性的,而来自非洲人群的数据对整体的趋势偏离最大。当删除了非洲的数据后,拟合结果的r2值可达0.9581。 与我们发现的区域A相反,区域B中单体型的频率越高会导致低视力因子的下降,使得区域B成为一个“低风险”区。 3讨论 近视眼风险相关的等位基因包括了大小相差很大的一组P值而且基本上是不连锁的。这有可能是近视风险相关基因的物理位置各不相同,大多数等位基因并不位于一个染色体上。即使对于位于一条染色体上的基因,比如rs10034228和rs1585471 (在4号染色体上), 它们在染色体上的距离足够大以至于可以被认为是不连锁的。不同等位基因对于近视不同的贡献和它们之间的不连锁表明了近视是一个复杂的、多个风险等位基因效果综合在一起的过程,而不能简单看做一个单基因位点的疾病。 近视眼有着十分弱的种群聚集倾向。一种可能的解释是近视眼的等位基因在人群中的分布是极其普遍的。这些风险基因中的绝大多数有一个单倍体的最小频率大约为0.4,意味着对于每一个单独的风险基因而言大约世界上一半的人都是其携带者。考虑到总共有11个基因,简单估算便可知道几乎所有的个体都至少携带其中的一个基因。总体较高的基因频率使得在不同种群之间找到那些相对较小的改变变得不易。此外,本研究中的样本量还不是太大,这减弱了PCA的敏感性。而在本研究中观察到的不相关的种群之间很弱的聚集现象或许是环境选择的作用。 PCA图上两个与风险相关的区域被发现出来。它们与低视力频率的线性对应关系揭示了遗传因素在近视发病过程中的重要作用。反驳了近视眼中后天环境变化因素影响远远超过遗传因素的观念。 本研究也有许多的局限性。首先,如上所述样本容量相对较小,一组由50个数据构成的样本可能不能准确地反映300万人口的基因组成,而且任何异常的个案都可能影响最终的结果。在本研究中选取的基因位点也十分有限,这也许是PCA图结果中种群聚集较弱的原因之一。在第三部分中人群的分组分区是一个近似(不准确)的过程,也有可能造成结果的偏差。如JPT 被分入中国地区,而这与事实有出入。此外,由于我们无法找到相关近视率数据,我们不得不使用低视力因子对于表型进行评估。但是,除了近视眼外,低视力还可能由沙眼、糖尿病视网膜病变、黄斑变性和其他异常所引起。在今后的研究改进中还需收集更多的个体数据以及准确的近视眼发病率数据。 [参考文献] [1] Vitale S, Sperduto RD, Ferris FL III. Increased Prevalence of Myopia in the United States Between 1971-1972&1999-2004[J]. Arch Ophthalmol,2009,127 (12):1632-1639. [2] Fotouhi A. Familial aggregation of myopia in the Tehran eye study: estimation of the sibling&parent-offspring recurrence risk ratios[J]. Br J Ophthalmol,2007,91:1440-1444. [3] http://www.newscientist.com/article/dn6117-lifestyle-causes-myopia-not-genes.html. [4] Morgan I, Rose K. How genetic is school myopia[J]. Prog Retin Eye Res,2005,24:1-38. [5] A Catalog of Published Genome-Wide Association Studies. http://www. genome. Gov/gwastudies/ [6] 23andme. https://www.23andme.com/ [7] International Hapmap Project. http://hapmap.ncbi.nlm.nih.gov/ [8] Jolliffe I.T. Principal Component Analysis, 2nd ed. NY: Springer, 2002, XXIX, 487 p. 28. [9] World Health organization,global data on visual impairments 2010. http://www.who.int/en/ (收稿日期:2013-09-23)