基因芯片数据的聚类分析
国签匿堂生塑医堂王垂坌避!Q坚生!旦箜望鲞箜!塑!!!竺!堡生垦型!!!!坚!竺虹丛型型墅塑型L生丘塑堕d业塑尘堕呈
基因芯片数据的聚类分析
王富刚
陈先农
【摘要】基因芯片技术是后基因组时代功能基因组研究的主要工具。由于采用了高效的并行DNA
杂交技术,每次实验可以得到大量丰富的数据,因此其结果分析成为一项很有挑战性而且具有重要意义
的工作。聚类分析是基因芯片数据分析中使用广泛的一类方法。基因芯片实验得到的大量数据通过聚类分析,可以得到很多有用的信息,其成功应用已广泛涉及到生物医学研究中的各个领域。本文介绍了基
因芯片数据的聚类分析方法及其重要应用。
【关键词】基因芯片;微阵列;基因表达谱;聚类分析
中图分类号:R318;Q81
文献标识码:A文章编号:1001—1110(2004)02-0098-04
ClusteringinDNAchipdataanalysising,ChineseAcademy
WANGFu—gang,CHENXian—nong.InstituteofBiomedical
Engineer-
ofMedicalScience,PekingUnionMedicalCollege,Tianjin3DDJ92,China
isthechieftoolforfunctionalgenomicsresearch.Adoptingthehish
call
【Abstract】Microarraytechnology
el'-
ficientandparallelDNAhybridizationtechnology,we
achieveabundantdatafromeachexperiment,SOthe
dataanalysisofmicmarraysbecomesachallengeandsignificanttask.Clusteringisthemostusefulusedmethodofmicroarraydata
andwidely
analysis.Abundantusefulinformation
to
can
beobtainedthroughthemicroarray
clustering.TherearemanysuccessfulexamplesthathavebeenappliedThereviewpresentedthemethods
a
wideofresearchfieldsoflifescience.
andapplicationsofclusteringanalysisinDNAmicroarrays.
analysis
【Keywords】DNAchip;microarray;geneexpressionprofiles;clustering
大量原核和真核生物基因组全序列测序的完成,特别是人类基因组序列的获得,为生物医学研究带来挑战和机会,使基因组研究的焦点从测序转到功能基因组的研究,其任务是将生物功能与相应的基因序列对应,这对基因水平上的疾病治疗和新药开发等具有重要意义。基因芯片,或称为微阵列技术的出现,为基因组功能注解带来了光明的前景。它提供了同时检测数千种基因表达水平的方法,现在正广泛应用到生物医药的各个研究领域,成为功能基因组学研究的主要工具。其原理是通过把大量的DNA片段以可寻址的方式,高密度地固定到一小块载片上,利用核酸碱基之间的配对,用来进行样品DNA高效、并行的分析[1]。基因芯片的结果分析是其应用中很重要和关键的一步,缺乏聚类分析这样的有效方法,得到的海量数据是根本无用的“天书”。微阵列实验通过分析提取了有用信息后可以帮助确定DNA中每个基因的角色,理解基因组作为一个整体是如何产生作用的,从而使得人
们可以从整体上了解生命的某些特征。1基因芯片数据的获得
使用基因芯片可以研究基因表达的不同方面,比如在转录或翻译水平上的表达、基因产物的亚细胞定位。现在主要存在两种基因芯片,分别是由Stanford大学Brown和Botstein实验室开发出的cDNA芯片和由Affymetrix公司发展出的高密度寡核苷酸芯片…。实验时,首先进行靶标的反转录,转录过程中用不同色的红、绿荧光染料标定实验样品和参照样品,等量混合后与阵列DNA序列(探针)杂交。竞争性杂交结束后用激光扫描仪扫描芯片,得到TIFF格式的芯片图像数据文件。芯片图像的分析一般按照以下三个步骤[2]:首先是寻址,即确定图像中属于结果元素点的区域;其次是分割,将上一步形成的目标区域分割成前景和背景两块;最后对每个点抽取荧光强度值的前景和背景值,为确定和消除系统误差源还需要进行(荧光强度)数据归一化,得出阵列中每个点红绿荧光强度的比值。这个比值指示了两种核酸靶标中相应基因的相对丰度,反映了该基因在实验样本中的表达水平。使用
作者单位:300192天津,中国医学科学院中国协和医科大学生物医学工程研究所
万方数据
圉处堡堂生塑匿堂王垂坌盟!Q坚生兰旦箜!!鲞箜!塑!垫竺型型曼型!!型坚曼唑妞堕趔型墅!!堡!!垒P!:!鲤!!!!!:!!!!!:;
‘99‘
中通常对上述比值进行对数变换。通过微阵列实验,获得了基因表达矩阵,这就是所谓的基因表达谱,是进一步进行生物信息学分析的基础。
正常情况下,所得基因芯片图像结果元素点应该形状大小相同,而且同类点的前景或背景相素点强度应该没有差异;而实际情况往往不是这样理想,通常点的大小不同,形状可能成为镰刀形、环形、椭圆形、梨形,或者被刮划、打断,甚至可能被人为污染。Bozinov等[2]分析了多种基因点变体图,提出了图像增强的PAM方法。2芯片数据的聚类分析
基因芯片的数据分析就是探测相似基因表达谱的过程,以达到对基因功能的判别和分类。目前常用的芯片数据分析方法有直观视图分析、统计学分析和生物学分析。直观视图分析是最简单、直接的方法,通常用散点图(二维或三维)、直方图和饼图直观地显示芯片表达的结果。统计学分析已广泛应用于大规模基因表达的分析。统计分析可以帮助发现新的基因、DNA序列、基因的突变位点等。目前最广泛使用的一类算法就是聚类分析,是基于相似度的数据项分组方法,可用于观察结果。数据项和特征向量的分组,是一种广泛使用的实验数据分析手段,其分析过程一般包括模式特征抽取、选择,这需要定义合适的特征集;对数据域定义合适的模式近似度度量标准;聚类分组;数据提取;输出结果评估[3]o
聚类分析中最具挑战性的一个环节是特征抽取和模式表示。对于基因芯片的分析,由于已经将阵列中每个点数据化,因此这一步的困难大大减轻。
模式近似度一般由模式对间定义的距离函数来衡量。有不同定义的距离函数,一般最常用的是欧氏距离。即将m行n列的阵列看成m个n维向量(根据分析需要,反之亦然),移;,秽,(其中ij<m)之间的距离按多维空间中点对间距离定义:
曲=\/∑毛】(石谴,)2
r===———一’
另外还可用相异度衡量,通常是1减去相关系数P。
聚类分组有多种方法,一般分为等级体系聚类(hierarchicalclustering,又称系统聚类)和直接划分聚类(partitionclustering)两种。其中前者通用性好,
万
方数据使用最为广泛,它利用基于相似度的标准来合并或分割簇,产生嵌套的层次系统树图。2.1系统聚类方法
下面结合具体应用中的一个分析例子来说明系统聚类的方法,该例是应用基因表达谱来预测乳腺癌的临床结果[4]。其中采用了系统聚类法基于在大约5000个主要基因上测得的相似度对98种肿瘤进行聚类分析。基因芯片图像结果的98行代表98种乳腺肿瘤,约5000个列分别代表了一种重要基因。分别按行和列进行两次独立的聚类。按照汇聚的系统聚类分析,从n个单个的丛开始,发现和合并最接近的对,得到凡一1个丛,同时更新相异度矩阵,然后重复合并过程,直到得到一个包含所有n个丛的簇。这样就得到了层层嵌套的系统树图,而合并过程中产生的分隔边界线的长度反映了簇间相异度的大小。同汇聚方式进行的系统聚类分析相对,还可以进行分割方式的系统聚类,其过程就是汇聚方式的逆过程,即从包含整体的一个簇细分,与其他元素间最大相异度的裂片组被分出,然后在得到的所有组中最大的一组重复此过程,直到得到n个单独的丛。显然,对所举例的分析而言,采用汇聚方式更方便和直观。
系统聚类分析法也有其不足的地方。首先,对事先未知分类组数的情况(这是很常见的应用),在决定边界的域值来切割树结构,以此来决定最终分组的数目并得到各个集合的时候,容易产生任意性,很难有客观严格的标准来决定切分方案。Hori.moto等[5]提出了一种方法,在采用系统聚类分析之后,边界由基于统计的参数来自动估计,一定程度上改善了这个问题。另外的缺点是计算复杂度高。因此对大的数据集聚类时将非常耗时。2.2直接划分聚类法
直接划分聚类产生一个单一的分割而不是嵌套的树图,可以避免数据集很大时的计算复杂性。其分类是以最优化局部或者整体的标准函数为依据。根据采用最优化方法的不同又派生出多种方法,其中常见于基因芯片数据分析中的有贝叶斯聚类[6]、逐步聚类(k-means)分析、自组图分析(self-or-
ganized
map,SOMs)cL8]以及基于图论的聚类等【引。
贝叶斯聚类是基于混合分解和模式寻求算法,其思想是认为待聚类的模式符合几种分布中的一种,现在的目标就是求解分布的参数,并确定混合的分布的数目[1
01。
圄处匡堂生塑匡堂王垂坌婴!Q坚生兰旦筮兰!鲞蔓!翅墅竺鲤堑堂垦!巫!!堕竖曼哩地坚鲤垫堂坠堡竺望:叁匹!唑!!!!:望!璺!:!
逐步聚类属于平方误差算法,其边界确定方法消除了手工干扰和阈值选取的主观性,采用统计标准的最优化来确定。其作法是首先选取一定数目的簇和簇心作为模式的初始分割;然后为每一个模式选择最近的簇,加入并计算新的簇心,运行直到收敛;如果必要,根据启发式的信息合并或分割簇,重新运行上步[31。算法易于实现,对n个模式,其时间复杂度为D(n)。但其主要问题在于初始分块数目不合适的选取可能导致算法收敛于标准函数的局部极小值,使整体结果不是最优。
自组图分析是人工神经网络应用于聚类分析中的例子。它采用的是结构简单的单层竞争性神经网络。模式在输入端引入并与输出结点关联,其间的权重通过学习反复变更,直到达到终止标准。结果是相似的模式被分人同组,并为同一个单位(神经元)所代表。SOMs法有着和k-means相同的不足,在未知分块数目时其初始权重选择很可能不合适而导致产生次优解。另外收敛受到多种参数影响,结果可能不稳定。Mavroudi等【8]提出了改进的SOMs算法,称为sNet.SOM(supervised
networkself-orga—
nized
map),它通过一个动态扩展过程可以自适应地确定分组数目,同时有效地降低了计算代价。
基于图论中最小生成树方法的聚类分析,也见
于基因芯片的数据分析。其作法是利用最小生成树算法(MST)将数据建树,然后删去最大边产生聚类[91。
除了以上几种常见方法,还有进化算法聚类、模拟退火算法聚类等[11)。Smet等[121提出的独特的适应性聚类分析,能够自动探测模式高度相关区域,设定优化的半径包含一定基因来达到分组。这种方
法不需要给出分组数目,只需给出一个显著程度,就可以得到具有统计定义的若干簇的集合,而且它没有强迫每个基因都分到组里,这样可以消除一些无关基因的影响,其计算代价也不大,时间复杂度为线性。3展望
基因芯片聚类分析方法已被成功地应用于生命科学中各领域的研究,如生物体基因表达谱与其个体行为关系的研究[13]、肿瘤分类[川、用基因表达谱结果预测乳腺癌的复发性[4]、癌症在分子水平上的分类[7]等。它成功地解读了大量生物信息学的数据,成为后基因组时代功能基因研究的重要工具。由于其应
用的广泛性,出现了大量可用的聚类分析软件[15.-17】,
万
方数据更加方便了其推广和应用。
应该看到,虽然聚类分析是目前基因芯片数据分析中使用最广泛、有效的一类方法,但它主要基于统计学的理论而很少利用到生物领域的知识,这既使结果由于缺乏领域内知识的约束而可能出现不合理性,同时又失去了利用领域内知识优化算法的好处。聚类分析算法的改进应该充分考虑到这一点,充分利用基因的生物学意义,可喜的是越来越多人已经在往这方面发展了。另外,如何有效地对大数据集进行聚类分析也值得特别关注。
参考文献
l
DudoitS,YangYH,CallowMJ,eta1.Statisticalmethodsforidentify—m。gdifferenctiallyexpressed
genes
in
replicated
eDNA
rnicroarray
experiments[J].Statistica
Sinica,2002.12:ll1-139.
2Bozinov
D,RahnenfuhrerJ.Unsupervised
techniqueforrobust
target
separationand
analysis
of
DNA
microarrayspots
throushadaptive
pixe[clustering[J].Bioinformatics,2002,18:747—756.
3JainAK,MurtyMN,FlynnPJ.Dataclustering:Sreview[J].ACM
ComputingSurveys.1999,31:264—323.
4van't
Veer
LJ,DalH,van
de
VijverMJ,eta1.Gene
expressionprofil・
m’gpredictsclinicaloutcome
ofbreast
cancer[J].Nature,2002,415:
530-536.
5HorimotokTohH.Statisticalextimationofcluster
boundaries
ingene
expressionprofiledata[J].Bioinformatics,2001。17:1143-1151.
6
MedvedovicM,SivaganesanS.Bayesianinfinitemixturemodelbased
dI域eIiIlg0f萨∞既雕喇onpn】6:les[J].Bioinfonmtics,2002,18:1194—
1206.
7
Golub
TR,SlonimDK,Tamayo
P,eta1.Molecularclassification
of
cancer:.classdiscoveryandclassprediction
bygene
expression
mort・
itoring[J].Science,1999,286:531.537.
8MavroudiS,PapadimitriouS,BeserianosA.Geneexpression
data
analysis
with
a
dynamically
extendedself-organized
map
that
ex-
ploitsclass
information[J].Bioinformatics,2002,18:1446-1453.
9Xu
Ying,Olman
V.Xu
Dong.Clusteringgene
expression
data
using
a
graph-theoreticapproach:anapplication
ofminimum
spanning
trees[J].Bioinformatics。2002,18:536-545.
10
Mclachlan
GJ。BeanRW,Peel
D.A
mixturemodel・basedapproach
to
the
clustering
of
microarray
expression
data[J].Bioinformatics,2002,
18:413422.1l
Lukashin
AV.Fuchs
R.Analysisof
temporalgeneexpressionpro-
files:clusteringbysimulatedannealinganddeterminingtheoptimalnumber
ofchstem[J].Bioinformatics,2001,17:405-414.
12SmetFD,MathysJ,MarchalM,eta1.Adaptivequality—basedcluster-
ingofgeneexpression
profiles[J].Bioinfonnatics,2002.18.735—746.
13
WllitfieldCW。CzikoAM。RobinsonGE.Geneexpressionprofilesin
thebrainpredictbehaviorin
individualhoneybees[J]Science,2003,
302:296-299.
14NguyenDV,RockeDM.Tumorclassificationbypartialleastsquares
using
microarraygene
expression
data[J].Bioinfonnatics,2002,18:
39.50.
15RhodesDR,MillerJC,HaabBB.CIT:identificationofdifferentially
旦处匿堂生塑匡堂王垂坌堑!Q丝生堡旦箜婴鲞筮!塑望担翼型型墨!垂!!型!g曼竺妞坚型堡堂皇i竺!塑!垒匹!塑生塑垡墨盟蝗
expressedclusters2002,18:205-206.
16
ofgenesfrommicroarray
。10卜
data[J].Bioinformatics,
data[J].
17
XiaXu.hua,XieZheng.AMADA:analysis
of
microarray
data[J]
Bioinformatics,2001,17:569—570.
microarray
Stum
A,Alatko
JQ.Genesis:clusteranalysisof
(收稿日期:2003-08—25)
BioinformatiCS,2002,18:207-208.
激光与生物组织光热作用的研究
赵友全范世福李小霞
【摘要】激光与生物组织的光热效应是激光在医学上应用的重要方面之一。生物组织吸收激光能量后将产生光凝固、汽化和碳化等热效应,临床应用需要对光传播与热传输两个方面展开深入研究,本文讨论了光热相互作用的理论和实验方法,明确提出并分析了光热效应研究的正、逆问题及其相互关系。
【关键词】光热效应;光传播;热传输
中图分类号:R312
文献标识码:A
文章编号:1001-1110(2004)02-0101-04
Researchofthephotothermalinteractionbetweenblo.tissueand]脚qersZHAOYou-quan,eANshi-fu,LI
Xiao-xia.DepcwtmentofBiomedicalEngineeringandScientificInstrument,Ti柳inUnivers酊,Ti锄jin300072,China
【Abstract】Photothennal
Bio-tissues
call
effectis
0110
ofthemostimportant
events
inthemedicalapplicationoflasers.
becoagulated,vaporizedandcarbonizedwhentheyabsorbedtheopticalenergy,inclinicalprac-
tice,itisnecessarytostudythemechanismofopticalpropagation
andthermaldiffusion.Therefore,inthispaper,
discussed,andalsotheposi—
theoreticalandexperimentalstudiesinthefieldofphotothermalinteractioniswelltiveandinversequestionsofphotothernudeffectreseal"chdistinctly.
are
proposedclearlyandtherelationshipisanalyzed
【Keywords】photothermaleffects;lightpropagation;thermal
diffusion
医学激光被称为传统外科手术划时代的进步,它在多种医学领域中成为特殊有效的诊断和治疗的手段。激光的外科应用和安全规程大多数与组织光热效应有关[1|,热损伤程度不仅是激光参数,如功率密度、持续时间、脉冲宽度等的函数,而且取决于组织吸收、散射特性以及组织的热导率、热扩散系数等热物性参数。一旦热源确定下来,根据热传输方程和假定的各种传导、对流边界条件,就可以计算组织温度分布变化。温度的增高可以导致细胞失活、蛋白质变性,甚至汽化和切割组织。
临床医务工作者往往担心过度的热损伤,人为调低激光输出能量,或者延长手术时间,引起“钝刀切肉”现象,而且治疗效果的确定通常以组织颜色变化、烟雾、气味等感官认识为依据。因此结合医学上组织结构和光热损伤机理的知识,以工程学的技术和手段定量检测和分析激光加热情况下组织的热传输和热损伤,有利于激光医学摆脱目前的半经
作者单位:300072天津大学生物医学工程与科学仪器系
验状态,达到预期的疗效;有利于优化激光参数,控制手术过程,提高手术效率;科学定量地分析研究还有助于医用激光器件开发和激光生物学效应的研究。
1生物组织的光热效应
激光生物学效应一般是指激光作用于生物体后产生的物理、化学或生物学的反应。一般有热效应、光化学效应、压强效应、电磁场效应和生物刺激效应。激光与生物组织可能发生的几种作用中,热效应在临床中最为常用。但是,激光与生物组织的热相互作用极其复杂,它是一个包括激光物理、生物传热传质学和医学的交叉学科。
可见光和红外光区的激光对组织以热效应为主。由于温度对活细胞的影响是一个决定性参数。因此,当机体受热而温度上升时,在一定安全数值内可以促进血液循环,改善营养状况,达到热敷治疗的目的。如果超过一定温度,则会使组织凝固或汽化,使病变组织得以破坏、清除,获得激光外科手
万方数据
基因芯片数据的聚类分析
作者:作者单位:刊名:英文刊名:年,卷(期):被引用次数:
王富刚, 陈先农
300192,天津,中国医学科学院,中国协和医科大学生物医学工程研究所国外医学(生物医学工程分册)
BIOMEDICAL ENGINEERING FOREIGN MEDICAL SCIENCES2004,27(2)8次
参考文献(17条)
1. Dudoit S. Yang YH. Callow MJ Statistical methods for identifying differenctially expressed genes inreplicated cDNA microarray experiments 2002
2. Bozinov D. Rahnenfuhrer J Unsupervised technique for robust target separation and analysis of DNAmicroarray spots through adaptive pixel clustering 20023. Jain AK. Murty MN. Flynn PJ Data clustering: a review 1999
4. van't Veer LJ. Dal H. van de Vijver MJ Gene expression profiling predicts clinical outcome of breastcancer 2002
5. Horimoto K. Toh H Statistical extimation of cluster boundaries in gene expression profile data 20016. Medvedovic M. Sivaganesan S Bayesian infinite mixture model based clustering of gene expressionprofiles 2002
7. Golub TR. Slonim DK. Tamayo P Molecular classification of cancer: class discovery and classprediction by gene expression monitoring 1999
8. Mavroudi S. Papadimitriou S. Bezerianos A Gene expression data analysis with a dynamically extendedself-organized map that exploits class information 2002
9. Xu Ying. Olman V. Xu Dong Clustering gene expression data using a graph-theoretic approach:anapplication of minimum spanning trees 2002
10. Mclachlan GJ. Bean RW. Peel D A Mixture Model-based Approach to the Clustering of MicroarrayExpression Data 2002
11. Lukashin AV. Fuchs R Analysis of temporal gene expression profiles:clustering by simulatedannealing and determining the optimal number of clusters 2001
12. Smet FD. Mathys J. Marchal M Adaptive quality-based clustering of gene expression profiles 200213. Whitfield CW. Cziko AM. Robinson GE Gene expression profiles in the brain predict behavior inindividual honey bees 2003
14. Nguyen DV. Rocke DM Tumor classification by partial least squares using microarray gene expressiondata 2002
15. Rhodes DR. Miller JC. Haab BB CIT:identification of differentially expressed clusters of genes frommicroarray data 2002
16. Sturn A. Alatko JQ Genesis:cluster analysis of microarray data 200217. Xia Xu-hua. Xie Zheng AMADA:analysis of microarray data 2001
相似文献(10条)
1.期刊论文 朱小锋. 毕树生. 王浤西. 刘红星. Zhu Xiaofeng. Bi Shusheng. Wang Hongxi. Liu Hongxing 微阵列PCR基
因芯片扫描仪的研制 -军民两用技术与产品2007(4)
介绍了微阵列PCR基因芯片扫描仪的基本结构、工作原理和关键技术,给出了光学系统的参考标准构型,重点讨论了PCR反应温度控制系统的特性和特点,以及扫描仪中CCD的选用原则.实验采用cNDA为模板的反应体系进行PCR反应,通过实验前后检测样品荧光变化的强弱测定微阵列PCR基因芯片扫描仪的检测性能.实验结果初步表明,该扫描仪可用于微阵列PCR基因芯片的检测.
2.学位论文 李笑 基于神经网络的微阵列基因芯片数据分析 2006
微阵列技术的到来将对生物学和医学产生一场革命,通过它可以同时观测成千上万个基因的表达水平,从而能够在基因组水平上以系统的、全局的观念去研究生命现象及其本质。微阵列基因表达数据已经应用到肿瘤分型、肿瘤分类、基因功能研究、基因之间调控网络构建以及药物靶位识别等许多方面,对表达谱数据的分析已成为生物信息学研究的焦点。本文主要研究基于基因表达数据的数据分析方法,并针对已有的算法与模型当中所存在的问题,提出对算法的改进。
本文在介绍了微阵列数据原理的基础上,首先介绍了数据预处理和特征提取过程,之后讨论了两个紧密相关的应用领域:肿瘤分类和聚类。在肿瘤分类中,主要研究了基于BP神经网络的方法和基于支撑向量机(SupportVectorMachine,SVM)用于多类别分类的方法。实验结果表明,BP网络设计适当的情况下能够得到很好的分类结果,识别率高。而用两类支撑向量机构造多类别分类器,应用到14个类别的基因表达数据中,取得了较好的实验效果,同时与KNN方法进行比较,可以看出基于SVM构成的分类系统尤其适合于多类别的基因表达谱数据集分类。在基于SVM的方法用于多类别问题中,对比了两种构造方法OnevsAll(OVA)以及AllPairs(AP)的结果,两种结合方法中OVA方法的识别率优越于其他方法,性能稳定。分类性能均达到或超过了公开发表的实验结果。
在研究组织样本的聚类分析过程中,实现并对比了以下几种方法:层次聚类法、k均值法,同时本文采用了一种非常新颖的自组织特征映射神经网络的改进模型-DoubleSelf-OrganizingMap(DSOM)方法。实验证明DSOM网络应用到癌症基因表达谱数据分析中是很有效和可靠的,而且此方法具有可视化的优点,将高维的数据投射到二维平面上,更清楚地观测到聚类效果。聚类结果可以辅助病理学家进行进一步的有关肿瘤诊断和治疗。
3.会议论文 阴启明. 叶嘉明. 谢永元. 周勇亮 超亲疏水图案改善微阵列质量 2007
虽然以基因芯片为代表的微阵列(Microarray)技术已经在生物、检疫、制药等领域得到较广泛的应用,但其数据的不精确性仍然是阻碍应用普及以及获得卫生医药部门认可的重要障碍之一。本文提出以超疏水的基底上制作超亲水的微图案作为微阵列的基底,减轻“咖啡效应”,提高微阵列样品点的均匀性,并进行了免疫蛋白微阵列的制作及免疫反应等初步试验。
4.学位论文 骆婷婷 用户化的微阵列数据库平台研究 2006
随着近代分子生物学实验技术和计算机技术的迅猛发展,以及人类基因组草图(HGD)绘制的顺利完成,标志着现代生命科学研究已经进入了后基因组时代,研究者把关心的焦点由结构基因组学转向了功能基因组学。基因芯片(genechip,microarray)作为一种新型的高通量的检测技术方法,可以同时测量成千上万个基因的表达水平,已成为“后基因组时代”研究基因与基因间相互作用的一个强有力的工具。
如何对该技术产生的海量实验数据进行准确而合理地管理和分析已成为是否能有效应用该项技术的主要问题,并决定着当前生物信息学的重要研究内容和主要研究方向。虽然目前已有许多学术性或商业化的微阵列系统软件应运而生,但具有全面解决方案的系统却尚属罕见,并时常会出现缺少实用性、可扩展性或标准界面等情况。另外,开发一种整合系统,往往需要一个统一、先进的软件架构来加强其安装和维护。所以,为满足上述需求,本课题在生物科学、微电子学以及计算机科学等学科相互交叉的基础上,提出了一个名为MDME的微阵列数据分析软件架构,此数据库拥有较完善的研制方案,可根据特定的实验环境、样本环境为用户提供全面的检索服务。 本文研究工作如下:
1.研制了该微阵列数据库系统的整体架构,在此基础上提出了数据库存储后端、用户验证、管理及访问控制模块、数据分析及其可视化模块、数据标注模块的实现方法。
2.在数据分析及其可视化模块的实现过程中,引入了一种新的聚类算法和一个用于分析multi-variable微阵列基因表达数据的通用3-D可视化工具,有效地提高了系统的分析效率。
3.开发并研制了一个基于关系数据库中persistence层的代码产生器ODBI,详细阐述了该代码产生器的数据模式结构、各组成模块、通信协议以及ODBI设计器的实现过程。
4.对ODBI代码产生器的运行状况进行评估,达到了预期的效果,并提出改进措施。
研究结果表明,该课题为用户提供了从数据存储、分析、解析到共享等一系列全面的服务,有效地避免了微阵列数据分析过程中的某些不连贯情况,从而帮助用户能够更快、更准确地得到相应的生物学信息。另外,系统中的ODBI代码产生器也很好地解决了我们在将面向对象编程与关系数据库进行关联时,两者处理对象不一致的矛盾,使系统可以在一个较高的层次上对关系数据表进行操作,增强了系统的通用性及可维护性。通过对基于生物信息学的微阵列数据库平台的研制和开发,为基因数据的存储、分析和结果的交流提出了一种更为广泛的方法,从而对基因芯片数据分析的发展起到了重要的推动作用。
5.期刊论文 余志文. 于军. 徐静平. 周文利. YU Zhi-wen. YU Jun. XU Jing-ping. ZHOU Wen-li 基因芯片中点阵的微电子加工技术 -微电子学2001,31(2)
基因芯片是运用微电子加工技术以及基因分子的自组装技术在微小芯片上组装成千上万个不同的DNA微阵列,实现以基因为主的生命信息的大规模检测。文章利用氧化、光刻、蒸发、溅射等一系列集成电路工艺技术,研究了适于电化学检测的基因芯片微阵列的制备,提出了这种芯片中微流路的制备方案。
6.学位论文 张瑾 基因微阵列数据的双向聚类算法研究 2008
基因芯片是由大量DNA或寡核苷酸探针密集排列所形成的探针阵列。基因芯片上探针与经荧光标记的目标样品进行生物反应,利用专用芯片检测系统并借助于一定的软件即可得到基因表达数据。这个技术应用于不同发展阶段,不同人体组织,不同临床条件以及不同生物体等条件下的基因表达水平的测量。基因芯片的出现正在给生命科学研究、疾病诊断、新药开发、食品卫生监督等领域带来二场革命。 本文的贡献主要体现在以下几个方面:
首先,对基因数据分析中的一种双向聚类方法—格子模型法进行了深入的分析,并对其进行了改进。格子模型是一个混合有二进制变量和连续变量的模型。对于该模型,传统的用于连续变量的优化算法不再适用。为此,本文提出了一种新颖的神经网络方法来解决这种混合有二进制变量和连续变量的优化问题,并将该方法应用于酵母数据分析,实验结果表明使用这种方法后双聚类的精度得到了很大的提高。
其次,本文还对基因数据分析的另一种方法非负矩阵分解方法进行了改进。传统的非负矩阵分解算法有一定缺陷,其初始值是随机设定的,因此在迭代过程中会出现微小的抖动。为此本文在迭代计算过程中加入了数据平滑处理,并将该方法用于一组白血病微阵列数据分析。实验结果表明,改进过的非负矩阵分解算法提高了分类的准确率,同时这个方法避免了NMF算法的“零值”问题。
第三,本文介绍了NNMF算法的基本原理,对其加入了一个平滑处理,增加了数据元素之间的联系,同时这个方法由于抬高了数据,避免了NMF算法中的“零值”问题。本文首次将NNMF算法应用于生物信息学中,用白血病微阵列数据进行了实验。实验结果表明,该方法提高了分类的准确率及算法的收敛速度。
7.期刊论文 曹玉. 韩锐 基因芯片在抗肿瘤药物研究中的应用 -中华肿瘤杂志2003,25(5)
基因芯片,又称DNA微阵列,是指采用原位合成或直接点样的方法,将DNA片段或寡核苷酸片段排列在硅片、玻璃等载体上形成微矩阵,待测样品用荧光分子标记后,与芯片上的DNA或寡核苷酸片段杂交,通过荧光扫描及计算机分析后获得大量的基因信息,其突出特点在于能够对微量样本中的核酸序列信息进行快速、高通量的检测和分析.
8.期刊论文 高利宏. 曹佳 基因芯片可靠性分析及数据处理 -第三军医大学学报2006,28(1)
基因芯片(gene chip)又称为DNA微阵列(DNA microarray),其基本原理是将众多的靶基因序列或寡聚核苷酸片段有序而高密度地排列在玻璃、硅、尼
龙膜等固相载体上,用待检测的标记样本分子与之杂交,并利用激光共聚焦显微扫描等技术对芯片上成千上万的杂交信号进行实时、灵敏而准确的检测,辅以计算机统计分析从而得到样本的基因表达信息.
9.学位论文 马煜 微阵列数据的聚类算法研究 2006
随着人类基因组计划的进展,对于基因的功能和基因组内各基因的研究逐步深入。研究基因在不同时间和条件下的表达情况,是认识基因功能的一个主要途径。cDNA微阵列技术可以同时测量全基因组的表达情况,是生物学家认识基因的重要工具。微阵列技术产生了大量基因表达数据,要从中提取有价值的信息,采用数据挖掘的技术是十分必要的。
功能相近的基因其表达模式相似,通过发现相似的表达模式可以预测未知基因的功能。数据挖掘中的聚类算法是按照数据的相似性进行划分,实现物以类聚的思想。采用聚类技术对基因表达数据进行处理,可以把表现模式相近的基因聚集到一起,这种划分有助于专业人员发现基因功能和遗传模式。
目前基因芯片邻域中的大多数聚类算法在实际应用中存在着一些不足之处,例如K-均值和自组织映射都需要预先输入簇的个数,而在对基因表达谱进行聚类时,簇的个数通常是未知的,改变这一参数往往会极大地影响聚类结果;传统的聚类算法对噪声数据非常敏感,对规模的可伸缩性差;传统聚类算法最早是起源自非生物相关的研究邻域,所以通常的聚类结果并不包含明确的生物学意义。本文针对以上不足,将K最近邻先吸收思想和已知基因的生物学知识引入了基于密度的聚类算法中,设计并实现了一种新的基于密度的K最近邻先吸收的聚类算法,在聚类过程中利用已知基因的生物学意义生成最初的簇集。最后将所提出的算法应用于酵母细胞有丝分裂下的基因芯片数据,对聚类的结果从簇结构的合理性和生物学上的意义两方面给出了明确的比较,从对比结果知本文所提出的算法无论从簇结构的合理性还是生物学意义上都明显高于K-均值聚类算法。
10.期刊论文 刘德勇. 李晓杰. 李金花. 谢海龙. LIU De-yong. LI Xiao-jie. LI Jin-hua. XIE Hai-long 应用cDNA微阵列基因芯片筛选胃低分化腺癌相关基因的研究 -中国癌症杂志2007,17(8)
背景与目的:胃低分化腺癌癌变的分子机制至今不清楚,关键是未找到与胃低分化腺癌密切相关的基因.本研究拟建立胃低分化腺癌基因表达谱,筛选差异表达基因,进一步分析差异表达基因与胃癌发生、发展关系.方法:用含10 000个已知基因的cDNA微阵列分析胃低分化腺癌和癌旁正常胃黏膜基因表达谱的变化,免疫组化研究差异表达基因与胃癌的关系.结果:二倍以上的差异表达基因212个,其中在胃低分化腺中表达上调169个,表达下调43个.S-P免疫组化结果显示:EMS1蛋白表达定位于胞质,呈黄色至棕黄色;EMS1蛋白在20例正常胃黏膜阳性表达率为20%(4/20),在146 例胃癌中阳性表达率为89.72%(131/146);EMS1蛋白在胃癌中的表达高于正常胃黏膜(P<0.001).结论:发现EMS1与胃癌有关,为进一步寻找胃癌相关基因提供了重要的研究线索.
引证文献(8条)
1. 曹晖. 席斌. 米红 一种新聚类算法在基因表达数据分析中的应用[期刊论文]-计算机工程与应用 2007(18)2. 方梅. 胡波. 侯媛媛. 肖丹 毛细管电泳在基因研究中的应用[期刊论文]-生物技术通报 2006(2)
3. 姜明宇. 马文丽. 郑文岭 基于遗传算法的基因表达数据的K-均值聚类分析[期刊论文]-上海生物医学工程 2006(3)4. 朱婵. 许龙飞 聚类算法在基因表达数据分析中的应用研究[期刊论文]-计算机工程与应用 2006(15)5. 涂晓芝. 颜学峰. 钱锋 基于SOM网络的基因表达数据聚类分析[期刊论文]-华东理工大学学报(自然科学版)2006(8)
6. 朱婵. 许龙飞 聚类算法在基因表达数据分析中的应用[期刊论文]-华侨大学学报(自然科学版) 2005(1)7. 曾立 小鼠短期饥饿模型的基因芯片研究及人类新基因的克隆与功能研究[学位论文]博士 2005
8. 王兴 糖肾平胶囊对STZ和高脂肪饲料诱导的实验性Ⅱ型糖尿病C57BL/6J小鼠相关组织基因表达的影响[学位论文]博士后 2004
本文链接:http://d.g.wanfangdata.com.cn/Periodical_gwyx-swyxgc200402009.aspx授权使用:西安交通大学(xajtdx),授权号:a1894104-ce32-4695-81b1-9e9900c1d047
下载时间:2011年3月1日