集识别差异甲基化和拷贝数变异于一体的R包--ChAMP

11-10

摘要：ChAMP是一个功能异常强大的R包，包括了从甲基化芯片原始数据预处理、标准化到差异的识别等全面的功能。本文以450K数据为实例进行全方面的演示，非常详细的展示了每一步数据处理的过程及结果。

简介：ChAMP是一个针对HumanMethylation450 BeadChip和EPIC甲基化数据的R包，可以实现数据预处理、质量控制、数据标准化、校正批次效应、识别差异甲基化位点/差异甲基化区域、识别拷贝数变异区域等功能。值得注意的是使用相同的450K数据做差异甲基化分析和拷贝数变异分析可以在很大程度上降低不同平台数据对分析结果的影响。ChAMP包适用于各个平台，需要的R版本为R-3.2及以上，一般200个样本运行程序时需要8G内存。本文以450K数据为例介绍ChAMP的基本用法。

安装

>source('http://bioconductor.org/biocLite.R')

>biocLite(c('minfi','DNAcopy','impute','marray',

'limma','preprocessCore','RPMM','sva',

'IlluminaHumanMethylation450kmanifest',

'wateRmelon','isva','quadprog',

'bumphunter','doParallel','qvalue',

'RefFreeEWAS','GenomicRanges',

'plyr','ChAMP'))

>Library(ChAMP)

使用

1、数据准备

（1）level1阶段的450数据，格式为.idat

（2）样本说明文件，格式为.csv。文件中必须包括样本名、样本类别（用于识别差异甲基化和拷贝数变异）、Sentrix_ID和Sentrix_Position，其余为可选。文件格式如下图所示，[Header]为文件说明（可以删除），[Data]为数据部分。

*注：样本文件和说明文件必须在同一个目录下。

2、载入数据，数据预处理

>myLoad=champ.load(directory='/input/dir',

resultsDir='/output/dir/',methValue = 'B',

filterXY = TRUE, QCimages = TRUE,

filterDetP = TRUE,detPcut = 0.01,

filterBeads=TRUE,beadCutoff=0.05,

filterNoCG=FALSE,filterSNPs=TRUE,

filterMultiHit=TRUE,arraytype='450K'))

#参数含义：

# methValue：选择输出beta值或M值

# filterXY：是否过滤X和Y染色体

# QCimages：是否保留质控图片

# filterDetP：是否对detection P value进行筛选，dePcut指定P value阈值

# filterBeads：根据beadCutoff确定是否去除在至少n%的样本中beadcount

# filterNoCG：是否过滤非CG位点

# filterSNPs：是否过滤SNP

# filterMultiHit:是否过滤匹配到多个位置上的探针

# arraytype：选择输入文件类型，可选项为450K或EPIC

常用筛选条件：

（1）去除在一个或多个样本中P>0.01的探针

（2）去除在至少5%的样本中，beadcount

（3）去除包含SNP的探针

（4）去除映射到多个位置上的探针

（5）去除X、Y染色体上的探针

*注：当样本量较大时，载入数据较慢，在执行完champ.load函数后可以将其保存，方便下次直接使用。

>save(myLoad,file='/output/dir/currentStudyloadedData.RData')

>load('currentStudyloadedData.RData')

#输出结果：

（1）failedSample.txt文件（如下图）中给出每个样本中不符合条件的探针比例，如果比例超过5%，则考虑删除该样本，重新执行champ.load()函数。

（2）raw_densityPlot.pdf文件展示不同组别样本未标准化的beta值的密度分布。

（3）raw_mdsPlot.pdf展示利用前1000个样本间差异最大的位点绘制的multidimensionalscaling图，可以反映样本的相似性。

（4）raw_SampleCluster.jpg样本的层次聚类图（当样本数多于65个时不展示聚类图）

3、数据标准化，校正type-2 bias

ChAMP包中数据标准化的可选方法包括BMIQ(Teschendorff,2013), SWAN (Maksimovic, 2012), PBC (Dedeurwaerder, 2011)或NONE（不进行校正），默认使用BMIQ

>myNorm=champ.norm(resultsDir = '/output/dir')

#输出结果：

（1）标准化的beta值密度分布图

（2）标准化后的multidimensionalscaling图

（3）标准化后的样本层次聚类图

4、用奇异值分解（SVD）方法识别变异组分（包括生物学因素或者技术变异）

SVD不对数据做任何处理，只是给出各变异组分的显著性，输出结果是一个热图，颜色越深表示p值越小，即技术因素造成的变异较大，如果经SVD分析发现技术因素造成的变异较大，则应使用Combat等方法校正批次效应。

>champ.SVD(resultsDir = '/output/dir')

#输出结果：

SVDsummary.pdf

5、校正批次效应

当SVD分析显示技术因素造成的变异较大时，需要根据样本信息中SentrixID进行校正,校正之后再使用champ.SVD()函数检测变异组分，确定校正效果。

>batchNorm=champ.runCombat()

>champ.SVD(resultsDir = '/output/dir',beta= batchNorm$beta)

6、识别甲基化可变位点（Methylation Variable Positions，MVPs）

根据样本信息中的Sample_Group筛选组间差异甲基化位点，如果文件中有多个组，则默认筛选前两个组间的差异甲基化位点。

>limma=champ.MVP(resultsDir = '/output/dir',beta.norm = myNorm$beta)

*注：如果没有用champ.runCombat()校正，则beta.norm = batchNorm$beta，或者不指定该参数，程序会自动选择最后一次出现的标准化的甲基化数据。

#输出结果：

（1）MVP_ALL_CvsT_BHadjust.txt，全部位点的结果，包括原始P值、校正后的P值、map到的gene、位点在基因上的位置、位点相对于island的位置等信息（如下图）。

（2）MVP_0.05_CvsT_BHadjust_3882.bed，校正P值后组件显著差异的位点结果，包括位点名、染色体和染色体上的位置（如下图）。

7、识别差异甲基化区域（DMRs）

方法1：Bumphunter，不依赖于之前的输出结果

>bump=champ.DMR(method='Bumphunter',arraytype='450K')

#输出结果：

（1）Bumphunter方法识别出的差异甲基化位点

（2）Bumphunter方法识别出的差异甲基化区域

方法2：ProbeLasso，依赖于上一步输出的差异甲基化位点结果limma

>lasso=champ.DMR(resultsFile=limma,method='ProbeLasso',arraytype='450K')

#输出结果：

（1）ProbeLasso方法识别到的差异甲基化探针

（2）ProbeLasso方法识别到的差异甲基化区域

8、基于环状二元分割方法识别拷贝数变异区域

>CNA=champ.CNA(resultsDir = '/output/dir',controlGroup='C')

*注：参数中controlGroup的值应该与样本文件Sample_Group一致，否则会报错，默认情况下是“Control”。

#输出结果：

（1）实验组（T）中各染色体上拷贝数扩增和拷贝数缺失的样本比例

（2）实验组每个样本（T1/T2/T3/T4）中拷贝数扩增、拷贝数缺失在各染色体上的分布情况

（3）实验组（T）各样本的拷贝数扩增、缺失详细结果，下图中每一列分别表示区域ID、染色体、区域起始位置、区域终止位置、区域中包含的CG位点个数及该区域上拷贝数变异的度量值seg.mean，一般认为seg.mean≥0.3为拷贝数扩增，seg.mean≤-0.3为拷贝数缺失（有的研究中也以0.2为阈值）。

*注：以上流程可以用一个函数实现，但是由于程序运行过程可能出现一些错误，另外不利于具体参数的设置，所以建议分部执行。

>champ.process(directory ='/input/dir')

9、获得基因的拷贝数变异谱

由于ChAMP包得到的每个实验组样本单独的拷贝数区域结果，为了方便后续分析，可以使用CNTools和cghMCR将ChAMP识别到的拷贝数变异区域合并，比对到参考基因，以获得所有基因的拷贝数变异谱，执行此过程前，需要先把多个独立的拷贝数变异结果文件合并成一个文件，本文中合并后的文件名为segAll.txt。此外，该过程还需要一个参考基因文件，格式如下图：每一列分别表示染色体、起始位置、终止位置、Entrez ID和gene symbol（列的顺序不能更改）。

>library(CNTools)

>library(cghMCR)

>sampleData

>refseq

>set.seed(1234)

>sample.names

>number.of.samples

>convertedData

>rdseg

>cn.profile

>write.table(cn.profile,'can_profile.txt',row.names=F,col.names=T,quote=F)

#结果文件

每一行表示一个基因，每一列表示一个样本，数值为每个基因在各个样本上的seg.mean。

参考文献：

Morris TJ, Butcher L, Feber A, Teschendor A, Yuan Tian, Chakravarthy A, Beck S.The ChAMP Package.April 18, 2016.

Tiffany J. Morris1, Lee M.Butcher, Andrew Feber, Andrew E, et al.ChAMP: 450k Chip Analysis Methylation Pipeline.Dec 12, 2013.

与《集识别差异甲基化和拷贝数变异于一体的R包--ChAMP》相关的范文

03-16 现代科技文阅读五

·现代科技文阅读五　　迄今为止，机器人已由初期的可编程再现型机器人、有自适应能力的离线编程机器人，发展到今天的智能机器人。智能机器人是一种能够部分模拟人脑活动，具有较强的自适应能力，能有效地适应环境变化，并具有自学习、自治和容错、纠错功能的机器人。从一定意义上说，智能机器人确实能取代人类进行部分脑力和体力活动。随着整个现代科学技术进步，机器人技术将迅速发展，智能机器人模拟人类大脑活动的能力也将越 ...

03-03 高中生物学业水平考试备考总结

高中生物学业水平考试备考总结一、教学与备考策略（一）教学策略 1、深入钻研课标，根据学情进行科学定位借鉴20XX年水平测试试题，细心推敲对考试内容四个不同层次的要求，根据我校学生的实际学习情况、学习水平和学习能力，逐步体会并认同如下策略：重视教材，狠抓基础；立足中低档，降低重心；做法上采用：快步走，多回头；重点内容，多渗透；重要方法，多强调。并以此为依据制定了严密的教学和备考计划，同时心中要 ...

06-18 高一年级下学期生物教学计划

　本学年我们承担着高中一年级九个班的生物学教育教学工作，依旧生物教学大纲要求，结合教材内容和学校，学生实际，为顺利完成学校下达的会考目标，把学生培养成为“四有”新人，特制定此计划。一. 主要措施和方法 1. 教师深入钻研大纲，教材，认真备课，熟悉教材章节重点，难点及考点，化难为易突出重点，突破难点；精讲精练，学生作业在课堂上完成。 2. 广泛收集高考，会考等复习资料，考试题，进行筛选，分析，总结 ...

05-24 2014届高三生物复习计划

20xx届高三生物复习计划官一中王媛一、指导思想：以教材、新课程标准、考试大纲和考试说明为依据，以加强双基教学为主线，以提高学生能力为重点，全面提高学生的综合素质和应试技巧。通过高三生物总复习，处理好高中生物教材，揭示单点知识，知识结构，知识结构扩展三个层次的知识内涵及内在的逻辑联系，形成立体知识结构。把基础知识教学与能力发展触为一体，从而提高分析问题和解决问题的能力。二、复习目标: 通 ...

10-04 实习报告(植被)

植被实习一、植物地理野外实习常用仪器、用具的准备野外工作中所需要的各种设备，应事先周密的准备和仔细检查。可根据不同地区，不同的工作，以及时间的长短，人数的多少，来确定设备的各种类型和数量。常用采集用具与其他仪器： 1、采集包：用帆布或人造革制成的双肩背包，用来装载采集土种的小型标本和各种小型采集用具 2、采集桶：用帆布做成的圆筒或用小的塑料桶。用以滨海实习采集海藻标本或各种水生植物 3、采集 ...

12-18 典型病句分析

·典型病句分析　　识别和修改病句是一个让人头疼的事，我们可抓住一些典型病句进行分析，从而提高辨识和修改病句的能力，取得事半功倍的效果。 1.“对于”句 A.对于这个问题来说，我认为应交给党委讨论。 B.对于你来说，应当马上休息。　　“对于”是介词，动词带的宾语有些可以用“对于”提到前面，表示怎样对待它。这种介词结构可以用在动词前面，也歌词用在句子前头。如：“对于这些建议，校长非常重视。”但“对 ...

09-10 语文骨干教师培训学习日记

语文骨干教师培训学习日记主题：《探求语文文本的有效解读》主讲人：xxx 闽派语文的代表人物，扎根于教学一线50多年的特级教师，我国《教师法》的领衔提案人，第六、七、八、九届全国人大代表报告内容根据讲话整理如下：前言：此次培训规格很高：全国+国家重点+骨干+教育部主导有人认为中职文化课是后娘生的，我们现在要做的事情，不是要把她变成亲娘生的，二是要把它变成亲娘。一、要面对的问题对语文的 ...

12-05 生物学教育教学工作总结

生物学教育教学工作总结本学期来，生物教育教学工作始终本着“以人为本”的教育教学理念，为适应新时期教学工作的要求，认真学习新课程理念，认真备课、上课、听课、评课，及时批改作业、讲评作业，严格要求学生，尊重学生，发扬教学民主，使学生学有所得，不断提高，从而不断提高自己的教学水平和思想觉悟，较好地完成了教育教学工作任务。在近几年教学实践中，根据初中学生的心理特点，在生物学教学中倡导“自主、合作、探究 ...

06-20 2013年-2014年学年度第二学期六年级科学教学工作计划光明

20xx-20xx学年度第二学期六年级科学教学工作计划一、基本情况分析：这一学期我担任六年级的科学课。从上几学期的学习情况来看，这一届学生比较活泼，生性好动，好奇心强。学生对科学活动十分地感兴趣，并能以自己的方式观察到许多细节的地方，研究气氛浓厚。但由于一部分学生对科学课的研究方式不适应，不知道如何最有效的观察、探究、描述、总结、不会实际应用或联系实际。通过三学年的科学学习，学生对科学学习有了 ...

12-15 商场存货管理制度

　　商场存货管理包括仓库管理和盘点作业两种。　　一、仓库管理作业　　仓库管理是指商品储存空间的管理。仓库管理作业应注意的问题有：　　1．库存商品要进行定位管理，其含义与商品配置图表的设计相似，即将不同的商品分类、分区管理的原则来存放，并用货架放置。仓库内至少要分为三个区域：第一，大量存储区，即以整箱或栈板方式储存；第二，小量存储区，即将拆零商品放置在陈列架上；第三，退货区，即将准备退换的商品 ...

随机推荐

猜你喜欢

集识别差异甲基化和拷贝数变异于一体的R包--ChAMP

·基层教育须走资源整合的路子

·2013年林业站年终工作总结

·浙江富春江江南龙门湾(鸬鹚湾)导游词

·使命-责任-担当

·35KV的放电距离是多少?

·拌和站.预制厂建设要求

·专题会议纪要

·压力_差压变送器常见故障分析及对策

·社会主义时期处理民族问题的基本原则

·孩子的自律性要高

·单位定点扶贫工作总结

·炒股高手的个人总结

·产业孵化基地入住协议

·煤矿十一月经营管理工作总结和年底工作安排

·关于加强反腐倡廉建设

·伤感唯美的一段话

·高二英语2010国庆假期作业参考答案doc

·可再生能源之核能

·李商隐诗集[十九]

·在加拿大感受对法律的敬畏