[云平台实践]任务书
《云平台实践》实验任务书
一、 课程安排
使学生通过48学时的课程实践过程,了解云计算虚拟化概念,大数据存储和处理以及几种主要的云计算应用平台——Google 的云计算平台和Amazon 的AWS 。
本课程学习结束后,学生应能自行用vmware workstation和KVM 配置安装虚拟机,能进行Hadoop HDFS分布式文件系统的安装、配置和管理,利用MapReduce 思想进行海量数据的处理。学会使用云计算的仿真工具CloudSim ,在中CloudSim 模拟器中创建数据中心,主机,虚拟机,任务等。应用调度算法进行虚拟机分配等。
注:本实验任务书包含三部分内容(虚拟化部分,大数据部分,云计算模拟部分),每部分16学时。共48学时内容, 32学时课程可选做其中两部分内容。
二、基本要求 虚拟化部分:
(1)掌握利用vmware workstation安装虚拟机;
(2)掌握虚拟机实现上网的三种模式:桥接模式,host-only 模式,NA T 模式; (3)为虚拟机配置双网卡不同网段的IP 地址
(4)掌握用KVM 建立虚拟磁盘并在虚拟磁盘上安装虚拟机。
大数据部分
(1) 掌握Hadoop HDFS的伪分布模式和完全分布模式的安装、配置与管理 (2) 掌握Hadoop 提交作业以及查询作业运行情况 (3) 理解Map-Reduce 原理,能书写Map-Reduce 程序
(4) 理解HDFS 原理,能熟练地对HDFS 中的文件进行管理 (5) 掌握Hbase 的安装和配置
(6) 掌握Hbase 的原理并能进行简单的shell 操作
云计算模拟部分
(1)掌握云计算的基本概念和相关技术
(2)掌握主要的云计算应用平台,如Google 的云计算平台和Amazon 的AWS 等 (3)掌握云计算平台的通用体系结构,以及其中的技术原理
(4)掌握云计算的仿真工具CloudSim 的架构,原理以及安装配置。 (5)在仿真工具CloudSim 上设计调度算法,并评估模拟结果。
三、任务要求及学时
1.安排:
四、成绩评定:
1、实习表现(纪律及考勤情况) 20分 2、现场评测 50分 3、实习报告 30分
五、报告格式:电子文档
目录
1、题目。 2、背景知识 3、详细设计过程 4、模拟测试结果 5、心得体会。
六、提交方式
提交报告电子文档与系统运行录像。系统运行录像应包含设计结果预览及由设计部分生成运行部分的过程,系统运行演示,整个录像时间5-10分钟。可使用Snagit 、屏幕录像专家、Adobe Captivate等屏幕录像软件进行录制,如果添加音频解说可加分。
七、参考实验内容
虚拟化部分:
(1)http://www.ibm.com/developerworks/cn/linux/l-linux-kvm/inde
(2) (3)http://www.linux-kvm.org/page/Main_Page (4)http://www.vmware.com/products/workstation/ 大数据部分:
(1)
(2)《实战Hadoop --开启通向云计算的捷径》 刘鹏 主编 电子工业出版社
(3)Hadoop 权威指南(中文版) Tom White 著 曾大耳冉 周傲英 译 清华大学出版社
(4)Hadoop 实战 Chuck Lam 著 韩冀中 译 人民邮电出版社
CloundSim 参考题目:
(1)CloundSim 实例化主机的实验
做了实例化主机的实验对云计算环境进行测试,评估CloundSim 效率。首先设置一个单一的数据中心,一个数据中心代理和一个用户。每次实验,数据中心的主机数量从100到100000个,来测试云模拟基础设施的运算能力(不考虑用户的工作量)。这里主要测试完全实例化并加载CloudSim 环境时实验计算机的物理内存的使用总量。 (2)CloundSim 模拟Min-Min 作业调度
作业调度是通过有效的手段合理的调度作业,充分利用网络资源,提高资源利用率。作业调度问题是云计算研究中的关键问题之一。它的实质就是一个由m 个需要调度的任务,n 个可用的任务执行单元(主机或集群) ,k 个数据存储单元构成云计算环境,把m 个任务T ={t 1, t 2,. …, t m }以合理的方式调度到n 个主机H ={h 1, h 2, …, h n }上去,目的是得到尽可能小的
总执行时间。m 个任务在n 个不同机器上的预测执行时间ETC (Expected Time to Compute)是一个m ×n 的矩阵。矩阵中的每一行代表某一个任务在n 台机器上的不同执行时间,每一列代表在同一台机器上m 个任务的不同执行时间。
在云计算环境下的作业调度算法中,Min-Min 算法是目前调度算法的研究中最多的一种算法,它的算法步骤为:
(1)判断任务集合M 是否为空,不为空,执行(2);否则跳到步骤(7)。
(2)对于任务集中的所有任务,求出它们映射到所有可用机器上的最早完成时间c ij 。 (3)根据(2)的结果,找出最早完成时间最小的那个任务m i 和所对应的机器h j 。 (4)将任务m i 映射到机器h j 上;并将该任务从任务集合中删除。 (5)更新机器h j 的期望就绪时间r j 。
(6)更新其它任务在机器h j 上的最早完成时间;回到(1)。 (7)此次映射事件结束,退出程序。
设置一台主机,产生一个数据中心和数据中心代理,Min-Min 算法在任务数分别为100,300,500的情况下,并随着虚拟机数量的增加,任务的平均调度长度MakeSpan 的统计数据
[12]
计算机专业实验中心
2014年5月