大数据引领的时代
大数据引领的时代
随着社会进步,网络发展,互联网已经成了我们生活中必不可少的一环,而如今在不断使用互联网的过程中,又诞生了新的东西,那就是大数据,如今的人们每天不断的使用网络,创造着大量的信息,有数据表明自网络诞生以来,人们创造的数据量已经超越了人类历史上创造的数据量,而这些数据正反应这人们过去未来、衣食住行方方面面,如果可以加以利用必定可以成为探索未来,直销过去的一大助力,能够为我的生活带来更大的改善,然而随着大数据的日渐成型,一些引人担忧的事情也渐渐发生,比如个人隐私的泄露等另人不安的因素渐渐萌芽,大数据是什么,大数据有些什么用,大数据有些什么弊端,怎样管理大数据趋利避害,这些就是接下来要讨论的问题。
那么大数据是什么呢,大数据的意思就是数据要在线,这样你的数据才能有价值,用于分析或者处理。大量的数据在线后的分析才有意义。可能得到你想要的数据,电影里好多这种素材,比如人脸的搜索,人员的定位,人流的分析,运行的状态等等都有使用。现在做这些应用的也很多,只是落地的还稍微少一点。还是为了创造价值。根据资料显示对于“大数据”(Big data )研究机构Gartner 给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。简单地说就是数量巨大的,类型多样,流量巨大,价值密度低的数据,这些数据可以用于各个行业发预测和总结。而大数据总是和云技术在一起使用的,毕竟单个的存储介质是在太有限,而数据的发送与接受也需要极快的速度,能满足能时时传输数据又能扩大数据的存储量的也就非云技术莫属了,从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。随着云时代的来临,大数据(Big data )也吸引了越来越多的关注。《著云台》的分析师团队认为,大数据(Big data )通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要MapReduce 一样的框架来向数十、数百或甚至数千的电脑分配工作。大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP )数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
那么大数据又有些什么样的用处和意义呢,现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。阿里巴巴创办人马云来台演讲中就提到,未来的时代将不是IT 时代,而是DT 的时代,DT 就是Data Technology数据科技,显示大数据对于阿里巴巴集团来说举足轻重,实施上淘宝确实用到了大数据技术,比如它会利用以前用户浏览过的店面,商品自动推选出用户最可能会买的宝贝,这会大大的提高用户的购买率和减少用户搜索商品的所用的时间,即为用户节约了时间,也让自己的成交额大幅度上升,使淘宝更加的人性化,有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有
用”。价值含量、挖掘成本比数量更为重要。对于很多行业而言,如何利用这些大规模数据是成为赢得竞争的关键。我们还可以看看别的应用案例,比如说对于体育爱好者,追踪电视播放的最新运动赛事几乎是一件不可能的事情,因为有超过上百个赛事在8000多个电视频道播出。而现在市面上开发了一个可追踪所有运动赛事的应用程序RUWT ,它已经可以在iOS 和Android 设备,以及在Web 浏览器上使用,它不断地分析运动数据流来让球迷知道他们应该转换成哪个台看到想看的节目,在电视的哪个频道上找到,并让他们在比赛中进行投票。对于谷歌电视和TiVo 用户来说,实际上 RUWT就是让他们改变频道调到一个比赛中。该程序能基于赛事的紧张激烈程度对比赛进行评分排名,用户可通过该应用程序找到值得收看的频道和赛事。这样的例子几乎是说不胜数,而且大数据的应用每天都在不断的上演,我们的社会对大数据的应用是大势所趋。
任何一件事都有正反两面性,如果大数据有这么多的好处,那么大数据的弊处又在哪里呢,首先就是大数据对用户的隐私难以兼顾,不可否认的是,一直被宣扬的大数据时代似乎真的到来了。在众星捧月的光环下,“大数据”如同一个香饽饽,人人都想分一杯羹。那么,大数据真如我们想象的那么美好?在信息时代的今天,对浩瀚繁杂的数据进行整理判断是有必要的,数据中也确实存在大量的宝藏。但是,这就好比在垃圾场拾宝贝一样,垃圾永远都比宝贝多。很多时候,我们无法判断数据的真实有效性,这对最终的判断是一种莫大的伤害。当数据来源不当时,这又是对用户隐私的一种伤害。企业需要在利用数据盈利的同时注意不窥探用户隐私,很多时候,很难掌握那样一个平衡点。在生活中,“脏数据”无处不在,举一个例子,网络水军的存在就极大影响了互联网信息的真实。一款产品,他的价值和品质是成型的,就摆放在那里,但是对它的评价却可以千差万别。按照统计学原理来讲,评论的基数越大,最终得到的结果就越接近于真实,但是它的前提必须是用户真实客观的反馈。但是在网络水军存在的情况下,这个条件是不被允许的。比如,一部低品质的电影被推上市场,因为营销手段的成功,上座率也很高,在电影网站的评分也很高。但是这并不是真实的数据,大量的水军淹没了信息的真实性。如果对数据不加分析评判而直接使用,无论计算精度多么高,结果都是无意义的,因为数据本身就存在问题。类似的例子还有,淘宝卖家刷钻,微博僵尸粉丝,贴吧论坛营销贴等等。脏数据在网络中无处不在,在大数据还不成气候的今天,其实还没有十分有效的方法对“脏数据”加以鉴别。
那么如何防止大数据的弊处影响我们的生活呢?随着大数据相关应用的日益普及和深入,更多的云,更多的各类应用程序,更多的数据采集硬件,隐私收集,不知不觉已随时随地侵入人们的工作和生活,人们实际上已经处于几近赤裸的状态。在信息的使用环节,不可否认,大数据本身是柄双刃剑,无论我们如何不愿意自己的隐私被感知,被统计,我们还是受不了他所带来的无论是商业价值和社会价值等方面的诱惑。信息完全不被采集,这基本无可能,一个人从出生、上幼儿园、上学、买手机、就业、结婚、开公司、体检、买车、网上购物,在所有的这些过程中,我们的数据在各个环节就已经被收集。以网上购物为例,在一家电商购物,从账号登录开始,到浏览页面,到购买完成支付,每一个细节都已经被记录。至于是否很在意这些过程中信息被采集呢? 其实大部分人已经习惯。如果说多数人有介意的地方的话,那就是当我们知道对方收集了不该收集的信息的时候。其实我们在意的不是隐私被使用,而是隐私信息被滥用。比如亚马逊通过对客户的相关轨迹数据进行分析挖掘,提供个性化推荐的服务。在看到亚马逊的推送的时候,第一感觉是这个网站比较贴心,给我的推送比较接近我的需求。我们知道我们的数据被使用了,但样的使用方式是被认可的,因为他为我提供了更好的服务,而且这种服务是合理且适度的,并没有把数据泄露或用在其他
不该用的地方。其次,我们不太在意这样的使用是因为被采集或被使用的不是我们一个人的信息,是所有人的信息,他不是针对我的,且个体的关键真实信息是被隐藏的。
大数据的时代是必定会来临的,而我们的生活和大数据会越来越紧密,我们得到一些东西的时候就会失去一些东西,不管你是否愿意,我们生活都会因为大数据而越来越便捷,越来越现代化,而我们也会因此失去一些隐私,但是只要这些事情不会涉及我们的底线,我认为,在面对大数据上,是可以积极面对并且好好使用它的,所以利剑虽是双刃,但它是灭世之刃还是救世之刃终究是社会决定的。