大数据分析在大学生就业中的应用
2013年第28期(总第624期)
WENJIAOZILIAO
大数据分析在大学生就业中的应用
刘菊香
(江苏城市职业学院,江苏南京
摘
210017)
要:本文通过大数据分析的预测性应用原理分析,提出了其在大学生就业中的分析应用原则,建设大学生就业大数
大数据
云计算
海量数据
人工智能算法
再追求因果关系,而是承认混杂性,探索相关关系。
在大学生就业中的应用,即:通过让与就业有关的大数据“说话”,发现未来就业的趋势及如何利用,而其中的因果关系可以留待后期研究。
据分析系统的形式,以及大数据在应用分析中的注意事项。
关键词:大学生就业
1. 背景
长久以来,我国大学生就业问题一直是一个难以解决的复杂问题;大部分专业在毕业以后3年至5年还从事本专业的人数不足总数的一半;毕业方向选择的不确定性,不但给毕业生个人带来了极大烦恼,而且给教育机构带来了学科调整上的不确定性;自90年代计算机应用在我国的兴起,人们试图通过建立某种数据模型解释就业有关的因果关系;早期的分析,其基础是独立的数据孤岛(抽样、局部、片面),分析因子是指定的代表性因子(也不考虑因子之间的影响),分析方法极大地依赖经验、理论、假设和价值观,所以该阶段的模型研究往往是滞后的;进入互联网时代后,数据孤岛问题理论上得到了解决,但是研究因子变得更加大量、高速、多变化,研究模型的建立变得更加复杂,研究状况没有得到本质好转,同样的,研究结果也缺乏广泛有效的指导意义。
大数据分析应用学说的兴起,给大学生就业研究开辟了一个新方向。
3. 大数据分析在大学生就业中的应用原则
建立大学生就业分析的大数据应用,相比传统数据分析应用,要有三个方面的指导原则:
(1)不依靠少量数据样本,而分析与就业相关的所有数据。
少量的数据样本是指基于某段时间、空间的某些维度内的就业样本,它的本质是利用最少的数据获得最多的信息;这种分析方法在特定领域内是有效的,但在广泛意义上容易误差很大。
举例而言:2010年南京所有院校大学生就业分析,其中已发生的就业行业分布的数据很容易做到精确,但这个分析模型就无法轻松建立;假设南京大学的“空间物理”专业是中国所有大学中的独有专业,则此专业学员的就业因素维度很容易确定;但南京几乎所有学校都开办了“计算机技术与应用”专业,则该专业的就业分析就难以用搜集到的既有分布提取分析因子、建立分析模型。相比之下,大数据应用的所有数据是指能搜集到的所有和就业相关的海量数据,包括世界与中国整体经济趋势、中国各地就业行业情况及区域分布、相关行业的人才需求情况、毕业学校的该专业师资力量教学模式、毕业人的知识素质甚至家庭情况等,在这些海量数据中提取维度,通过维度相互交叉分析对比,可以得出对某阶段对大学生就业最有影响的因素排名。(2)大学生就业相关的各种因素是复杂的,不追求某数据的精确性。
因为大数据应用的采集数据是包含与社会、行业、学校、大学生个人等各种各样的海量数据,事实上不可能做到每一种、每一字节的信息精确,采集的数据越多,因为采集样本等于全部数据,海量数据可以抵消掉个别数据的错误,而且可以得到更多的价值。
同样以2010年南京院校大学生就业分析为例,若采取大数据应用分析,则对某些大学生的素质评估必然会产生,,也因此看
2. 大数据应用原理解析
大数据应用的核心思想是通过将数学算法运用到海量的数据上预测事情发生的可能性。目前比较成功的典型大数据应用,是基于消费行为习惯的数据分析,这方面,国际上最典型的商家是谷歌,其通过搜索引擎得来的分析数据,已经应用到商业、民事甚至军事的各个领域。而国内无疑百度、淘宝、京东、360等互联网厂商做得很成功,而且越来越多的商家(例如苏宁云商)踏入这一领域。
对于学生就业的大数据应用,举例而言:学习“计算机科学与技术”专业的本科大学生,其毕业初始加入IT 公司的可能性,5年后继续从事IT 某个具体领域的可能性,以及其毕业后自主创业的可能性,都是大数据可以预测的范围。
大数据应用的预测的基础,关键在于其数学算法是建立在海量数据的基础上,随着系统接收到的数据的增多,通过人工智能算法的应用,它可以自动搜索最好的信号和模式,并改善自己。
大数据应用学说的本质是指:通过以云计算为基础的信息存储、分享和挖掘手段,可以便宜、有效地将以“PB ”(1024TB )为单位的结构与非结构数据信息并存的数据海洋,不
教育理论研究
到了很多无法被关注到的细节,例如大学生的性格倾向、独立性等,从而在学校教育中采取更有效的对策。
(3)不追究某因素对大学生就业的影响,而关注该因素在就业中的关系。
例如,不需要解释2008—2012年这5年间为什么“园林设计”这一专业大学生就业的成功率有99%,要做的是预测
两种方式比较优缺点如下:
摇自有建设
优点
数据来源有指向性,有利于建立分析模型,对于趋势的分析周期较短。
数据来源比较广泛,分析模型建立复杂,分析周期大。
缺点
建设成本高,建设周期过长。
外联协作建设成本低,周期短。
2013—2015这3年该专业的大学生就业率会上涨还是下降,
以及其上涨和下降的幅度范围。
总的来说,外联协作更经济一些。
4. 大学生就业分析的大数据应用建设形式
大学生就业大数据应用系统的建设形式可有多种,但就系统建设角度而言,不外乎自有建设和外联协作两种方式。自有建设是指以能反映就业代表性的行政区域(一般
为省、地市)为节点、连接到国家级就业指导中心数据枢纽中心,这样建立一个相对独立的网络,如下图所示。节点主要负责采集,也可以负责本区域内的分析;而枢纽则负责全国范围内的数据分析,它的分析结果更具宏观指导意义。
5. 大数据分析在大学生就业应用中的注意事项
需要注意的是,大数据分析因为和传统模式的不同而带来的思维转变,还有一些值得注意的地方:
(1)由于大数据分析的核心思想是用数据发现“问题”,因此本文中不具体提出影响大学生就业的数据分析维度,而只指出尽可能地搜集与就业相关的海量数据;这是与传统研究方法有别的地方。
(2)就业数据采集涉及各个方面,有些可能是敏感隐私数据,例如大学生的家庭关系、收入情况,现实中对个体毕业生的就业影响极大,这部分的数据采集与管理,应当符合法律法规,否则有被非法扩散利用的危险。
(3)因为大数据的海量数据等于现实,所以不仅仅在大学生毕业研究方面,其他应用领域内的专家经验作用将削弱,更多的是会体现数据科学家的价值。
(4)随着大数据分析在就业指导中的作用加强,其预测的精准性越来越高,有可能对某些基础专业带来损害,特别是在目前还比较浮躁的社会风气下,会成为学生放弃选择该专业的现实依据。
6. 结论
对于经济相对发达、就业形势多种多样的省份,可以再次建立以地市为子节点、以省份为中级数据枢纽的就业分析网络。
注意,区域中心的划分并非完全按行政区域进行,其依据更应该考虑和就业分布相关的经济圈为主。当然这不影响采集后的数据挖掘分析,它可以忽略掉采集来源地点的影响,更多的是作为一种表现呈现,这也就是大数据应用的魅力所在。
外联协作是指与具备广泛数据采集能力的互联网公司(例如百度)协作、由其提供云计算服务来采集基础数据分布,这些数据经过初次过滤后进入国家就业指导中心数据枢纽数据库,以期做就业趋势分析或者后期研究使用。
大数据将逐渐成为现代社会基础设施的一部分,就像交通、水电和通信网络一样不可或缺。大数据时代的经济学、政治学、社会学和许多科学门类都会发生巨大甚至是本质上的变化和发展,进而影响人类的价值体系、知识体系和生活方式。
大学生就业分析,作为社会学和教育学相交叉的内容之一,大数据在其中的应用,也将会越来越广泛。它的实在意义,在于为大学生就业趋势的预测提供了一种可复制的分析模式,对现实管理具有指导价值。
总的来说,大学生就业的大数据分析并不是一个充斥着算法的机器世界,政府和教育界的指导作用不会被完全取代,因为大数据分析为我们提供的不是最终答案,只是参考答案。未来,将会出现更好的方法和答案。
参考文献:
迈尔舍恩伯格[大数据时代]. 盛杨燕、[1][美]维克托··
周涛译,浙江人民出版社2012年12月出版
[2]岳昌君,巩建闽,黄潞,马保国等. 高校毕业生就业特点及其变化趋势. 教育发展研究,2008(7):25-29.