阿里巴巴2016数据挖掘工程师笔试
阿⾥巴巴2016数据挖掘⼯程师笔试
⼀. 单项选择题
1. 想要了解上海市⼩学⽣的⾝⾼, 需要抽取500个样本, 这项调查中的样本是?
A
B
C
D 从中抽取的500名学⽣的⾝⾼上海市全部⼩学⽣的⾝⾼从中抽取的500名⼩学⽣上海市全部⼩学⽣
2. 以下对k-means 聚类算法解释正确的是
A
B
C
D 能⾃动识别类的个数, 随即挑选初始点为中⼼点计算能⾃动识别类的个数, 不是随即挑选初始点为中⼼点计算不能⾃动识别类的个数, 随即挑选初始点为中⼼点计算不能⾃动识别类的个数, 不是随即挑选初始点为中⼼点计算
3. 以下哪个是常⻅的时间序列算法模型
A
B
C
D RSI MACD ARMA KDJ
4. 有个袋⼦装有2个红球,2个蓝球,1个⻩球, 取出球以后不再放回, 请问取两次出来的球是相同颜⾊的概率是多少
A
B C
D 0.33330.25
0.20.1667
5.
65,8,50,15,37,24,()。括号中的数字是()
A
B C
D 25262227
6. ⼀组数据, 均值>中位数>众数, 问这组数据
A
B 左偏右偏
D 对称
7. SQL语⾔允许使⽤通配符进⾏字符串匹配的操作, 其中‘%’可以表⽰
A
B
C
D 零个字符1个字符多个字符以上都可以
8. 关于正态分布, 下列说法错误的是:
A
B
C
D 正态分布具有集中性和对称性正态分布的均值和⽅差能够决定正态分布的位置和形态正态分布的偏度为0,峰度为1标准正态分布的均值为0,⽅差为1
9. 在以下不同的场景中, 使⽤的分析⽅法不正确的有
A
B
C
D 根据商家最近⼀年的经营及服务数据, ⽤聚类算法判断出天猫商家在各⾃主营类⺫下所属的商 家层级根据商家近⼏年的成交数据, ⽤聚类算法拟合出⽤户未来⼀个⽉可能的消费⾦额公式⽤关联规则算法分析出购买了汽⻋坐垫的买家, 是否适合推荐汽⻋脚垫根据⽤户最近购买的商品信息, ⽤决策树算法识别出淘宝买家可能是男还是⼥
10. 下列时间序列模型中, 哪⼀个模型可以较好地拟合波动性的分析和预测
A
B
C
D AR 模型MA 模型ARMA 模型GARCH 模型
⼆. 多选选择题
11. excel⼯作簿a 中有两列id 、age, ⼯作簿b 中有⼀列id, 需要找到⼯作薄b 中id 对应的age, 可⽤的函数包括A
B
C
D
E
F index+matchvlookup hlookup find if like
12. 现在有M 个桶, 每桶都有N 个乒乓球, 乒乓球的颜⾊有K 种, 并且假设第i 个桶第j 种颜⾊的球个数为Cij, ⽐例为Rij=Cij/N,现在要评估哪个桶的乒乓球颜⾊纯度最⾼, 下列哪种算法和描述是合理的?
A ∑(N/K-Cij)(N/K-Cij)越⼩越纯
C
D
E
F ∑(1-Rij*Rij)越⼩越纯∑(1-Rij)*(1-Rij)越⼩越纯∑(1-Rij)^2 越⼩越纯-∑Rij*LOG(Rij)越⼩越纯
13. 关于相关系数, 下列描述中正确的有:
A
B
C
D
E
F 相关系数为0.8时, 说明两个变量之间呈正相关关系相关系数等于1相较于相关系数等于-1, 前者的相关性更强相关性等于1相较于相关系数等于0, 前者的相关性更强Pearson 相关系数衡量了两个定序变量之间的相关程度Spearman 相关系数可以衡量两个定序变量之间的相关程度相关系数为0.2相较于-0.8, 前者的相关性更强
14. 关于线性回归的描述, 以下正确的有:
A
B
C
D
E
F 基本假设包括随机干扰项是均值为0, ⽅差为1的标准正态分布基本假设包括随机干扰下是均值为0的同⽅差正态分布在违背基本假设时, 普通最⼩⼆乘法估计量不再是最佳线性⽆偏估计量在违背基本假设时, 模型不再可以估计可以⽤DW 检验残差是否存在序列相关性多重共线性会使得参数估计值⽅差减⼩
15. 下列哪些⽅法可以⽤来对⾼维数据进⾏降维:
A
B
C
D
E
F LASSO 主成分分析法聚类分析⼩波分析法线性判别法拉普拉斯特征映射
三. 问答题
16.
查询成交表a 中的城市city 的成交⾦额⼤于0的购买⼈数(buyer_id)和成交⾦额(amt)
city buyer_id order_id amt
a 1 1 100
a 1 2 100
b 2 3 100
b 3 4 20
c 4 5 0
17. 公司要构建淘宝商家健康指数, 所以要对最近1年内有交易的淘宝商家进⾏问卷调研。为不过于打搅商 家, 问卷调研采取抽样的⽅式进⾏确定商家名单。怎么抽样⽐较好?