2016腾讯实习笔试题-基础研究
选择题(1h,做完一题后,不能返回)
1. 下面哪些算法全是稳定排序?
A 归并排序 插入排序 冒泡排序
B 堆排序 快速排序 归并排序
C 希尔排序 插入排序 堆排序
D 冒泡排序 快速排序 基数排序
2. 重抽样是解决样本数据集不平衡的一种方法,以下关于重抽样说法不正确的是
A 重抽样技术包括 bootstrap ,cross- validation,jackknife,leave one-out等
B 重抽样是数据驱动的,而不是理论驱动的方法。它是基于相同的样本内重复采样
重抽样不需要对样本集合做中位数、方差等统计上的估计
D 重抽样可以利用随机子集验证模型
3 KL divergence 定义为
其中P和Q是两个离散型概率密度函数,关于它哪一项不正确
A KL(Q,P)>=0
B KL(Q,P)是某个分布的期望
度量了P和Q的近似程度,KL(Q,P)越大,P和Q越接近
D KL(Q,P)= KL(P,Q),当且仅当p=q
4 求以下行列式的值
A 2000
B -2000 D -1000
5 关系代数表达式R S的运算结果
D
6. In order for the regression technique to give the best and minimum variance prediction all the following conditions must be met.EXCEPT for:( )
A The relation is linear
B We have not omitted any significant variable
C Both the X and Y variables(the predictors and the response)are normally distributed
D The residuals (errors) are normally distributed
7. 甲和乙玩投骰子游戏,甲使用均匀的骰子,乙的骰子从1-6的概率分别是1/8,1/8,1/8,1/8,1/4,1/4。扔两次骰子决胜负(相等算平局)。甲已经扔了一个6点,乙还没有扔。乙赢的概率约是
A 40%
B 33.3%
C 30%
D 26.3%
8. 秩是3,(求线性无关)
A a2-a1,a3-a2,a1-a3
B a1+a2,a2+a3,a3+a1
9. 考虑含有数据17,16,10,20,12的样本,计算标准差
B 3
C 4
D 5
10. 某类型电池的使用必须超过100小时才算合格,现随机抽检了某厂家的50个样本,发现它的平均使用寿命为98小时,样本标准差为5小时,如果取显著水平为0.025,那么该厂家的电池能否采购
A 采购
B 不采购
C 无法判断
11. 查询出每门课都大于80分的学生姓名,请问下面哪个选项是错的()
name kecheng fenshu
张三 语文 81
张三 数学 75
李四 语文 76
李四 数学 90
王五 语文 81
王五 数学 100
王五 英语 90
12. 已知随机变量X,Y相互独立,且X~N(0,1),Y~N(4,2),那么0.5X+2Y期望和方差分别是
A 8.5 8.25
B 8 8.25
C 8 8
D 8.5 8
13. 设有整数n,每次可以选择对n进行加1操作(n=n+1)或者加倍操作(n=n*2).当前设n=1,若想得到整数n=2016,最少需要进行多少次操作
A 12
B 15
C 16
D18
14.
B
15为考察不同按钮设计形状对某产品的点击量是否影响,随机抽选了3组用户进行实验,每组用户只测试一种按钮的形状的产品,试验期为4小时,收集数据后用EXCEL进行方差分析,所得结果如下表,则对此数据表示不正确的是:
A 该试验的原假设是方形,圆形,菱形三种按钮的平均点击量无显著差异
B 在5%显著水平下,可以认为按钮形状对销量有显著的影响
C在5%显著水平下,可以认为方形点击量明显低于其他两种情况
D在5%显著水平下,至少有两种形状按钮之间的点击量有显著差异
16. 有两家引进相同型号机床的企业A和企业B,机床产出的产品合格率平均为95%,企业A有50台机床,企业B有5台。某天得知某家企业合格率为80%,问是哪家企业的可能性更大?
A 企业A
B 企业B
C 一样大
D 无法判断
17. 假设X1,X2…Xn为来自[k1,k2]上的均匀分布的样本,s^2为样本的方差,m2为二阶中心距,则k2和k2的矩估计为
18. 假设0
Bλ2
Cλ3
Dλ4
19.某银行对其发行的信用卡不履行债务的情况进行了调研,发现过去大约有3%的信用卡持有者不履行债务。最终履行债务的信用卡持有者有20%的概率会拖欠一个月或者几个月后支付。当然对于不履行债务的信用卡持有者,拖欠一个月或者几个月后支付的概率为1
。如
果信用卡持有者已经拖欠了一个月的支付,那么他不履行债务的概率有多大?
A 13.49% C 15.7%
D 17.59%
20. 下列情景中,比较而言,更适合用非参数估计方法的是
A 反应两个地区人们收入水平的差异
B反应两个地区人们上网时间长短的差异
C反应两个地区人们生活幸福程度的差异
D反应两个地区人们用电量的差异
21. 程序段
for(i=N-1;i>1;i--)
for(j=1;j
if(A[j]>A[j+1])
Swap(&A[j], &A[j+1]);
其中N为正整数,该程序最坏情况下的时间复杂度
A O(N)
B O(NlogN)
C O(N2)
D O(N3)
22. 对数组5,1,7,,4,8,9进行快速排序,第一次循环结束后数组的状态为
A [4,1,5,7,8,9]
B [1,4,5,7,8,9]
C [4,1,7,5,8,9]
D [1,4,7,5,8,9]
23.
A 2
B -1/2
C 1/2
D -2
24. 已知函数f(x)在定义域中为凸函数,从给定点X0出发,沿什么方向进行搜索,到达最优点所需步数最少
A 沿坐标轴中最速下降方向
B沿一阶导数最速下降方向
C 沿二阶导数最速下降方向
D 沿随机方向
25. 神经网络是机器学习中常用的一种学习算法,在实际问题中有着广泛的应用。在本题中我们考虑使用一个结构简单的向前反馈神经网络,其网络结构如下图所示
它仅包括一个输入层和一个输出单元。为了方便计算,我们不考虑输入层的偏置量,在输出单元我们使用sigmod激活函数
假设当前输入数据为x=(x1,x2),请给出该神经网络的输出值公式:O(x)=
主观题(1h,做完一题后,不能返回)
1、 你对当前你所用过的推荐系统有什么吐槽,技术方法上你觉得应该如何改进?
2、 每次电脑开机都会显示 开机启动时间多少和击败全国多少多少。有个人每次都记录这
条信息。请问用这些信息有什么用?
3、 有人说大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的
数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
有人说大数据5V特征:Volume(大量)、Velocity(高速)、Variety(多样)、Value
(价
值)Veracity(真实性)。
你表示质疑还是同意?对于当前爆炒的“大数据”你的理解。