深度学习基础-深度学习概述

1单选(1分)

机器学习(深度学习)系统中通常将数据集划分为训练集和测试集,其中被用来学习得到系统的参数取值的是

?

  • A.测试集(testing set)

  • B.训练集(training set)和测试集(testing set)

  • C.训练集(training set)

  • D.其它答案都不对

2单选(1分)

k折交叉验证通常将数据集随机分为k个子集。下列关于k折交叉验证说法错误的是

?

  • A.每次将其中一个子集作为训练集,剩下k-1个子集作为测试集进行测试

  • B.划分时有多种方法,例如对非平衡数据可以用分层采样,就是在每一份子集中都保持和原始数据集相同的类别比例

  • C.每次将其中一个子集作为测试集,剩下k-1个子集作为训练集进行训练

  • D.k折交叉验证相对于留出法,其性能评价结果通常要相对更稳定一些

3单选(1分)

关于 Cohen’ s kappa取值的含义,下列错误的是:

?

  • A.其取值为+1,说明一致性最好

  • B.其取值越小,说明一致性越好

  • C.其取值越大,说明一致性越好

  • D.其取值通常在-1和+1之间

4单选(1分)

下面关于有监督学习、无监督学习的描述错误的是

?

  • A.无监督学习的训练学习过程中也利用到了每个样本的分类标签(classification label)或者目标值(target value)

  • B.有监督学习是从有正确答案的样本集合中学习,即每个样本的分类标签(classification label)或者目标值(target value)已知

  • C.有监督学习中样本的ground truth指的是每个样本的真实分类标签(classification label)或者真实目标值(target value)

  • D.为了获得有监督学习中样本的真实分类标签(classification label)或者真实目标值(target value),某些情况下,可以采用人工专家标注的方法获得

5单选(1分)

下面的一段python程序是对iris数据集进行训练集合测试集的拆分,已知该数据集中样本的个数为150个,特征为4个。则下面的程序执行完毕后,print语句的输出结果应该为:

?

?

from sklearn import cross_validation 

?

from sklearn import datasets 

?

iris = datasets.load_iris() 

?

X_train, X_test, y_train, y_test = cross_validation.train_test_split

?

(iris.data, iris.target, test_size=0.2 )

?

print (“X_train.shape:”, X_train.shape, “y_train.shape:”, y_train.shape)

?

  • A.(‘X_train.shape:’, (90, 4), ‘y_train.shape:’, (90,))

  • B.(‘X_train.shape:’, (120, 4), ‘y_train.shape:’, (120,))

  • C.(‘X_train.shape:’, (30, 4), ‘y_train.shape:’, (30,))

  • D.(‘X_train.shape:’, (150, 4), ‘y_train.shape:’, (150,))

6单选(1分)

下面的一段python程序是使用支持向量机在iris数据集上进行训练的例子,且该程序已经导入了必要的模块(用省略号表示)。则程序中空格处应该填充的拟合函数是:

?

?

……

?

iris = datasets.load_iris() 

?

X_train, X_test, y_train, y_test = cross_validation.train_test_split

?

(iris.data, iris.target, test_size=0.2 )

?

clf = svm.SVC(kernel=’linear’, C=1). (X_train, y_train) 

?

  • A.learn

  • B.fit

  • C.ml

  • D.train

7单选(1分)

F值的定义为准确率和召回率的调和平均。如果二者(即准确率和召回率)同等重要,则为

?

  • A.F1

  • B.F0.5

  • C.F2

  • D.F3

8多选(1分)

关于ROC (受试者工作特征曲线, receiver operating characteristic curve)中AUC(Area Under Curve)说法正确的是

?

  • A.定义为ROC曲线下的面积

  • B.AUC值提供了分类器的一个整体数值。通常AUC越大,分类器更好

  • C.取值范围为[0,1]

  • D.其它答案都不对

9多选(1分)

下面关于使用网格搜索进行超参数的调优的描述正确的是:

?

  • A.假设模型中某个超参数B的可能取值为连续的,如在区间[0-1]。由于B值为连续,通常进行离散化,如变为{0,   0.5,  1.0}

  • B.假设模型中有两个超参数(A, B)。则网格搜索的基本原理就是尝试各种可能的(A, B)对值,并找到其中最好的(A, B)对值

  • C.其它答案都不对

  • D.为了使用网格搜索进行超参数的调优,通常可以进行交叉验证的方式,并找出使交叉验证性能最高的超参数取值的组合

10填空(1分)

下面的一段python程序是计算并输出y_true和y_pred之间的平均绝对误差,即MAE,则其中print语句的输出结果为 (要求:用小数表示,且保留小数点后两位)。

?

?

from sklearn.metrics import mean_absolute_error

?

y_true = [3, -0.5, 2, 7]

?

y_pred = [2.5, 0.0, 2, 9]

?

print (mean_absolute_error(y_true, y_pred))

0.75

?