1单选(1分)
机器学习(深度学习)系统中通常将数据集划分为训练集和测试集,其中被用来学习得到系统的参数取值的是
?
-
A.测试集(testing set)
-
B.训练集(training set)和测试集(testing set)
-
C.训练集(training set)
-
D.其它答案都不对
2单选(1分)
k折交叉验证通常将数据集随机分为k个子集。下列关于k折交叉验证说法错误的是
?
-
A.每次将其中一个子集作为训练集,剩下k-1个子集作为测试集进行测试
-
B.划分时有多种方法,例如对非平衡数据可以用分层采样,就是在每一份子集中都保持和原始数据集相同的类别比例
-
C.每次将其中一个子集作为测试集,剩下k-1个子集作为训练集进行训练
-
D.k折交叉验证相对于留出法,其性能评价结果通常要相对更稳定一些
3单选(1分)
关于 Cohen’ s kappa取值的含义,下列错误的是:
?
-
A.其取值为+1,说明一致性最好
-
B.其取值越小,说明一致性越好
-
C.其取值越大,说明一致性越好
-
D.其取值通常在-1和+1之间
4单选(1分)
下面关于有监督学习、无监督学习的描述错误的是
?
-
A.无监督学习的训练学习过程中也利用到了每个样本的分类标签(classification label)或者目标值(target value)
-
B.有监督学习是从有正确答案的样本集合中学习,即每个样本的分类标签(classification label)或者目标值(target value)已知
-
C.有监督学习中样本的ground truth指的是每个样本的真实分类标签(classification label)或者真实目标值(target value)
-
D.为了获得有监督学习中样本的真实分类标签(classification label)或者真实目标值(target value),某些情况下,可以采用人工专家标注的方法获得
5单选(1分)
下面的一段python程序是对iris数据集进行训练集合测试集的拆分,已知该数据集中样本的个数为150个,特征为4个。则下面的程序执行完毕后,print语句的输出结果应该为:
?
?
from sklearn import cross_validation
?
from sklearn import datasets
?
iris = datasets.load_iris()
?
X_train, X_test, y_train, y_test = cross_validation.train_test_split
?
(iris.data, iris.target, test_size=0.2 )
?
print (“X_train.shape:”, X_train.shape, “y_train.shape:”, y_train.shape)
?
-
A.(‘X_train.shape:’, (90, 4), ‘y_train.shape:’, (90,))
-
B.(‘X_train.shape:’, (120, 4), ‘y_train.shape:’, (120,))
-
C.(‘X_train.shape:’, (30, 4), ‘y_train.shape:’, (30,))
-
D.(‘X_train.shape:’, (150, 4), ‘y_train.shape:’, (150,))
6单选(1分)
下面的一段python程序是使用支持向量机在iris数据集上进行训练的例子,且该程序已经导入了必要的模块(用省略号表示)。则程序中空格处应该填充的拟合函数是:
?
?
……
?
iris = datasets.load_iris()
?
X_train, X_test, y_train, y_test = cross_validation.train_test_split
?
(iris.data, iris.target, test_size=0.2 )
?
clf = svm.SVC(kernel=’linear’, C=1). (X_train, y_train)
?
-
A.learn
-
B.fit
-
C.ml
-
D.train
7单选(1分)
F值的定义为准确率和召回率的调和平均。如果二者(即准确率和召回率)同等重要,则为
?
-
A.F1
-
B.F0.5
-
C.F2
-
D.F3
8多选(1分)
关于ROC (受试者工作特征曲线, receiver operating characteristic curve)中AUC(Area Under Curve)说法正确的是
?
-
A.定义为ROC曲线下的面积
-
B.AUC值提供了分类器的一个整体数值。通常AUC越大,分类器更好
-
C.取值范围为[0,1]
-
D.其它答案都不对
9多选(1分)
下面关于使用网格搜索进行超参数的调优的描述正确的是:
?
-
A.假设模型中某个超参数B的可能取值为连续的,如在区间[0-1]。由于B值为连续,通常进行离散化,如变为{0, 0.5, 1.0}
-
B.假设模型中有两个超参数(A, B)。则网格搜索的基本原理就是尝试各种可能的(A, B)对值,并找到其中最好的(A, B)对值
-
C.其它答案都不对
-
D.为了使用网格搜索进行超参数的调优,通常可以进行交叉验证的方式,并找出使交叉验证性能最高的超参数取值的组合
10填空(1分)
下面的一段python程序是计算并输出y_true和y_pred之间的平均绝对误差,即MAE,则其中print语句的输出结果为 (要求:用小数表示,且保留小数点后两位)。
?
?
from sklearn.metrics import mean_absolute_error
?
y_true = [3, -0.5, 2, 7]
?
y_pred = [2.5, 0.0, 2, 9]
?
print (mean_absolute_error(y_true, y_pred))
0.75
?