深度学习基础-特征工程概述

1单选(1分)

为了在python程序中进行英文自然语言的处理,如词语切分(Tokenization)词干提取(Stemming)等工作,需要使用的导入模块语句通常为:?

  • A.import nltk

  • B.import matplotlib.pyplot as plt

  • C.import numpy as np

  • D.from sklearn import svm, datasets

2单选(1分)

关于停用词(Stop words),下列说法错误的是?

  • A.停用词是指比较古老的词汇,在当代已经几乎无人使用了

  • B.在某些特殊应用如短语搜索 phrase search中,停用词可能是重要的构成部分,过滤掉会引起副作用,因此要避免进行停用词过滤

  • C.停用词通常是非常常见的词,几乎可能出现在所有场合,因而对于信息检索、文本分类等应用区分度不大

  • D.停用词是指在信息检索中,为节省存储空间和提高处理效率,在处理自然语言文本之前或之后需要被过滤掉的某些字或词

3单选(1分)

下面关于特征缩放(Feature Scaler)的描述错误的是?

  • A.特征缩放主要是对特征矩阵中每个行,即每个样本的数值进行规范化处理

  • B.特征缩放主要是对特征矩阵中每个列,即同一特征维度的数值进行规范化处理

  • C.常用特征缩放方法有标准化法、区间缩放法等

  • D.其应用背景包括不同特征(列)不属于同一量纲等场合

4单选(1分)

下面的一段python程序的目的是对样本特征矩阵进行归一化处理,则空格处应该填充的函数是??

from sklearn import datasets?

iris = datasets.load_iris()?

from sklearn.preprocessing import Normalizer?

print (Normalizer(norm=’l1′). (iris.data))?

  • A.fit_transform

  • B.normalizer

  • C.fit

  • D.transform

5单选(1分)

下面的一段python程序的目的什么??

import scipy.sparse as sp?

from sklearn.preprocessing import Imputer?

x = sp.csc_matrix([?

        [1, 2], ?

        [0, 3],?

        [7, 6]])?

imp = Imputer(missing_values=0, strategy=’mean’, verbose=0)?

imp.fit(x)?

x_test = sp.csc_matrix([?

        [0, 2],?

        [6, 0], ?

        [7, 6]])?

  • A.缺失值补齐,将0视为缺失值

  • B.样本特征矩阵的归一化

  • C.多项式特征的生成

  • D.样本特征矩阵的量纲的缩放

6单选(1分)

关于下面的python程序的描述错误的是??

from sklearn.feature_extraction.text import CountVectorizer?

corpus = [?

‘Jobs was the chairman of Apple Inc., and he was very famous’,?

‘I like to use apple computer’,?

‘And I also like to eat apple’?

] ?

vectorizer =CountVectorizer(ngram_range=(1,2))?

print(“N-gram mode: “,vectorizer.fit_transform(corpus).todense())  ?

print(“N-gram mode: “,vectorizer.vocabulary_)?

  • A.CountVectorizer没有考虑到IDF,即倒排文档频率

  • B.用n-gram模式进行文档向量化

  • C.vocabulary_中只包括bi-gram

  • D.vocabulary_中既包括unigram,也包括bigram

7

单选(1分)

下图是使用主成分分析法对iris数据集进行特征降维并进行二维平面可视化的结果。则为了绘图,需要使用的导入语句是下面哪一种??

iris数据集进行特征?

  • A.import matplotlib.pyplot as plt

  • B.from sklearn.lda import LDA

  • C.from sklearn.decomposition import PCA

  • D.import numpy as np

8多选(1分)

自然语言处理中为了计算文档之间的相似度,往往需进行文档的量化表示,下面关于BOW(即Bag-Of-Words model)和VSM(Vector Space Model)的描述正确的是:?

  • A.BOW,即词袋模型。即为了计算文档之间的相似度,假设可以忽略文档内的单词顺序和语法、句法等要素,将其仅仅看作是若干个词汇的集合

  • B.在VSM,即向量空间模型中,所有文档的向量维度的数目都相同

  • C.其它答案都不对

  • D.VSM,即向量空间模型。是一种表示文本文档的数学模型。将每个文档表示成同一向量空间的向

9多选(1分)?

对于文本“I like to eat apple”,则下列关于N-gram的描述正确的是?

  • A.其Bi-gram为“I like”,“like to”, “to eat”,“eat apple”

  • B.其Tri-gram为“I like to”,“like to eat”, “to eat apple”

  • C.其Uni-gram为“I”,“like”, “to”,“eat”,“apple”

  • D.其它答案都不对

10多选(1分)

关于特征选择,下列说法正确的是?

  • A.特征减少了,维度就下降了,可以提升模型的效率。因为在实际应用尤其是在文本处理中,经常会出现维度灾难问题

  • B.剔除了无关特征,有利于降低学习任务的难度,也可以增加模型的可解释性

  • C.每个样本往往具有多个特征,特征选择是指从中选择对于学习任务,例如分类问题有帮助的若干特征

  • D.通常可从两个方面来进行特征选择:1)特征是否发散;2)特征与目标的相关性