1单选(1分)
为了在python程序中进行英文自然语言的处理,如词语切分(Tokenization)词干提取(Stemming)等工作,需要使用的导入模块语句通常为:?
-
A.import nltk
-
B.import matplotlib.pyplot as plt
-
C.import numpy as np
-
D.from sklearn import svm, datasets
2单选(1分)
关于停用词(Stop words),下列说法错误的是?
-
A.停用词是指比较古老的词汇,在当代已经几乎无人使用了
-
B.在某些特殊应用如短语搜索 phrase search中,停用词可能是重要的构成部分,过滤掉会引起副作用,因此要避免进行停用词过滤
-
C.停用词通常是非常常见的词,几乎可能出现在所有场合,因而对于信息检索、文本分类等应用区分度不大
-
D.停用词是指在信息检索中,为节省存储空间和提高处理效率,在处理自然语言文本之前或之后需要被过滤掉的某些字或词
3单选(1分)
下面关于特征缩放(Feature Scaler)的描述错误的是?
-
A.特征缩放主要是对特征矩阵中每个行,即每个样本的数值进行规范化处理
-
B.特征缩放主要是对特征矩阵中每个列,即同一特征维度的数值进行规范化处理
-
C.常用特征缩放方法有标准化法、区间缩放法等
-
D.其应用背景包括不同特征(列)不属于同一量纲等场合
4单选(1分)
下面的一段python程序的目的是对样本特征矩阵进行归一化处理,则空格处应该填充的函数是??
from sklearn import datasets?
iris = datasets.load_iris()?
from sklearn.preprocessing import Normalizer?
print (Normalizer(norm=’l1′). (iris.data))?
-
A.fit_transform
-
B.normalizer
-
C.fit
-
D.transform
5单选(1分)
下面的一段python程序的目的什么??
import scipy.sparse as sp?
from sklearn.preprocessing import Imputer?
x = sp.csc_matrix([?
[1, 2], ?
[0, 3],?
[7, 6]])?
imp = Imputer(missing_values=0, strategy=’mean’, verbose=0)?
imp.fit(x)?
x_test = sp.csc_matrix([?
[0, 2],?
[6, 0], ?
[7, 6]])?
-
A.缺失值补齐,将0视为缺失值
-
B.样本特征矩阵的归一化
-
C.多项式特征的生成
-
D.样本特征矩阵的量纲的缩放
6单选(1分)
关于下面的python程序的描述错误的是??
from sklearn.feature_extraction.text import CountVectorizer?
corpus = [?
‘Jobs was the chairman of Apple Inc., and he was very famous’,?
‘I like to use apple computer’,?
‘And I also like to eat apple’?
] ?
vectorizer =CountVectorizer(ngram_range=(1,2))?
print(“N-gram mode: “,vectorizer.fit_transform(corpus).todense()) ?
print(“N-gram mode: “,vectorizer.vocabulary_)?
-
A.CountVectorizer没有考虑到IDF,即倒排文档频率
-
B.用n-gram模式进行文档向量化
-
C.vocabulary_中只包括bi-gram
-
D.vocabulary_中既包括unigram,也包括bigram
7
单选(1分)
下图是使用主成分分析法对iris数据集进行特征降维并进行二维平面可视化的结果。则为了绘图,需要使用的导入语句是下面哪一种??
-
A.import matplotlib.pyplot as plt
-
B.from sklearn.lda import LDA
-
C.from sklearn.decomposition import PCA
-
D.import numpy as np
8多选(1分)
自然语言处理中为了计算文档之间的相似度,往往需进行文档的量化表示,下面关于BOW(即Bag-Of-Words model)和VSM(Vector Space Model)的描述正确的是:?
-
A.BOW,即词袋模型。即为了计算文档之间的相似度,假设可以忽略文档内的单词顺序和语法、句法等要素,将其仅仅看作是若干个词汇的集合
-
B.在VSM,即向量空间模型中,所有文档的向量维度的数目都相同
-
C.其它答案都不对
-
D.VSM,即向量空间模型。是一种表示文本文档的数学模型。将每个文档表示成同一向量空间的向量
9多选(1分)?
对于文本“I like to eat apple”,则下列关于N-gram的描述正确的是?
-
A.其Bi-gram为“I like”,“like to”, “to eat”,“eat apple”
-
B.其Tri-gram为“I like to”,“like to eat”, “to eat apple”
-
C.其Uni-gram为“I”,“like”, “to”,“eat”,“apple”
-
D.其它答案都不对
10多选(1分)
关于特征选择,下列说法正确的是?
-
A.特征减少了,维度就下降了,可以提升模型的效率。因为在实际应用尤其是在文本处理中,经常会出现维度灾难问题
-
B.剔除了无关特征,有利于降低学习任务的难度,也可以增加模型的可解释性
-
C.每个样本往往具有多个特征,特征选择是指从中选择对于学习任务,例如分类问题有帮助的若干特征
-
D.通常可从两个方面来进行特征选择:1)特征是否发散;2)特征与目标的相关性