南开大学20春学期《数据科学导论》在线作业2(随机)
20春学期(1709、1803、1809、1903、1909、2003)《数据科学导论》在线作业试卷总分100得分100
南开大学
在线作业请咨询微信或QQ515224986
第1题以下属于关联分析的是()
A、CPU性能预测
B、购物篮分析
C、自动判断鸢尾花类别
D、股票趋势建模
正确答案
第2题哪一项不属于规范化的方法()
A、最小最大规范化
B、零均值规范化
C、小数定标规范化
D、中位数规范化
正确答案
第3题实体识别属于以下哪个过程()
A、数据清洗
B、数据集成
C、数据规约
D、数据变换
正确答案
第4题具有偏差和至少()个S型隐含层加上一个()输出层的网络能够逼近任何有理数。
A、1线性
B、2线性
C、1非线性
D、2非线性 奥鹏作业请咨询微信或QQ515224986
正确答案
第5题某超市研究销售纪录数据后发现买啤酒的人很大概率也会购买尿布这种属于数据挖掘的哪类问题?()
A、关联规则发现
B、聚类
C、分类
D、自然语言处理
正确答案
第6题层次聚类适合规模较()的数据集
A、大
B、中
C、小
D、所有
正确答案
第7题下面不是分类的常用方法的有()
A、K近邻法
B、朴素贝叶斯
C、决策树
D、条件随机场
正确答案
第8题BFR聚类用于在()欧氏空间中对数据进行聚类
A、高维
B、中维
C、低维
D、中高维
正确答案
第9题只有非零值才重要的二元属性被称作)其中购物篮数据就属于这种属性。
A、计数属性
B、离散属性
C、非对称的二元属性#对称属性
正确答案
第10题为了解决任何复杂的分类问题使用的感知机结构应至少包含()个隐含层。
A、1
B、2
C、3
D、4
正确答案
第11题在回归分析中自变量为()因变量为()。
A、离散型变量,离散型变量
B、连续型变量,离散型变量
C、离散型变量,连续型变量
D、连续型变量,连续型变量
正确答案
第12题维克托?迈尔舍恩伯格在《大数据时代生活、工作与思维的大变革》一书中持续强调了一个观点大数据时代的到来使我们无法人为地去发现数据中的奥妙与此同时我们更应该注重数据中的相关关系而不是因果关系。其中数据之间的相关关系可以通过以下哪个算法直接挖掘()
A、Kmeans
B、BayesNetwork
C、C4.5
D、Apriori
正确答案
第13题一元线性回归中真实值与预测值的差称为样本的()。
A、误差
B、方差
C、测差
D、残差
正确答案
第14题以下哪个不是处理缺失值的方法()
A、删除记录
B、按照一定原则补充
C、不处理
D、随意填写
正确答案
第15题数据库中相关联的两张表都存储了用户的个人信息但在用户的个人信息发生改变时只更新了一张表中的数据这时两张表中就有了不一致的数据这属于()
A、异常值
B、缺失值
C、不一致的值
D、重复值
正确答案
第16题根据映射关系的不同可以分为线性回归和()。
A、对数回归
B、非线性回归
C、逻辑回归
D、多元回归
正确答案
第17题在k近邻法中选择较小的k值时学习的“近似误差”会()“估计误差”会()。
A、减小,减小
B、减小,增大
C、增大,减小
D、增大,增大
正确答案
第18题考虑下面的频繁3项集的集合{123}{124}{125}{134}{135}{234}{235}{345}假定数据集中只有5个项采用合并策略由候选产生过程得到4项集不包含()
A、1234
B、1235
C、1245
D、1345
正确答案
第19题单层感知机模型属于()模型。
A、二分类的线性分类模型
B、二分类的非线性分类模型
C、多分类的线性分类模型
D、多分类的非线性分类模型
正确答案
第20题特征选择的四个步骤中不包括()
A、子集产生
B、子集评估
C、子集搜索
D、子集验证
正确答案
第21题对于多层感知机()层拥有激活函数的功能神经元。
A、输入层
B、隐含层
C、输出层
正确答案
第22题Apriori算法的计算复杂度受()影响。
A、支持度阈值
B、项数
C、事务数
D、事务平均宽度
正确答案
第23题一元回归参数估计的参数求解方法有()。
A、最大似然法
B、距估计法
C、最小二乘法
D、欧式距离法
正确答案
第24题层次聚类的方法是()
A、聚合方法
B、分拆方法
C、组合方法
D、比较方法
正确答案
第25题相关性的分类按照相关的方向可以分为()。
A、正相关
B、负相关
C、左相关
D、右相关
正确答案
第26题数据科学具有哪些性质()
A、有效性
B、可用性
C、未预料
D、可理解
正确答案
第27题k近邻法的基本要素包括()。
A、距离度量
B、k值的选择
C、样本大小
D、分类决策规则
正确答案
第28题下列选项是BFR的对象是()
A、废弃集
B、临时集
C、压缩集
D、留存集
正确答案
第29题什么情况下结点不用划分()
A、当前结点所包含的样本全属于同一类别
B、当前属性集为空,或是所有样本在所有属性上取值相同
C、当前结点包含的样本集为空
D、还有子集不能被基本正确分类
正确答案
第30题系统日志收集的基本特征有()
A、高可用性
B、高可靠性
C、可扩展性
D、高效率
正确答案
第31题在一元线性回归中输入只包含一个单独的特征。
T、对
F、错
正确答案
第32题sigmoid函数属于阶跃函数是神经网络中常见的激活函数。
T、对
F、错
正确答案
第33题多层感知机的学习能力有限只能处理线性可分的二分类问题。
T、对
F、错
正确答案
第34题BFR聚类簇的坐标可以与空间的坐标保持一致。
T、对
F、错
正确答案
第35题支持度是衡量关联规则重要性的一个指标。
T、对
F、错
正确答案
第36题利用K近邻法进行分类时使用不同的距离度量所确定的最近邻点都是相同的。
T、对
F、错
正确答案
第37题信息熵越小样本结合的纯度越低
T、对
F、错
正确答案
第38题在数据预处理时无论什么情况都可以直接将异常值删除
T、对
F、错
正确答案
第39题决策树的输入为训练集输出为以node为根结点的一棵决策树
T、对
F、错
正确答案
第40题单层感知机对于线性不可分的数据学习过程也可以收敛。
T、对
F、错
正确答案
第41题朴素贝叶斯分类器有简单、高效、健壮的特点但某些属性可能会降低分类器的性能
T、对
F、错
正确答案
第42题随着特征维数的增加样本间区分度提高。
T、对
F、错
正确答案
第43题选择较小的k值相当于用较小的邻域中的训练实例进行预测学习的“近似误差”会减小“估计误差”会增大预测结果会对近邻的点实例点非常敏感。
T、对
F、错
正确答案
第44题一般而言信息增益越大则意味着使用属性a来进行划分所获得的“纯度提升越大”因此我们可用信息增益来进行决策树的最优特征选择。
T、对
F、错
正确答案
第45题决策树内部结点表示一个类叶结点表示一个特征或属性
T、对
F、错
正确答案
第46题为了更加准确地描述变量之间的线性相关程度可以通过计算相关系数来进行相关分析。
T、对
F、错
正确答案
第47题K均值(KMeans)算法是密度聚类。
T、对
F、错
正确答案
第48题Apriori算法是一种典型的关联规则挖掘算法。
T、对
F、错
正确答案
第49题当特征为离散型时可以使用信息增益作为评价统计量。
T、对
F、错
正确答案
第50题EDA可以最大化数据分析者对数据集和数据集底层结构的洞察力并且为分析者提供数据集中包含的各类信息。
T、对
F、错
正确答案
南开大学
作业请咨询微信或QQ515224986
页:
[1]