南开21秋学期《数据科学导论》在线作业（随机题目）

网院作业 · 发表于 2022-1-26 12:59:16

21秋学期（1709、1803、1809、1903、1909、2003、2009、2103）《数据科学导论》在线作业
试卷总分100得分100
南开大学2021年秋季学期在线作业
第1题通过变量标准化计算得到的回归方程称为()。
A、标准化回归方程
B、标准化偏回归方程
C、标准化自回归方程
D、标准化多回归方程
正确答案
第2题数据质量检验的主要任务就是检查原始数据中是否存在脏数据概括性来说脏数据不包括以下()
A、普通值
B、异常值
C、不一致的值
D、重复值
正确答案
第3题例如将工资收入属性值映射到[11]或者[01]内属于数据变换中的()
A、简单函数变换
B、规范化
C、属性构造
D、连续属性离散化
正确答案
第4题为了解决任何复杂的分类问题使用的感知机结构应至少包含()个隐含层。
A、1
B、2
C、3
D、4
正确答案
设X={123}是频繁项集则可由X产生()个关联规则。
A、4
B、5
C、6 奥鹏在线作业
D、7
正确答案
第6题BFR聚类是用于处理数据集()的kmeans变体。
A、大
B、中
C、小
D、所有
正确答案
第7题在k近邻法中选择较小的k值时学习的近似误差会()估计误差会()。
A、减小，减小
B、减小，增大
C、增大，减小
D、增大，增大
正确答案
第8题变量之间的关系一般可以分为确定性关系与()。
A、非确定性关系
B、线性关系
C、函数关系
D、相关关系
正确答案
第9题以下哪一项不是特征选择常见的方法()
A、过滤式
B、封装式
C、嵌入式
D、开放式
正确答案
利用最小二乘法对多元线性回归进行参数估计时其目标为()。
A、最小化方差#最小化标准差
B、最小化残差平方和
C、最大化信息熵
正确答案
第11题以下属于关联分析的是()
A、CPU性能预测
B、购物篮分析
C、自动判断鸢尾花类别
D、股票趋势建模
正确答案
在一元线性回归模型中残差项服从()分布。
A、泊松
B、正态
C、线性
D、非线性
正确答案
第13题通过构造新的指标线损率当超出线损率的正常范围则可以判断这条线路的用户可能存在窃漏电等异常行为属于数据变换中的()
A、简单函数变换
B、规范化
C、属性构造
D、连续属性离散化
正确答案
第14题下面不是分类的常用方法的有()
A、K近邻法
B、朴素贝叶斯
C、决策树
D、条件随机场
正确答案
某超市研究销售纪录数据后发现买啤酒的人很大概率也会购买尿布这种属于数据挖掘的哪类问题?()
A、关联规则发现
B、聚类
C、分类
D、自然语言处理
正确答案
第16题具有偏差和至少()个S型隐含层加上一个()输出层的网络能够逼近任何有理数。
A、1线性
B、2线性
C、1非线性
D、2非线性
正确答案
第17题以下哪些不是缺失值的影响()
A、数据建模将丢失大量有用信息
B、数据建模的不确定性更加显著
C、对整体总是不产生什么作用
D、包含空值的数据可能会使建模过程陷入混乱，导致异常的输出
正确答案
第18题BFR聚类用于在()欧氏空间中对数据进行聚类
A、高维
B、中维
C、低维
D、中高维
正确答案
第19题对于k近邻法下列说法错误的是()。
A、不具有显式的学习过程
B、适用于多分类任务
C、k值越大，分类效果越好
D、通常采用多数表决的分类决策规则
正确答案
考虑下面的频繁3项集的集合{123}{124}{125}{134}{135}{234}{235}{345}假定数据集中只有5个项采用合并策略由候选产生过程得到4项集不包含()
A、1234
B、1235
C、1245
D、1345
正确答案
第21题层次聚类的方法是()
A、聚合方法
B、分拆方法
C、组合方法
D、比较方法
正确答案B
第22题对于多层感知机()层拥有激活函数的功能神经元。
A、输入层
B、隐含层
C、输出层
正确答案C
第23题Apriori算法的计算复杂度受()影响。
A、支持度阈值
B、项数
C、事务数
D、事务平均宽度
正确答案BCD
第24题系统日志收集的基本特征有()
A、高可用性
B、高可靠性
C、可扩展性
D、高效率
正确答案BC
聚类的主要方法有()。
A、划分聚类
B、层次聚类
C、密度聚类
D、距离聚类
正确答案BC
第26题下面例子属于分类的是()
A、检测图像中是否有人脸出现
B、对客户按照贷款风险大小进行分类
C、识别手写的数字
D、估计商场客流量
正确答案BC
第27题Kmeans聚类中K值选取的方法是()。
A、密度分类法
B、手肘法
C、大腿法
D、随机选取
正确答案B
第28题数据科学具有哪些性质()
A、有效性
B、可用性
C、未预料
D、可理解
正确答案BCD
第29题什么情况下结点不用划分()
A、当前结点所包含的样本全属于同一类别
B、当前属性集为空，或是所有样本在所有属性上取值相同
C、当前结点包含的样本集为空
D、还有子集不能被基本正确分类
正确答案BC
相关性的分类按照相关的方向可以分为()。
A、正相关
B、负相关
C、左相关
D、右相关
正确答案B
第31题当训练集较大的时候标准BP算法通常会更快的获得更好的解。
T、对
F、错
第32题给定一个数据集如果存在某个超平面S能够将数据集的部分正实例点和负实例点正确的划分到超平面的两侧则称该数据集是线性可分数据集。
T、对
F、错
正确答案F
第33题关联规则可以用枚举的方法产生。
T、对
F、错
第34题具有双隐层的感知机足以用于解决任何复杂的分类问题。
T、对
F、错
第35题在数据预处理时无论什么情况都可以直接将异常值删除
T、对
F、错
正确答案F
第36题EDA可以最大化数据分析者对数据集和数据集底层结构的洞察力并且为分析者提供数据集中包含的各类信息。
T、对
F、错
第37题支持度是衡量关联规则重要性的一个指标。
T、对
F、错
第38题sigmoid函数属于阶跃函数是神经网络中常见的激活函数。
T、对
F、错
正确答案F
第39题给定一组点使用点之间的距离概念将点分组为若干簇不同簇的成员可以相同。
T、对
F、错
正确答案F
第40题Kmeans算法采用贪心策略通过迭代优化来近似求解。
T、对
F、错
第41题探索性数据分析的特点是研究从原始数据入手完全以实际数据为依据。
T、对
F、错
第42题K均值(KMeans)算法是密度聚类。
T、对
F、错
正确答案F
第43题神经网络中误差精度的提高可以通过增加隐含层中的神经元数目来实现。
T、对
F、错
第44题随着特征维数的增加特征空间呈指数倍增长样本密度急剧减小样本稀疏。
T、对
F、错
第45题为了尽可能正确分类训练样本结点划分过程将不断重复有时会造成决策树分支过少以致于把训练集自身的一些特点当作所有数据都具有的一般性质而导致过拟合
T、对
F、错
正确答案F
第46题方差过小的特征对数据的区分能力强
T、对
F、错
正确答案F
第47题可信度是对关联规则的准确度的衡量。
T、对
F、错
第48题获取数据的方式有多种可以从网页、测量、数据库、传统媒体、监控等等方式
T、对
F、错
第49题关联规则可以被广泛地应用于通信、金融、交通、健康医疗和Web用户行为分析等领域。
T、对
F、错
决策树学习的算法通常是一个递归地选择最优特征并根据该特征对训练数据进行分割使得各个子数据集有一个最好的分类的过程这一过程对应着特征空间的划分也对应着决策树的构建
T、对
F、错

本内容由易百教育整理发布

		自动登录	找回密码
密码			立即注册