南开大学20春学期《数据科学导论》在线作业(随机)
20春学期(1709、1803、1809、1903、1909、2003)《数据科学导论》在线作业试卷总分100得分100
南开大学
在线作业
第1题实体识别的常见形式()
A、同名异义
B、异名同义
C、单位不统一
D、属性不同
正确答案
第2题例如将工资收入属性值映射到或者内属于数据变换中的()
A、简单函数变换
B、规范化
C、属性构造
D、连续属性离散化
正确答案
第3题单层感知机模型属于()模型。
A、二分类的线性分类模型
B、二分类的非线性分类模型
C、多分类的线性分类模型
D、多分类的非线性分类模型
正确答案
第4题通过变量标准化计算得到的回归方程称为()。
A、标准化回归方程
B、标准化偏回归方程
C、标准化自回归方程
D、标准化多回归方程
正确答案
第5题数据库中相关联的两张表都存储了用户的个人信息但在用户的个人信息发生改变时只更新了一张表中的数据这时两张表中就有了不一致的数据这属于()
A、异常值
B、缺失值
C、不一致的值
D、重复值
正确答案
第6题以下哪些不是缺失值的影响()
A、数据建模将丢失大量有用信息
B、数据建模的不确定性更加显著 奥鹏作业请联系QQ515224986
C、对整体总是不产生什么作用
D、包含空值的数据可能会使建模过程陷入混乱,导致异常的输出
正确答案
第7题层次聚类适合规模较()的数据集
A、大
B、中
C、小
D、所有
正确答案
第8题以下哪个不是处理缺失值的方法()
A、删除记录
B、按照一定原则补充
C、不处理
D、随意填写
正确答案
第9题聚类的最简单最基本方法是()。
A、划分聚类
B、层次聚类
C、密度聚类
D、距离聚类
正确答案
第10题具有偏差和至少()个S型隐含层加上一个()输出层的网络能够逼近任何有理数。
A、1线性
B、2线性
C、1非线性
D、2非线性
正确答案
第11题考虑下面的频繁3项集的集合{123}{124}{125}{134}{135}{234}{235}{345}假定数据集中只有5个项采用合并策略由候选产生过程得到4项集不包含()
A、1234
B、1235
C、1245
D、1345
正确答案
第12题在k近邻法中选择较小的k值时学习的“近似误差”会()“估计误差”会()。
A、减小,减小
B、减小,增大
C、增大,减小
D、增大,增大
正确答案
第13题手肘法的核心指标是()。
A、SES
B、SSE
C、RMSE
D、MSE
正确答案
第14题变量之间的关系一般可以分为确定性关系与()。
A、非确定性关系
B、线性关系
C、函数关系
D、相关关系
正确答案
第15题以下哪一项不属于数据变换()
A、简单函数变换
B、规范化
C、属性合并
D、连续属性离散化
正确答案
第16题以下哪一项不是特征选择常见的方法()
A、过滤式
B、封装式
C、嵌入式
D、开放式
正确答案
第17题通过构造新的指标线损率当超出线损率的正常范围则可以判断这条线路的用户可能存在窃漏电等异常行为属于数据变换中的()
A、简单函数变换
B、规范化
C、属性构造
D、连续属性离散化
正确答案
第18题比如一张表从业务上讲一个用户应该只会有一条记录那么如果某个用户出现了超过一条的记录这就产生了()
A、异常值
B、不一致的值
C、重复值
D、缺失值
正确答案
第19题某商品的产量(X件)与单位成本(Y元/件)之间的回归方程为^Y=1001.2X这说明()。
A、产量每增加一台,单位成本增加100元
B、产量每增加一台,单位成本减少1.2元
C、产量每增加一台,单位成本平均减少1.2元
D、产量每增加一台,单位平均增加100元
正确答案
第20题层次聚类对给定的数据进行()的分解。
A、聚合
B、层次
C、分拆
D、复制
正确答案
第21题Kmeans聚类中K值选取的方法是()。
A、密度分类法
B、手肘法
C、大腿法
D、随机选取
正确答案
第22题数据科学具有哪些性质()
A、有效性
B、可用性
C、未预料
D、可理解
正确答案
第23题多层感知机的学习过程包含()。
A、信号的正向传播
B、信号的反向传播
C、误差的正向传播
D、误差的反向传播
正确答案
第24题系统日志收集的基本特征有()
A、高可用性
B、高可靠性
C、可扩展性
D、高效率
正确答案
第25题层次聚类的方法是()
A、聚合方法
B、分拆方法
C、组合方法
D、比较方法
正确答案
第26题距离度量中的距离可以是()
A、欧式距离
B、曼哈顿距离
C、Lp距离
D、Minkowski距离
正确答案
第27题聚类的主要方法有()。
A、划分聚类
B、层次聚类
C、密度聚类
D、距离聚类
正确答案
第28题相关性的分类按照相关的方向可以分为()。
A、正相关
B、负相关
C、左相关
D、右相关
正确答案
第29题对于多层感知机()层拥有激活函数的功能神经元。
A、输入层
B、隐含层
C、输出层
正确答案
第30题什么情况下结点不用划分()
A、当前结点所包含的样本全属于同一类别
B、当前属性集为空,或是所有样本在所有属性上取值相同
C、当前结点包含的样本集为空
D、还有子集不能被基本正确分类
正确答案
第31题信息熵越大数据信息的不确定性越小。
T、对
F、错
正确答案
第32题Kmeans算法采用贪心策略通过迭代优化来近似求解。
T、对
F、错
正确答案
第33题Kmeans聚类是发现给定数据集的K个簇的算法。
T、对
F、错
正确答案
第34题特征的信息增益越大则其越不重要。
T、对
F、错
正确答案
第35题决策树的输入为训练集输出为以node为根结点的一棵决策树
T、对
F、错
正确答案
第36题探索性数据分析的特点是研究从原始数据入手完全以实际数据为依据。
T、对
F、错
正确答案
第37题sigmoid函数属于阶跃函数是神经网络中常见的激活函数。
T、对
F、错
正确答案
第38题在数据预处理时无论什么情况都可以直接将异常值删除
T、对
F、错
正确答案
第39题一般而言信息增益越大则意味着使用属性a来进行划分所获得的“纯度提升越大”因此我们可用信息增益来进行决策树的最优特征选择。
T、对
F、错
正确答案
第40题当特征为离散型时可以使用信息增益作为评价统计量。
T、对
F、错
正确答案
第41题支持度是衡量关联规则重要性的一个指标。
T、对
F、错
正确答案
第42题交叉表被广泛用于调查研究商业智能工程和科学研究
T、对
F、错
正确答案
第43题BFR聚类簇的坐标可以与空间的坐标保持一致。
T、对
F、错
正确答案
第44题在树的结构中特征越重要就越远离根节点。
T、对
F、错
正确答案
第45题神经网络中误差精度的提高可以通过增加隐含层中的神经元数目来实现。
T、对
F、错
正确答案
第46题多元线性回归模型中标准化偏回归系数没有单位。
T、对
F、错
正确答案
第47题单层感知机对于线性不可分的数据学习过程也可以收敛。
T、对
F、错
正确答案
第48题利用K近邻法进行分类时使用不同的距离度量所确定的最近邻点都是相同的。
T、对
F、错
正确答案
第49题EDA可以最大化数据分析者对数据集和数据集底层结构的洞察力并且为分析者提供数据集中包含的各类信息。
T、对
F、错
正确答案
第50题对于项集来说置信度没有意义。
T、对
F、错
正确答案
南开大学
奥鹏作业请联系QQ515224986
页:
[1]